L'INTÉGRATION DE LA NUMÉRISATION DES LANGUES DANS L'ENSEIGNEMENT DES LANGUES ET LES ÉTUDES DE TRADUCTION
~ par
Gayane Hovhannisyan
RÉSUMÉ
L'arménien, langue aux ressources de numérisation limitées, doit faire face à une série de problèmes propres à l'ère moderne. Malgré l'amélioration constante des modèles linguistiques et la numérisation de la littérature arménienne, les traducteurs automatiques et les modèles d'intelligence artificielle les plus répandus peinent à résoudre certaines difficultés linguistiques et interdisciplinaires. La numérisation stable du corpus linguistique arménien est essentielle à la fois pour le développement de la langue et pour la résolution des problèmes complexes liés à sa numérisation. Elle permettra non seulement d'assurer sa pérennité dans le domaine de la communication numérique, mais aussi de préserver et de développer la pensée linguistique arménienne en tant que système unique de pensée naturelle et artificielle et source de référence primordiale au sein du système mental universel(1).
Outre une approche philosophique et méthodologique globale de la question, cet article vise également un objectif d'orientation scientifique et pédagogique précis.[Page.2] Il convient d'attirer l'attention des étudiants en linguistique, langues et traduction, ainsi que des concepteurs de leurs programmes d'enseignement, sur l'idée que les problèmes susmentionnés peuvent et doivent être résolus dans le cadre des programmes d'enseignement et de recherche existants, au sein de l'environnement scientifique et pédagogique universitaire(2), parallèlement à la réforme du système éducatif. En particulier, il est possible de proposer un apprentissage des langues dans le domaine de la traduction grâce à la création de corpus identiques, à l'alignement parallèle bilingue, à l'analyse des erreurs et à la création de bases de données de corpus systématiques.
Les problèmes de la numérisation des langues à faibles ressources
L'intégration numérique des langues à faibles ressources se heurte à des défis importants, notamment dans les domaines du traitement automatique du langage naturel (TALN) et de la traduction automatique (TA). L'expression « langues à faibles ressources » désigne généralement les langues qui ne disposent pas des données, ressources ou outils numériques nécessaires à un traitement efficace du langage et aux tâches informatiques. Relever ces défis implique de s'attaquer à plusieurs problèmes clés. La plupart des problèmes énumérés ci-dessous peuvent être résolus au sein des institutions académiques et de recherche grâce à une adaptation appropriée des programmes d'enseignement.
La première et fondamentale nécessité pour la numérisation d'une langue à faibles ressources comme l'arménien est la collecte de données. C'est l'un des problèmes les plus urgents : le manque de corpus textuels et oraux suffisants pour les langues à faibles ressources, un problème auquel l'arménien est toujours confronté malgré les multiples corpus disséminés dans le monde numérique, créés par les entreprises informatiques à des fins commerciales. La création et la gestion de vastes corpus de textes parallèles et d'enregistrements vocaux sont essentielles au développement de modèles de langage robustes, autonomes et évolutifs.[page.3] Ces ensembles de données constituent le fondement de l'entraînement des systèmes de traitement automatique du langage naturel (TALN) et de traduction automatique (TA), leur permettant de comprendre et de générer des textes précis dans ces langues.
Pour atteindre cet objectif, les ressources linguistiques de base doivent être organisées sous la forme d'un modèle de conscience linguistique, documentées et annotées. Il s'agit d'un travail manuel minutieux qui requiert l'implication d'étudiants et de chercheurs pendant au moins deux saisons, correspondant à plusieurs semestres ou années universitaires.
L'étape suivante consiste à mener à bien la documentation linguistique et à l'organiser comme un processus d'acquisition cohérent du produit. Cette tâche nécessite une structure importante, telle qu'un ministère ou au moins une direction d'université, pour fournir les outils, les ressources humaines et textuelles nécessaires à son développement. Le développement et l'adaptation d'outils et de ressources TALN courants, tels que les tokeniseurs, les étiqueteurs morphosyntaxiques et les analyseurs morphologiques, pour les langues à faibles ressources sont indispensables au traitement et à l'analyse des données linguistiques, favorisant ainsi les progrès futurs des technologies langagières. Bien que l'arménien dispose de méthodes de saisie informatique standard et que son écriture soit prise en charge par les systèmes d'exploitation modernes, et malgré l'existence de polices et de méthodes de saisie compatibles Unicode, la représentation numérique de la ponctuation arménienne et les outils de lecture optique des écritures et caractères anciens présentent encore certaines difficultés, empêchant leur utilisation dans la communication et la documentation numériques. Pour résoudre ces problèmes, des projets tels que Calfa(3) ont initié la numérisation des écritures anciennes et médiévales, dont l'arménien.
La solution aux problèmes susmentionnés réside non seulement dans l'acquisition des ressources nécessaires, mais aussi dans la formation de générations de spécialistes capables de gérer ce domaine stratégique fondamental pour l'économie et la gouvernance de tout État souverain.
[Page.4]Bien que la construction de modèles de traduction automatique efficaces pour les langues à faibles ressources soit complexe en raison de la rareté des corpus parallèles, dans l'enseignement supérieur, les programmes d'apprentissage des langues et de traductologie peuvent être conçus de manière à ce que les étudiants répondent à ce besoin : développer et adapter les modèles linguistiques dans le cadre de leurs apprentissages. Les technologies capables d'apprendre à partir de données limitées, telles que l'apprentissage semi-supervisé et l'apprentissage par transfert à partir de langues à ressources abondantes, constituent une solution possible. Ces approches tirent parti des ressources existantes pour améliorer la qualité de la traduction dans les langues à faibles ressources, tout en induisant un changement de paradigme dans l'enseignement supérieur.

.

.
...la suite de l'article ici
...traduisible grâce à
GOOGLE.TRADUCTION
Bonne continuation. InfoHay1915
#3575