Le projet « HistorIA », porté par Ioana Vasilescu, chercheure au LIMSI (CNRS-UPSud), constitue le prolongement du projet « Émergence 2017 » déjà labellisé par la MSH, sur l’étude des changements sonores analysés par l’intelligence artificielle (IA). Il s’inscrit dans la linguistique instrumentée de l’oral, qui construit des connaissances linguistiques à partir de l’exploration outillée des données langagières.

Le projet réunit des chercheurs dans les domaines linguistique instrumentée, linguistique historique, sociolinguistique et informatique, autour du thème innovant de l’évolution des langues romanes, étudiée avec des techniques issues de la reconnaissance vocale, de la statistique et de la sociolinguistique (enquêtes de terrain). L’approche est fondée sur des analyses automatisées qui font appel à de grandes masses de données orales à la fois contemporaines (enregistrements média) et issues d’archives historiques (journaux radio depuis la seconde guerre mondiale). Ces données sont étudiées par une postdoctorante aidée des systèmes automatiques d’alignement son-texte développés par le LIMSI.

Grâce au soutien de la MSH Paris-Saclay, les chercheurs ont déjà établi une cartographie des usages des dialectes italiens et corses disponibles en ligne (https://atlas.limsi.fr/?tab=IT ), qui complètent la cartographie française (https://atlas.limsi.fr/?tab=Hexagone).

Les résultats permettent de répondre à un triple objectif : la sauvegarde du patrimoine linguistique, la validation de théories et le développement du machine learning pour la reconnaissance vocale.