linguistique – Maison des Sciences de l'Homme Paris-Saclay

Projet HistorIA / Atlas sonore des langues régionales (LIMSI)

Le projet « HistorIA », porté par Ioana Vasilescu, chercheure au LIMSI (CNRS-UPSud), constitue le prolongement du projet « Émergence 2017 » déjà labellisé par la MSH, sur l’étude des changements sonores analysés par l’intelligence artificielle (IA). Il s’inscrit dans la linguistique instrumentée de l’oral, qui construit des connaissances linguistiques à partir de l’exploration outillée des données langagières.

Le projet réunit des chercheurs dans les domaines linguistique instrumentée, linguistique historique, sociolinguistique et informatique, autour du thème innovant de l’évolution des langues romanes, étudiée avec des techniques issues de la reconnaissance vocale, de la statistique et de la sociolinguistique (enquêtes de terrain). L’approche est fondée sur des analyses automatisées qui font appel à de grandes masses de données orales à la fois contemporaines (enregistrements média) et issues d’archives historiques (journaux radio depuis la seconde guerre mondiale). Ces données sont étudiées par une postdoctorante aidée des systèmes automatiques d’alignement son-texte développés par le LIMSI.

Grâce au soutien de la MSH Paris-Saclay, les chercheurs ont déjà établi une cartographie des usages des dialectes italiens et corses disponibles en ligne (https://atlas.limsi.fr/?tab=IT ), qui complètent la cartographie française (https://atlas.limsi.fr/?tab=Hexagone).

Les résultats permettent de répondre à un triple objectif : la sauvegarde du patrimoine linguistique, la validation de théories et le développement du machine learning pour la reconnaissance vocale.

Workshop « Linguistique et Big Data » – 30/11/2017

Initié par le laboratoire LIMSI-CNRS et la Maison des Sciences de l’Homme Paris-Saclay, le workshop est organisé avec l’aide de LPP/Paris 3 Sorbonne et de CLILLAC ARP Paris 7. Il bénéficie du soutien des institutions et associations suivantes : labex EFL, AFCP, DGLFLF – Ministère de la Culture, ATALA, ELDA.

Le programme s’articule autour de la question des (grands) corpus pour les sciences humaines, des études inter et pluridisciplinaires entre différents domaines SHS concernés par les corpus et entre SHS/INS2I, des collaborations existantes ou possibles à Paris-Saclay, des interactions avec des pôles humanistes au-delà de Paris-Saclay.

PROGRAMME

09h00-⁠9h30 Accueil et ouverture de la journée

09h30-10h30 M. Liberman, University of Pennsylvania, Directeur de Linguistic Data Consortium. « Challenges and opportunities in the analysis of large linguistic datasets ».

10h30-⁠ 11h00 Pause café

11h00-11h30 F. de Jong, Utrecht Institute of Linguistics, Directrice exécutive de CLARIN ERIC. « CLARIN: Infrastructural support for the study of language as social and cultural data ».

11h30-12h00 P. Boula de Mareuil, LIMSI-CNRS, Univ. Paris-Saclay. « Pour une cartographie des accents en français et des langues de France ».

12h00-12h30 J. I. Hualde, University of Illinois at Urbana-Champaign. « Phonological categorization, sound change and speech corpora ».

12h30-⁠14h00 Pause déjeuner (buffet sur place)

14h00-14h30 M. Adda-Decker, L. Lamel, LPP/Université Paris 3 et LIMSI-CNRS, Univ. Paris-Saclay. « Discovering speech reductions across speaking styles and languages ».

14h30-15h00 C. Clavel, Telecom Paristech. « De la linguistique informatique à l’interaction humain-agent : vers des agents socialement compétents ».

15h00-15h30 C. Fabre, Université de Toulouse. « Utilisation d’outils de sémantique distributionnelle en linguistique – illustration dans le domaine de la morphologie ».

15h30-⁠16h00 Pause café

16h00-16h30 P. Paroubek, LIMSI-CNRS, Univ. Paris-Saclay. «Le Traitement Automatique des Langues à l’ère du « Big Data » : Le cas des publications scientifiques.»

16h30-17h00 K. Choukri, Directeur de « Evaluations and Language resources Distribution Agency » (ELRA/ELDA). « ELRA Activities related to mapping Laguage Resources and scientific work, a focus on LRMAP and Less REsourced Languages ».

17h00 -⁠ 18h00 Table ronde.

18h00 Cocktail.

20/11 : les inscriptions sont désormais closes.

Workshop « Linguistique et Big Data » – 30/11/2017 Lire la suite »