Le projet OTELO lauréat de l’Appel Excellence MSH Paris-Saclay / Institut DATAIA !
La MSH Paris-Saclay et l’Institut de Convergence DATAIA, se sont associés en décembre 2019 pour lancer un appel à projets visant à favoriser l’émergence de projets d’Excellence en Sciences des Données, Intelligence Artificielle et Société, menés par des chercheurs en Sciences Humaines et Sociales et sciences du numérique de Paris-Saclay.
L’objectif est de promouvoir des projets de recherche à fort potentiel sur le numérique, portés par des chercheurs issus d’unités et de disciplines différentes du territoire saclaysien.
Suite à l’évaluation par des experts des dossiers de candidatures, et après audition des candidats sélectionnés et délibération du comité d’audition de l’appel à projets d’Excellence, le projet OTELO (OnTologies pour l’Enrichissement de l’analyse Linguistique de l’Oral) a été désigné lauréat de cet appel 2019.
Nous adressons toutes nos félicitations aux porteurs du projet pour ce magnifique résultat !
Le projet OTELO (OnTologies pour l’Enrichissement de l’analyse Linguistique de l’Oral)
Le projet OTELO propose une analyse multi-niveaux de la langue parlée à partir de grands corpus oraux, segmentés et annotés automatiquement. L’hypothèse de travail est la suivante : la langue, qu’il s’agisse de sa variété écrite ou orale, est intrinsèquement ambiguë et polysémique. Les linguistes aspirent à rendre compte de cette ambiguïté dans le but de comprendre son fonctionnement.
Les chercheurs en sciences et technologies de l’information sont également concernés par la formalisation de la variation linguistique dans des buts applicatifs. Les travaux qui s’intéressent à une description exhaustive de la langue sont rares car ils impliquent des démarches venant de plusieurs communautés scientifiques.
Le projet OTELO est porté par deux chercheurs en linguistique (I. Vasilescu, LIMSI) et en informatique (F. Suchanek, Télécom Paris) et propose une analyse approfondie de la langue à partir de données orales. Segmentées en phones et mots, ces données seront ensuite enrichies avec des connaissances concernant le statut grammatical des mots, leurs relations syntaxiques et sémantiques en contexte. Les résultats attendus concernent le rôle de l’information phonétique dans la désambiguïsation des homophonies contextuelles impliquant des entités, et l’impact des connaissances linguistiques de « haut niveau » (grammaticales, syntaxiques, sémantiques) dans la diffusion des motifs de variation phonétique au sein des mots d’une langue. Ces résultats présentent un double intérêt : pour la communauté linguistique car il s’agit de proposer une analyse élargie de la langue, à partir de l’existant, à savoir de grands corpus ; et pour les sciences du numérique qui aspirent à modéliser les sources de variation linguistique afin de rendre plus robustes les applications (par exemple, les agents conversationnels).
Les porteurs du projet :
Ioana VASILESCU, Université Paris-Saclay, CNRS, LIMSI
Ioana Vasilescu est linguiste, recrutée au LIMSI CNRS en tant que chargée de recherche (CR1) sur un poste « fléché STIC ». Elle travaille sur des thèmes se situant à l’interface de la linguistique et du traitement automatique des langues en production et en perception (analyse de la variation dans des grands corpus oraux, analyse des erreurs des systèmes de reconnaissance vocale, comparaison homme vs systèmes automatiques dans le traitement de la communication parlée). Ses travaux ont donné lieu à plus de 80 publications, incluant 15 article de revues et chapitres de livres, l’édition d’un livre sur les erreurs dans le traitement de la parole par les humains et les systèmes automatiques, et 45 conférences internationales avec comité de lecture. Elle a participé et participe à de nombreux projets incluant deux projets soutenus par la MSH Paris-Saclay à travers les appels Émergence et Maturation (« HistorIA »), d’autres projets nationaux (Chaire IA HUMAAINE, « Bad nudge-bad robot » DATAIA, ANR VERA), franco-allemand (Quaero) et internationaux (CHIL, TC Star). I. Vasilescu enseigne l’introduction aux humanités numériques à l’Université Sorbonne Nouvelle et a participé à l’organisation de différentes manifestations scientifiques nationales et internationales (dont le workshop « Linguistique et Big Data », soutenu par la MSH en 2017).
Fabian SUCHANEK, Télécom Paris
Fabian M. Suchanek est professeur à Télécom Paris. Fabian Suchanek a notamment développé la base de connaissances YAGO, l’une des plus grandes bases de connaissances publiques à usage général. Cela lui a valu une mention honorable du prix de la dissertation SIGMOD et du prix Test of Time de 10 ans de la conférence Web (WWW 2018). Ses intérêts incluent l’extraction d’informations, le raisonnement automatisé et les bases de connaissances. Fabian a publié environ 90 articles scientifiques, entre autres à ISWC, VLDB, SIGMOD, WWW, CIKM, ICDE et SIGIR, et son travail a été cité plus de 10000 fois.