Le projet OTELO lauréat de l’Appel Excellence MSH Paris-Saclay / Institut DATAIA !
La MSH Paris-Saclay et l’Institut de Convergence DATAIA, se sont associés en décembre 2019 pour lancer un appel à projets visant à favoriser l’émergence de projets d’Excellence en Sciences des Données, Intelligence Artificielle et Société, menés par des chercheurs en Sciences Humaines et Sociales et sciences du numérique de Paris-Saclay.
L’objectif est de promouvoir des projets de recherche à fort potentiel sur le numérique, portés par des chercheurs issus d’unités et de disciplines différentes du territoire saclaysien.
Suite Ă l’Ă©valuation par des experts des dossiers de candidatures, et après audition des candidats sĂ©lectionnĂ©s et dĂ©libĂ©ration du comitĂ© d’audition de l’appel Ă projets d’Excellence, le projet OTELO (OnTologies pour l’Enrichissement de l’analyse Linguistique de l’Oral) a Ă©tĂ© dĂ©signĂ© laurĂ©at de cet appel 2019.
Nous adressons toutes nos félicitations aux porteurs du projet pour ce magnifique résultat !
Le projet OTELO (OnTologies pour l’Enrichissement de l’analyse Linguistique de l’Oral)
Le projet OTELO propose une analyse multi-niveaux de la langue parlĂ©e Ă partir de grands corpus oraux, segmentĂ©s et annotĂ©s automatiquement. L’hypothèse de travail est la suivante : la langue, qu’il s’agisse de sa variĂ©tĂ© Ă©crite ou orale, est intrinsèquement ambiguĂ« et polysĂ©mique. Les linguistes aspirent Ă rendre compte de cette ambiguĂ¯tĂ© dans le but de comprendre son fonctionnement.
Les chercheurs en sciences et technologies de l’information sont également concernés par la formalisation de la variation linguistique dans des buts applicatifs. Les travaux qui s’intéressent à une description exhaustive de la langue sont rares car ils impliquent des démarches venant de plusieurs communautés scientifiques.
Le projet OTELO est portĂ© par deux chercheurs en linguistique (I. Vasilescu, LIMSI) et en informatique (F. Suchanek, TĂ©lĂ©com Paris) et propose une analyse approfondie de la langue Ă partir de donnĂ©es orales. SegmentĂ©es en phones et mots, ces donnĂ©es seront ensuite enrichies avec des connaissances concernant le statut grammatical des mots, leurs relations syntaxiques et sĂ©mantiques en contexte. Les rĂ©sultats attendus concernent le rĂ´le de l’information phonĂ©tique dans la dĂ©sambiguĂ¯sation des homophonies contextuelles impliquant des entitĂ©s, et l’impact des connaissances linguistiques de « haut niveau » (grammaticales, syntaxiques, sĂ©mantiques) dans la diffusion des motifs de variation phonĂ©tique au sein des mots d’une langue. Ces rĂ©sultats prĂ©sentent un double intĂ©rĂªt : pour la communautĂ© linguistique car il s’agit de proposer une analyse Ă©largie de la langue, Ă partir de l’existant, Ă savoir de grands corpus ; et pour les sciences du numĂ©rique qui aspirent Ă modĂ©liser les sources de variation linguistique afin de rendre plus robustes les applications (par exemple, les agents conversationnels).
Les porteurs du projet :
Ioana VASILESCU, Université Paris-Saclay, CNRS, LIMSI
Ioana Vasilescu est linguiste, recrutĂ©e au LIMSI CNRS en tant que chargĂ©e de recherche (CR1) sur un poste « flĂ©chĂ© STIC ». Elle travaille sur des thèmes se situant Ă l’interface de la linguistique et du traitement automatique des langues en production et en perception (analyse de la variation dans des grands corpus oraux, analyse des erreurs des systèmes de reconnaissance vocale, comparaison homme vs systèmes automatiques dans le traitement de la communication parlĂ©e). Ses travaux ont donnĂ© lieu Ă plus de 80 publications, incluant 15 article de revues et chapitres de livres, l’Ă©dition d’un livre sur les erreurs dans le traitement de la parole par les humains et les systèmes automatiques, et 45 confĂ©rences internationales avec comitĂ© de lecture. Elle a participĂ© et participe Ă de nombreux projets incluant deux projets soutenus par la MSH Paris-Saclay Ă travers les appels Émergence et Maturation (« HistorIA »), d’autres projets nationaux (Chaire IA HUMAAINE, « Bad nudge-bad robot » DATAIA, ANR VERA), franco-allemand (Quaero) et internationaux (CHIL, TC Star). I. Vasilescu enseigne l’introduction aux humanitĂ©s numĂ©riques Ă l’UniversitĂ© Sorbonne Nouvelle et a participĂ© Ă l’organisation de diffĂ©rentes manifestations scientifiques nationales et internationales (dont le workshop « Linguistique et Big Data », soutenu par la MSH en 2017).
Fabian SUCHANEK, Télécom Paris
Fabian M. Suchanek est professeur Ă TĂ©lĂ©com Paris. Fabian Suchanek a notamment dĂ©veloppĂ© la base de connaissances YAGO, l’une des plus grandes bases de connaissances publiques Ă usage gĂ©nĂ©ral. Cela lui a valu une mention honorable du prix de la dissertation SIGMOD et du prix Test of Time de 10 ans de la confĂ©rence Web (WWW 2018). Ses intĂ©rĂªts incluent l’extraction d’informations, le raisonnement automatisĂ© et les bases de connaissances. Fabian a publiĂ© environ 90 articles scientifiques, entre autres Ă ISWC, VLDB, SIGMOD, WWW, CIKM, ICDE et SIGIR, et son travail a Ă©tĂ© citĂ© plus de 10000 fois.