Invited talks

Sylvain Kahane (Modyco, Université Paris Nanterre & CNRS / Institut Universitaire de France)

Titre : Règles de grammaires et corpus annotés - Autour du projet Autogramm

Résumé : Dans cette présentation, nous discuterons de ce qu’est une règle de grammaire et de la façon dont on peut extraire de telles règles d’un corpus annoté. Ce questionnement est au centre du projet ANR Autogramm (Modyco, Lacito, Lisn, Loria-Sémagram), sur l’induction de grammaires descriptives à partir de corpus annotés. Nous insisterons sur l’intérêt d’avoir des règles de grammaire quantifiées et ordonnées pour la caractérisation d’un corpus et à travers lui d'une langue ou d’un état de langue. Nous présenterons les différents travaux éffectuées dans le cadre du projet concernant le développement de treebanks, d’outils d'annotation et d’extraction automatique de règles de grammaire.

[Slides (pdf)]

Agata Savary (LISN, Université Paris Saclay & CNRS)

Titre: Nous croyions que les yeux de la coréférence étaient fermés sur les expressions polylexicales et ils le sont la plupart de temps

Résumé : Les expressions polylexicales sont des combinaisons de plusieurs mots qui possèdent des propriétés sémantiques particulières, comme des degrés variés de compositionnalité sémantique, la décomposabilité, la transparence et la figuration. Plusieurs débats linguistiques suggèrent que les idiosyncrasies sémantiques de ces types conditionnent les configurations morpho-syntaxiques dans lesquelles une expressions polylexicale donnée peut apparaître. Nous étendons cette argumentation à la coréférence nominale. Nous posons l'hypothèse que les composants internes d'une expression polylexicale sont peu susceptibles d'appartenir à des chaînes coréférentielles. Bien que des travaux antérieurs aient remarqué la rareté des phénomènes liés à la coréférence en présence d'expressions polylexicales, à notre connaissance, cette observation n'avait pas été quantifiée. Nous comblons cette lacune par une étude des intersections entre les expressions polylexicales verbales et la coréférence nominale dans des corpus français. Les résultats corroborent largement notre hypothèse mais montrent également des tendances variables selon les types d'expressions polylexicales et le genre du corpus. L'analyse des certains exemples révèle des propriétés intéressantes de la coréférence, notamment dans en parole spontanée.

[Slides (pdf)]

François Yvon (ISIR, Sorbonne Université & CNRS)

Titre: Construire et évaluer des modèles de langue massivement multilingues

Résumé : Dans cette présentation, je discuterai des difficultés que pose l'apprentissage et l'évaluation de modèles de langue massivement multilingues, capables de prendre en charges des dizaines, voire des centaines de langues. Après avoir motivé l'apprentissage de tels modèles, je m'arrêterai, en m'appuyant sur l'expérience du développement du modèle Glot-500 et des ressources associées, sur la question de la prise en charge de langues "moins bien dotées", c'est-à-dire pour lequelles les données d'apprentissage sont souvent lacunaires, très spécialisées, ainsi que possiblement très bruitées.

[Slides (pdf)]

Privacy | Accessibility