Archives de l’auteur :

Soutenance de thèse – Salima Mdhaffar – 1 juillet 2020

Bonsoir à tous,

J’ai le plaisir de vous informer que ma soutenance de thèse intitulé « Reconnaissance de la parole dans un contexte de cours magistraux : évaluation, avancées et enrichissement » aura lieu le mercredi 1 Juillet 2020 à 9h30 à l’université d’Avignon en Visio-conférences.
Le jury est composé de:
Rapporteurs:
-M. Georges Linarès (Professeur, Université d’Avignon)
-Mme Irina Illina (Maître de conférences HDR, Université de Nancy)
Examinateurs:
-M. Sylvain Meignier (Professeur, Le Mans Université)
-M. Olivier Galibert (Ingénieur de recherche, Laboratoire National de Métrologie et d’Essais)
-Mme Camille Guinaudeau (Maître de conférences, Université de Paris Saclay)
Directeur de thèse:
-M. Yannick Estève (Professeur, Université d’Avignon)
Co-encadrants:
-M. Antoine Laurent (Maître de conférences, Le Mans Université)
-M. Nicolas Hernandez (Maître de conférences, Université de Nantes)
-Mme Solen Quiniou (Maître de conférences, Université de Nantes)
Résumé:
Cette thèse s’inscrit dans le cadre d’une étude sur le potentiel de la transcription automatique pour l’instrumentation de situations pédagogiques. Notre contribution porte sur plusieurs axes. Dans un premier temps, nous décrivons l’enrichissement et l’annotation du corpus COCo que nous avons réalisés dans le cadre du projet ANR PASTEL. Ce corpus est composé de vidéos de différents cours magistraux, chacun étant spécialisé dans un domaine particulier (langage naturel, graphes, fonctions…). Dans ce cadre multi-thématiques, nous nous sommes ensuite intéressés à la problématique de l’adaptation linguistique des systèmes de reconnaissance automatique de la parole (SRAP). La proposition d’adaptation des modèles s’appuie à la fois sur les supports de présentation de cours fournis par les enseignants et sur des données spécialisées récoltées automatiquement à partir du web. Puis, nous nous sommes focalisés sur la problématique de l’évaluation des SRAP, les métriques existantes ne permettant pas une évaluation précise de la qualité des transcriptions dans un cadre applicatif déterminé. Ainsi, nous avons proposé deux protocoles d’évaluation. Le premier porte sur une évaluation intrinsèque, permettant d’estimer la performance seulement pour  des mots spécialisés de chacun des cours (IWER Average). D’autre part, nous proposons une évaluation extrinsèque, qui estime la performance pour deux tâches exploitant la transcription: la recherche d’informations et l’indexabilité. Nos résultats expérimentaux montrent que le taux d’erreurs-mots global (WER) masque les apports effectifs de l’adaptation des modèles de langage et  prouve la nécessité d’utiliser de nouvelles mesures, telles que celles présentées dans ce manuscrit, pour évaluer l’apport réel de l’adaptation des modèles de langage. L’adaptation reposant sur une collecte de données issues du web, nous avons cherché à rendre compte de la reproductibilité des résultats sur l’adaptation de modèles de langage en comparant les performances obtenues sur une longue période temporelle. Nos résultats expérimentaux montrent que même si les données sur le web changent en partie d’une période à l’autre, la variabilité de la performance des systèmes de transcription adaptés est restée non significative à partir d’un nombre minimum de documents collectés. Enfin, nous avons proposé une approche permettant de structurer la sortie de la transcription automatique en segmentant thématiquement la transcription et en alignant la transcription avec les diapositives des supports de cours. Pour la segmentation, l’intégration de l’information de changement de diapositives dans l’algorithme TextTiling apporte un gain significatif en termes de F-mesure. Pour l’alignement, nous avons développé une technique basé sur des représentations TF-IDF en imposant une contrainte pour respecter l’ordre séquentiel des diapositives et des segments de transcription et nous avons vérifié la fiabilité de l’approche utilisée à l’aide d’une mesure de confiance.
Cordialement,
Salima Mdhaffar

Journée Scientifique Data Science, Intelligence Artificielle et Éducation

Présentation du projet PASTEL lors des journées scientifiques de l’Université de Nantes du Vendredi 21 juin 2019, à la Cité des Congrès, Nantes.

La journée organisée dans le cadre du projet AILE [1] avait pour objet de dresser le panel des projets de recherche en e-education dans l’écosystème numérique nantais.

La journée accueillait deux conférenciers invités Pierre Dillenbourg et Daniel Peraya. Le programme et les différent supports sont disponibles sur le site web dédié à cette journée [2].

 

Project AILE – AI for Learning Environments

Le LS2N a obtenu un soutien financé des Actions Exploratoires du CominLab pour un projet structurant d’un an qui vise à rapprocher des chercheurs de plusieurs équipes au LS2N et à l’IMT Atlantique impliqués dans des projets en lien avec l’enseignement, l’apprentissage et la formation “en ligne”. L’objectif est de préparer l’augmentation de leurs activités dans le thème pour les cinq prochaines années.

Parmi les actions pour construire cet éco-système, différentes activités scientifiques régulières seront mises en place (tenue de séminaires transversaux, organisation d’événements, recrutement de stagiaires, participation à colloques…).

Le 21 juin 2019 se tiendra notamment un atelier francophone à la Cité des Congrés de Nantes sur le thème “Data Science, Intelligence Artificielle et Education” où le projet PASTEL sera (re)présenté.

[En savoir plus]

MappSent, measuring Text-to-Text Similarity

MappSent, Python system implementing a Mapping Approach for measuring Text-to-Text Similarity

  • Based on a linear text segment (e.g. sentence) embedding representation, its principle is to build a matrix that maps text segments in a joint-subspace where similar sets of segments are pushed closer.
  • We evaluate our approach on the SemEval 2016 and 2017 question-to-question similarity task and show that overall MappSent achieves competitive results and outperforms in most cases state-of-art methods.

Download the sources (under Apache v2 license)

PyRATA, Python Rule-based feAture sTructure Analysis

  • provides regular expression (re) matching methods on a more complex structure than a list of characters (string), namely a sequence of features set (i.e. list of dict in python jargon);
  • is free from the information encapsulated in the features and consequently can work with word features, sentences features, calendar event features… Indeed, PyRATA is not only dedicated to process textual data.
  • is fun and easy to use to explore data for research study, solve deterministic problems, formulate expert knowledge in a declarative way, prototype quickly models and generate training data for Machine Learning (ML) systems, extract ML features, augment ML models…

Download the sources (under Apache v2 license)