Archives de catégorie : Non classé

Diffusion du corpus PASTEL

[Téléchargez le corpus PASTEL ici](https://github.com/nicolashernandez/anr-pastel-data)

Ce corpus vise à étudier l’apport de la transcription automatique de la parole dans des contextes d’apprentissage humain (cours magistraux et travaux dirigés). Les données ont été collectées à partir du projet CominOpenCoursware (COCo)[1], qui met à disposition des vidéos et ressources annexes (diaporama, alignement de temps de vidéo avec changement de page de diaporama), mais aussi de la plateforme Canal-U [2], une bibliothèque en ligne de l’enseignement supérieur. Toutes les vidéos ont été manuellement transcrites pour un annotateur expert humain en utilisant l’outil Transcriber. Les conventions utilisées lors des campagnes d’évaluation de transcription servent de guide pour les transcriptions des vidéos de cours.

Le présent répertoire se compose de la transcription manuelle obtenue de cours magistraux d’1h environ chacun. Chacun s’accompagne d’un corpus du domaine, de l’annotation en mots clefs de la transcription/diaporama, de l’annotation en concepts de la wikipedia, de l’annotation en segments thématiques (2 grains) de la transcription. Les cours et ressources associées sont en français.

Le corpus PASTEL a été présenté lors de INTERSPEECH 2019 [3] et de LREC 2020 [4]. Il est aussi partiellement décrit dans la thèse de Salima Mdhaffar [5].

[1] http://www.comin-ocw.org
[2] https://www.canal-u.tv/
[3] Salima Mdhaffar, Yannick Estève, Nicolas Hernandez, Antoine Laurent, Richard Dufour, Solen Quiniou. Qualitative Evaluation of ASR Adaptation in a Lecture Context: Application to the PASTEL Corpus, Interspeech, Graz, Austria. pp.569-573, Sep 2019
[4] Salima Mdhaffar, Yannick Estève, Antoine Laurent, Nicolas Hernandez, Richard Dufour, Delphine Charlet, Geraldine Damnati, Solen Quiniou, Nathalie Camelin. A Multimodal Educational Corpus of Oral Courses: Annotation, Analysis and Case Study. In Proceedings of the 12th Language Resources and Evaluation Conference (LREC), 2020
[5] Salima Mdhaffar, “Reconnaissance de la parole dans un contexte de cours magistraux : évaluation, avancées et enrichissement”, thèse encadrée par Yannick Estève, Antoine Laurent, Nicolas Hernandez, Solen Quiniou, soutenue à Avignon le 01/07/2020

Soutenance de thèse – Salima Mdhaffar – 1 juillet 2020

Bonsoir à tous,

J’ai le plaisir de vous informer que ma soutenance de thèse intitulé « Reconnaissance de la parole dans un contexte de cours magistraux : évaluation, avancées et enrichissement » aura lieu le mercredi 1 Juillet 2020 à 9h30 à l’université d’Avignon en Visio-conférences.

Le jury est composé de:

Rapporteurs:

-M. Georges Linarès (Professeur, Université d’Avignon)

-Mme Irina Illina (Maître de conférences HDR, Université de Nancy)

Examinateurs:

-M. Sylvain Meignier (Professeur, Le Mans Université)

-M. Olivier Galibert (Ingénieur de recherche, Laboratoire National de Métrologie et d’Essais)

-Mme Camille Guinaudeau (Maître de conférences, Université de Paris Saclay)

Directeur de thèse:

-M. Yannick Estève (Professeur, Université d’Avignon)

Co-encadrants:

-M. Antoine Laurent (Maître de conférences, Le Mans Université)

-M. Nicolas Hernandez (Maître de conférences, Université de Nantes)

-Mme Solen Quiniou (Maître de conférences, Université de Nantes)

Résumé:

Cette thèse s’inscrit dans le cadre d’une étude sur le potentiel de la transcription automatique pour l’instrumentation de situations pédagogiques. Notre contribution porte sur plusieurs axes. Dans un premier temps, nous décrivons l’enrichissement et l’annotation du corpus COCo que nous avons réalisés dans le cadre du projet ANR PASTEL. Ce corpus est composé de vidéos de différents cours magistraux, chacun étant spécialisé dans un domaine particulier (langage naturel, graphes, fonctions…). Dans ce cadre multi-thématiques, nous nous sommes ensuite intéressés à la problématique de l’adaptation linguistique des systèmes de reconnaissance automatique de la parole (SRAP). La proposition d’adaptation des modèles s’appuie à la fois sur les supports de présentation de cours fournis par les enseignants et sur des données spécialisées récoltées automatiquement à partir du web. Puis, nous nous sommes focalisés sur la problématique de l’évaluation des SRAP, les métriques existantes ne permettant pas une évaluation précise de la qualité des transcriptions dans un cadre applicatif déterminé. Ainsi, nous avons proposé deux protocoles d’évaluation. Le premier porte sur une évaluation intrinsèque, permettant d’estimer la performance seulement pour des mots spécialisés de chacun des cours (IWER Average). D’autre part, nous proposons une évaluation extrinsèque, qui estime la performance pour deux tâches exploitant la transcription: la recherche d’informations et l’indexabilité. Nos résultats expérimentaux montrent que le taux d’erreurs-mots global (WER) masque les apports effectifs de l’adaptation des modèles de langage et prouve la nécessité d’utiliser de nouvelles mesures, telles que celles présentées dans ce manuscrit, pour évaluer l’apport réel de l’adaptation des modèles de langage. L’adaptation reposant sur une collecte de données issues du web, nous avons cherché à rendre compte de la reproductibilité des résultats sur l’adaptation de modèles de langage en comparant les performances obtenues sur une longue période temporelle. Nos résultats expérimentaux montrent que même si les données sur le web changent en partie d’une période à l’autre, la variabilité de la performance des systèmes de transcription adaptés est restée non significative à partir d’un nombre minimum de documents collectés. Enfin, nous avons proposé une approche permettant de structurer la sortie de la transcription automatique en segmentant thématiquement la transcription et en alignant la transcription avec les diapositives des supports de cours. Pour la segmentation, l’intégration de l’information de changement de diapositives dans l’algorithme TextTiling apporte un gain significatif en termes de F-mesure. Pour l’alignement, nous avons développé une technique basé sur des représentations TF-IDF en imposant une contrainte pour respecter l’ordre séquentiel des diapositives et des segments de transcription et nous avons vérifié la fiabilité de l’approche utilisée à l’aide d’une mesure de confiance.

Cordialement,

–Salima Mdhaffar

Journée Scientifique Data Science, Intelligence Artificielle et Éducation

Présentation du projet PASTEL lors des journées scientifiques de l’Université de Nantes du Vendredi 21 juin 2019, à la Cité des Congrès, Nantes.

La journée organisée dans le cadre du projet AILE [1] avait pour objet de dresser le panel des projets de recherche en e-education dans l’écosystème numérique nantais.

La journée accueillait deux conférenciers invités Pierre Dillenbourg et Daniel Peraya. Le programme et les différent supports sont disponibles sur le site web dédié à cette journée [2].

Présentation West Data Festival

Le 7 Février 2019, dans le cadre des Journées West Data Festival, dédiées à l’Intelligence Artificielle et aux Big Data et réunissant les acteurs industriels et académiques du Grand Ouest dans le domaine, Géraldine Damnati (Orange) et Christophe Choquet (LIUM) ont fait une présentation conjointe portant sur l’exploration des connaissances multimédia et son application dans PASTEL.

Ce fut l’occasion d’échanger avec le public sur les résultats du projet et de nouer quelques contacts avec les acteurs économiques du secteur.

Assemblée Générale du projet

Le 12 novembre 2018, une vingtaine de participants du projet et représentant l’ensemble des partenaires se sont réunis à Laval, dans les locaux de l’IUT, pour faire le point sur le projet et ses avancées.

La matinée a été consacrée à une présentation de l’activité et des résultats de chaque lot. Ce fut l’occasion de préparer ensemble la revue d’évaluation à mi-parcours de l’ANR.

L’après-midi a été organisée en trois temps, chacun consacré à l’étude du scénario d’utilisation ciblé par chacune des situations pédagogiques que le projet se propose d’instrumenter :

le cours magistral ;
le TD collaboratif ;
la création de contenus d’un SPOC.

Ce fut l’occasion de faire un point précis sur les prototypes développés et le cahier des charges fonctionnel de ce qui reste à faire avant la fin du projet.

A noter que le Vice-Présidant Numérique de Le Mans Université, Nicolas Postec, a participé à la première partie de cette réunion, et s’est déclaré impressionné par la qualité et l’ampleur du travail effectué. Il a interpellé les participants sur l’intérêt qu’il voyait à “passer à l’échelle”, de manière à développer l’offre numérique de soutien à l’enseignement à Le Mans Université, et plus largement au sein de la communauté universitaire.

Ouverture du site du projet PASTEL

Ceci est un article de test.

Ceci est un test d’édition.