Archives par mot-clé : corpus

Diffusion du corpus PASTEL

[Téléchargez le corpus PASTEL ici](https://github.com/nicolashernandez/anr-pastel-data)

Ce corpus vise à étudier l’apport de la transcription automatique de la parole dans des contextes d’apprentissage humain (cours magistraux et travaux dirigés). Les données ont été collectées à partir du projet CominOpenCoursware (COCo)[1], qui met à disposition des vidéos et ressources annexes (diaporama, alignement de temps de vidéo avec changement de page de diaporama), mais aussi de la plateforme Canal-U [2], une bibliothèque en ligne de l’enseignement supérieur. Toutes les vidéos ont été manuellement transcrites pour un annotateur expert humain en utilisant l’outil Transcriber. Les conventions utilisées lors des campagnes d’évaluation de transcription servent de guide pour les transcriptions des vidéos de cours.

Le présent répertoire se compose de la transcription manuelle obtenue de cours magistraux d’1h environ chacun. Chacun s’accompagne d’un corpus du domaine, de l’annotation en mots clefs de la transcription/diaporama, de l’annotation en concepts de la wikipedia, de l’annotation en segments thématiques (2 grains) de la transcription. Les cours et ressources associées sont en français.

Le corpus PASTEL a été présenté lors de INTERSPEECH 2019 [3] et de LREC 2020 [4]. Il est aussi partiellement décrit dans la thèse de Salima Mdhaffar [5].

[1] http://www.comin-ocw.org

[2] https://www.canal-u.tv/

[3] Salima Mdhaffar, Yannick Estève, Nicolas Hernandez, Antoine Laurent, Richard Dufour, Solen Quiniou. Qualitative Evaluation of ASR Adaptation in a Lecture Context: Application to the PASTEL Corpus, Interspeech, Graz, Austria. pp.569-573, Sep 2019

[4] Salima Mdhaffar, Yannick Estève, Antoine Laurent, Nicolas Hernandez, Richard Dufour, Delphine Charlet, Geraldine Damnati, Solen Quiniou, Nathalie Camelin. A Multimodal Educational Corpus of Oral Courses: Annotation, Analysis and Case Study. In Proceedings of the 12th Language Resources and Evaluation Conference (LREC), 2020

[5] Salima Mdhaffar, “Reconnaissance de la parole dans un contexte de cours magistraux : évaluation, avancées et enrichissement”, thèse encadrée par Yannick Estève, Antoine Laurent, Nicolas Hernandez, Solen Quiniou, soutenue à Avignon le 01/07/2020