Diffusion du corpus PASTEL
Ce corpus vise à étudier l’apport de la transcription automatique de la parole dans des contextes d’apprentissage humain (cours magistraux et travaux dirigés). Les données ont été collectées à partir du projet CominOpenCoursware (COCo)[1], qui met à disposition des vidéos et ressources annexes (diaporama, alignement de temps de vidéo avec changement de page de diaporama), mais aussi de la plateforme Canal-U [2], une bibliothèque en ligne de l’enseignement supérieur. Toutes les vidéos ont été manuellement transcrites pour un annotateur expert humain en utilisant l’outil Transcriber. Les conventions utilisées lors des campagnes d’évaluation de transcription servent de guide pour les transcriptions des vidéos de cours.
Le présent répertoire se compose de la transcription manuelle obtenue de cours magistraux d’1h environ chacun. Chacun s’accompagne d’un corpus du domaine, de l’annotation en mots clefs de la transcription/diaporama, de l’annotation en concepts de la wikipedia, de l’annotation en segments thématiques (2 grains) de la transcription. Les cours et ressources associées sont en français.
Le corpus PASTEL a été présenté lors de INTERSPEECH 2019 [3] et de LREC 2020 [4]. Il est aussi partiellement décrit dans la thèse de Salima Mdhaffar [5].
[1] http://www.comin-ocw.org [2] https://www.canal-u.tv/ [3] Salima Mdhaffar, Yannick Estève, Nicolas Hernandez, Antoine Laurent, Richard Dufour, Solen Quiniou. Qualitative Evaluation of ASR Adaptation in a Lecture Context: Application to the PASTEL Corpus, Interspeech, Graz, Austria. pp.569-573, Sep 2019 [4] Salima Mdhaffar, Yannick Estève, Antoine Laurent, Nicolas Hernandez, Richard Dufour, Delphine Charlet, Geraldine Damnati, Solen Quiniou, Nathalie Camelin. A Multimodal Educational Corpus of Oral Courses: Annotation, Analysis and Case Study. In Proceedings of the 12th Language Resources and Evaluation Conference (LREC), 2020 [5] Salima Mdhaffar, “Reconnaissance de la parole dans un contexte de cours magistraux : évaluation, avancées et enrichissement”, thèse encadrée par Yannick Estève, Antoine Laurent, Nicolas Hernandez, Solen Quiniou, soutenue à Avignon le 01/07/2020
Soutenance de thèse – Salima Mdhaffar – 1 juillet 2020
Bonsoir à tous,
Journée Scientifique Data Science, Intelligence Artificielle et Éducation
Présentation du projet PASTEL lors des journées scientifiques de l’Université de Nantes du Vendredi 21 juin 2019, à la Cité des Congrès, Nantes.
La journée organisée dans le cadre du projet AILE [1] avait pour objet de dresser le panel des projets de recherche en e-education dans l’écosystème numérique nantais.
La journée accueillait deux conférenciers invités Pierre Dillenbourg et Daniel Peraya. Le programme et les différent supports sont disponibles sur le site web dédié à cette journée [2].
Présentation West Data Festival
Le 7 Février 2019, dans le cadre des Journées West Data Festival, dédiées à l’Intelligence Artificielle et aux Big Data et réunissant les acteurs industriels et académiques du Grand Ouest dans le domaine, Géraldine Damnati (Orange) et Christophe Choquet (LIUM) ont fait une présentation conjointe portant sur l’exploration des connaissances multimédia et son application dans PASTEL.
Ce fut l’occasion d’échanger avec le public sur les résultats du projet et de nouer quelques contacts avec les acteurs économiques du secteur.
Assemblée Générale du projet
Le 12 novembre 2018, une vingtaine de participants du projet et représentant l’ensemble des partenaires se sont réunis à Laval, dans les locaux de l’IUT, pour faire le point sur le projet et ses avancées.
La matinée a été consacrée à une présentation de l’activité et des résultats de chaque lot. Ce fut l’occasion de préparer ensemble la revue d’évaluation à mi-parcours de l’ANR.
L’après-midi a été organisée en trois temps, chacun consacré à l’étude du scénario d’utilisation ciblé par chacune des situations pédagogiques que le projet se propose d’instrumenter :
- le cours magistral ;
- le TD collaboratif ;
- la création de contenus d’un SPOC.
Ce fut l’occasion de faire un point précis sur les prototypes développés et le cahier des charges fonctionnel de ce qui reste à faire avant la fin du projet.
A noter que le Vice-Présidant Numérique de Le Mans Université, Nicolas Postec, a participé à la première partie de cette réunion, et s’est déclaré impressionné par la qualité et l’ampleur du travail effectué. Il a interpellé les participants sur l’intérêt qu’il voyait à “passer à l’échelle”, de manière à développer l’offre numérique de soutien à l’enseignement à Le Mans Université, et plus largement au sein de la communauté universitaire.
Project AILE – AI for Learning Environments
Le LS2N a obtenu un soutien financé des Actions Exploratoires du CominLab pour un projet structurant d’un an qui vise à rapprocher des chercheurs de plusieurs équipes au LS2N et à l’IMT Atlantique impliqués dans des projets en lien avec l’enseignement, l’apprentissage et la formation “en ligne”. L’objectif est de préparer l’augmentation de leurs activités dans le thème pour les cinq prochaines années.
Parmi les actions pour construire cet éco-système, différentes activités scientifiques régulières seront mises en place (tenue de séminaires transversaux, organisation d’événements, recrutement de stagiaires, participation à colloques…).
[En savoir plus]MappSent, measuring Text-to-Text Similarity
MappSent, Python system implementing a Mapping Approach for measuring Text-to-Text Similarity
- Based on a linear text segment (e.g. sentence) embedding representation, its principle is to build a matrix that maps text segments in a joint-subspace where similar sets of segments are pushed closer.
- We evaluate our approach on the SemEval 2016 and 2017 question-to-question similarity task and show that overall MappSent achieves competitive results and outperforms in most cases state-of-art methods.
Download the sources (under Apache v2 license)
EXIDE, Extracting information from presentation
EXIDE, Python module for information extraction (logical structure…) from presentation documents
- Supported file types: Office Open XML (PPTX), OpenDocument (ODP), LaTeX beamer
- Among the extracted information: general presentation structure and outline, slide titles, body text, emphasized text, …
Download the sources (under a GNU GPL v3 license)
PyRATA, Python Rule-based feAture sTructure Analysis
- provides regular expression (re) matching methods on a more complex structure than a list of characters (string), namely a sequence of features set (i.e.
list
ofdict
in python jargon); - is free from the information encapsulated in the features and consequently can work with word features, sentences features, calendar event features… Indeed, PyRATA is not only dedicated to process textual data.
- is fun and easy to use to explore data for research study, solve deterministic problems, formulate expert knowledge in a declarative way, prototype quickly models and generate training data for Machine Learning (ML) systems, extract ML features, augment ML models…
Download the sources (under Apache v2 license)
Ouverture du site du projet PASTEL
Ceci est un article de test.
Ceci est un test d’édition.