OpenMinTeD

Infrastructure text‐mining au service des scientifiques

Nous présenterons et initierons les participants à l’utilisation de la plateforme européenne OpenMinTeD.
Elle offre aux scientifiques de tous domaines un environnement informatique pour concevoir, exploiter et réutiliser des chaînes de traitement de fouille de texte (text mining). OpenMinTeD dispose de 3 catalogues:

  1. composants de traitement (traitement automatique de la langue, apprentissage automatique), tous open source incluant de composants provenant des technologies éprouvées et variées
    (GATE, ALVIS, ARGO et DKPro);
  2. corpus et connecteurs à des plateformes de publication comme OpenAire ou CORE;
  3. ressources sémantiques d’annotation génériques ou relevant de domaines très variés (ontologies, lexiques).

Tous ces éléments sont facilement combinables et exploitables grâce au gestionnaire de workflows en ligne. OpenMinTeD offre des espaces de travail privés ainsi que la possibilité d’intégrer de nouveaux composants, corpus et ressources d’annotation.

Ce tutoriel intéressera les chercheurs en TAL, en extraction et recherche d’information, en text‐mining, en particulier les jeunes chercheurs, qui utiliseront OpenMinTeD pour mettre au point leurs nouveaux algorithmes sur des corpus variés, les exécuter et les valoriser en bénéficiant des chaînes de traitement et ressources disponibles sur OpenMinTeD.

Prérequis

  • [Indispensable] Un ordinateur portable avec un système Linux à jour
  • [Très fortement recommandé] Une identité eduGAIN (RENATER)
  • [Recommandé] Une collection de documents (format PDF ou TXT)
  • [Recommandé] Une ressource linguistique, terminologique, lexicale pour l’annotation (format au choix)

Déroulé de la journée

Session 1 (1h30) : Introduction et présentations

1. Tour de la plateforme : principes généraux, utilisation des catalogues, composition de workflows
2. Présentation et démonstration d’une chaîne complète d’extraction d’information. Un exemple en microbiologie alimentaire
3. Présentation du schéma de métadonnées OMTD‐SHARE

Session 2 (1h30) : Premiers pas avec OpenMinTeD (TP)

4. Concevoir un corpus et le déclarer dans OpenMinTeD,
5. Déclarer une ressource sémantique dans OpenMinTeD,

Session 3 (1h30) : Travailler avec les workflows (TP)

6. Exécuter un workflow,
7. Concevoir un nouveau workflow

Session 4 (1h30): Ajouter un nouveau composant de traitement (TP)

8. Préparer d’une image Docker
9. Déclarer un composant dans OpenMinTeD

Contacts

Mouhamadou Ba
Robert Bossy
Bibliome – MaIAGE – INRA

Les commentaires sont clos.