DEFT (Défi Fouille de Textes)
Recherche d’information et analyse de sentiments dans des tweets sur les transports en IDF
Créé en 2005 à l’image des campagnes TREC et MUC, le DÉfi Fouille de Textes est une campagne d’évaluation francophone qui propose chaque année de confronter les méthodes de plusieurs équipes de recherche sur une thématique régulièrement renouvelée dans le domaine de la fouille de textes. Dans la continuité de la onzième campagne DEFT 2015, la treizième édition DEFT2018 portera sur la recherche d’information et l’analyse de sentiments dans des tweets rédigés en français, sur une nouvelle thématique : les transports en Île-de-France. La campagne utilisera un corpus annoté manuellement produit dans le cadre du projet REQUEST (Programme d’Investissement d’Avenir, appel Cloud computing & Big Data, convention 018062-25005) en collaboration avec ELDA (http://www.elda.org). Il contient 80.000 tweets, annotés manuellement.
Voir la page de l’atelier (lien externe)
RISE (Recherche d’Information SEmantique)
Les avancées du Web Sémantique rendent possible la mise en place de nouvelles méthodes d’accès à l’information sémantique. Les ressources sémantiques mises en ligne permettent de conceptualiser les besoins des utilisateurs et les contenus des documents. En effet les systèmes d’accès à l’information peuvent désormais traiter le contenu informationnel au niveau sémantique et non plus seulement au niveau signal (texte, image, etc). Un des enjeux actuels est de proposer des fonctionnalités sémantiques pertinentes pour exploiter au mieux les ressources sémantiques telles que les ontologies, les bases de données lexicales, les thesaurii. Le passage au niveau conceptuel permet de s’abstraire du niveau signal ainsi que, dans certains cas, de la langue. Le raisonnement au niveau conceptuel peut être exploité pour la recherche d’information multimédia et multilingue. Les précédentes éditions de cet atelier ont montré l’intérêt de la recherche d’information sémantique dans des domaines de spécialité tels que le domaine agricole, médical, juridique, environnement, etc. Cet atelier a pour but de proposer un lieu d’échange entre des chercheurs issus de différentes communautés comme la Recherche d’Information, le Web Sémantique, l’Extraction des Connaissances et le Traitement Automatique des Langues Naturelles et le Multimédia.
Voir la page de l’atelier (lien externe)
VADOR (Valorisation et Analyse des Données de la Recherche)
Cet atelier dans sa deuxième édition s’insère dans une dynamique émergente sur l’analyse de données de la recherche (données numériques produites par les chercheurs, mémoires, articles scientifiques, actes de colloque, thèses, etc.) et veut faire la promotion de la recherche francophone. Il permettra d’aborder des thématiques variées faisant cohabiter des disciplines différentes autour de la problématique de l’analyse et de la valorisation des données de la recherche, d’un point de vue théorique ou pratique. La première édition a eu lieu dans le cadre de la conférence Inforsid organisée à Toulouse en 2017.
Voir la page de l’atelier (lien externe)
OpenMinTeD (Infrastructure text‐mining au service des scientifiques) [Tutoriel]
Nous présenterons et initierons les participants à l’utilisation de la plateforme européenne OpenMinTeD (http://openminted.eu). Elle offre aux scientifiques de tous domaines un environnement informatique pour concevoir, exploiter et réutiliser des chaînes de traitement de fouille de texte (text mining). OpenMinTeD dispose de 3 catalogues de 1) composants de traitement (traitement automatique de la langue, apprentissage automatique), de prétraitements et de post‐traitements, tous open source, 2) corpus et connecteurs à des plateformes de publication comme OpenAire ou Core, 3) ressources sémantiques d’annotation génériques ou relevant de domaines très variés (ontologies, lexiques). Tous ces éléments sont facilement combinables et exploitables grâce au gestionnaire de workflows en ligne. OpenMinTeD offre des espaces de travail privés ainsi que la possibilité d’intégrer de nouveaux composants, corpus et ressources d’annotation
Les trois ateliers ci-dessous nécessitent une inscription gratuite indépendamment d’une éventuellement inscription à la conférence (L’inscription à un de ces ateliers ne donne pas accès à la conférence, ni l’inverse).
Hackathon
Fake news
Dans le cadre de la conférence TALN-RECITAL 2018, sera organisé un hackathon, la troisième édition côté CORIA (Hack Days) et TALN (HackaTAL) et sera dédié à des problématiques liées à la RI et au TAL. L’objectif est de réunir ces communautés autour de défis à relever à l’aide de données et briques logicielles, en consacrant ces journées à modéliser, prototyper, coder, expérimenter, développer, tester, évaluer, comparer, échanger, etc. – par équipes et dans une ambiance décontractée 🙂
Les tâches proposées cette année seront centrées sur la détection et le traitement des fake news (à préciser), en interaction avec le monde des médias et les journalistes. L’événement est ouvert à tous, ne nécessite pas de préparation particulière (sauf d’amener sa machine) et ne requiert pas de compétences spécifiques aux tâches que nous proposons : tout le monde est bienvenu !
Voir la page de l’atelier (lien externe) – Formulaire d’inscription
ALIAS (AnaLyse et exploratIon des données sociAleS)
Cet atelier s’adresse aux différents acteurs concernés par l’exploration des données sociales. Il vise à réunir des chercheurs en sociologie, droit, éducation, sciences de la communication, traitement automatique de la langue, data science et intelligence artificielle afin de partager des méthodes, modèles et techniques développés pour exploiter les données issues de réseaux ou média sociaux, indépendamment de leur forme de production et diffusion : blogs, messages, conversations.
Les contributions attendues concernent l’analyse de nouveaux modes d’interactions avec les plateformes sociales, la collecte des données ainsi produites, la caractérisation de leur contenu et la modélisation de leur dynamique. Cet atelier propose aussi un cadre d’échange et de réflexion face aux phénomènes émergents dans l’espace virtuel – cyberviolence, propagation d’idéologies extrêmes- et leur impact sociétal. Le croisement des différents points de vue permettra de mieux comprendre les enjeux techniques et les questions éthiques sous-jacentes à l’exploration des média sociaux.
Voir la page de l’atelier (lien externe) – Formulaire d’inscription
CAJOLE (Corpus pour l’Analyse de la qualité du JOurnaLisme d’Exploration des données)
Cet atelier vise à rassembler différents acteurs : journalistes, chercheurs en RI, TAL, science de l’information ou gestion de connaissances, spécialistes de données ouvertes, spécialistes de l’analyse de données, ou encore lecteurs, autour de l’élaboration d’un corpus permettant d’étudier la qualité du journalisme de données (data journalism). Ces échanges auront pour but premier de mieux cerner les bonnes pratiques du journalisme des données : quelle méthodologie de travail, quelles sources de données, quels prétraitements, quels traitements et quel parallèle avec la science des données. Cet atelier s’inspirera du modèle des TREC Tracks dans lesquels les premières rencontres ont pour vocation de mettre en place les infrastructures nécessaires en termes de collections de données et méthodologie d’évaluation. L’objectif de l’atelier est de constituer un premier corpus de référence, comprenant des articles de presse issus du journalisme des données, annotés et accompagnés de leurs sources de données, ainsi qu’une grille d’évaluation portant sur les compétences en journalisme des données.
Voir la page de l’atelier (lien externe) – Formulaire d’inscription