Sujet de thèse

Sujet de Thèse

Direction

Jean-Daniel Fekete, Inria (Jean-Daniel.Fekete@inria.fr)
Christophe Prieur, Télécom ParisTech (cprieur@enst.fr)

Résumé

L’objectif de la thèse est de concevoir des indicateurs et des interfaces visuelles à l’usage d’historien·nes (et plus généralement de chercheuses et chercheurs en sciences sociales) pour l’exploration de données massives issues de sources historiques, avec une forte composante d’analyse de réseaux. La thèse, inscrite en informatique, se fera en collaboration avec des historien·es et sociologues.

Motivations

Depuis le développement des méthodes big data et leur arrivée dans les sciences sociales, plusieurs initiatives très ambitieuses ont vu le jour se fixant pour objectif de changer la manière de faire de la recherche en histoire. Pourtant, le déploiement de ces nouvelles approches se heurte à de nombreuses réticences des historien·nes, qui craignent parfois d’être dépossédé·es de leur matériau de recherche lorsqu’il est transformé pour être intégré dans des bases de données, et qui sont souvent sceptiques sur la pertinence d’indicateurs parfois abscons, basés sur des données en trop grand nombre pour être appréhendées à la main.

L’un des objectifs de la thèse est donc d’accorder une grande importance à l’explicabilité des indicateurs mis au point, en établissant un protocole permettant des allers-retours entre production d’éléments d’analyse et exploration interactive. Les difficultés d’interprétation donneront ainsi lieu à des corrections des algorithmes au fur et à mesure et l’ajout d’éléments de visualisation qui leur donnent sens.

Méthodes

L’analyse des réseaux pourra se faire en s’appuyant sur deux approches : l’énumération de structures élémentaires (appelées schémas, motifs ou graphlets), ou l’identification de groupes denses (clusters ou communautés). Les outils visuels d’exploration pourront s’appuyer sur le « Vistorian », une plateforme web à destination des historien·nes pour la visualisation de réseaux temporels. https://vistorian.net/

Pour améliorer la réactivité des interfaces, les algorithmes pourront utiliser le principe d’analyse progressive, paradigme de calcul original, imposant un impératif de très faible temps de latence pour produire des résultats de calcul de manière progressive, commençant très rapidement par une approximation grossière et améliorant la qualité à intervalle régulier au cours temps.

Collaborations

Prérequis

L’étudiant devra avoir une formation en théorie des graphes, et si possible en interaction homme-machine ou visualisation d’information. Une bonne maîtrise de la programmation est souhaitée, idéalement en Python et ses bibliothèques scientifiques (Pandas, NumPy, SciPy) et de manipulation de réseaux (NetworkX). Une bonne connaissance des bibliothèques Web pour la visualisation et l’interaction est aussi souhaitée.

Informations Pratiques

La thèse doit commencer avant décembre 2018 et durera 36 mois.
Les doctorant travaillera à Telecom ParisTech et à Saclay. Les locaux de Telecom ParisTech déménageront aussi à Saclay en 2019 ou 2020.

Les commentaires sont clos.