En analysant la distribution génomique du plancton dans des échantillons d’eau de mer, on pourrait à la fois mieux connaître cette biomasse et déterminer l’impact que le changement climatique aura sur elle. Mais un problème se pose : dans ces échantillons, la flore microbienne est séquencée sans que l’on puisse séparer les individus. C’est comme si les morceaux de multiples puzzles avaient été mélangés dans une seule boîte. La comparaison de toutes ces pièces les unes aux autres se heurte à la complexité des données et au manque de logiciels capables de les traiter. Financé par l’Agence nationale de la recherche et coordonné par l’équipe de recherche Inria GenScale, le projet HydroGen vient de donner naissance à deux outils pour aider les biologistes à faire parler les données.
“Les machines de séquençage d’ADN ont fait de gros progrès ces derniers temps. Mais un problème demeure : elles ne peuvent pas écrire une séquence d’un seul tenant. Le génome humain, par exemple, est contenu sur une phrase de trois milliards de caractères ATGC. Or, les séquenceurs, eux, ne produisent que des fragments de 150 à 200 caractères au maximum. Pour recomposer le puzzle, il faut donc des logiciels d’assemblage très efficaces. Le but de l’équipe de recherche GenScale est précisément de concevoir ce type d’outils innovants,” résume le chercheur Pierre Peterlongo.
La difficulté augmente encore d’un cran quand on aborde la métagénomique. Autrement dit, quand l’ADN séquencé ne provient pas d’un seul, mais de multiples individus et quand, de surcroît, ces individus appartiennent à quantité d’espèces différentes. Tel est le cas des 35 000 échantillons d’eau de mer prélevés sur 210 zones océaniques par la goélette Tara entre 2009 et 2013. L’expédition s’inscrivait dans le cadre d’un programme de recherche visant à acquérir une meilleure connaissance de la biomasse planctonique et l’impact que le réchauffement climatique pourrait exercer sur elle.
Un vrai casse-tête. “Un litre d’eau de mer peut contenir 1000 espèces d’animaux, 100 000 espèces de protistes, 10 millions d’espèces de bactéries, 100 millions d’espèces de virus.” Sans parler du nombre d’individus différents pour chacune de ces classes. “Vous vous retrouvez donc à comparer des morceaux de crevettes et des bouts de méduses, avec le risque de créer des chimères car l’assemblage métagénomique est un problème loin d’être résolu.”
Le projet HydroGen qui vient de se terminer avait été lancé dans le sillage de cette expédition Tara pour tenter de trouver de nouvelles approches logicielles. Financé par l’Agence nationale de la recherche, il rassemblait l’équipe Inria GenScale, l’Institut national de la recherche agronomique et le Centre français du séquençage (CEA Genoscope) (1). “Quand nous avons commencé à travailler avec le Genoscope, nous nous sommes retrouvés face à des données pour lesquelles nous n’avions presque aucun génome de référence. Autrement dit, 90% des êtres vivants présents dans les échantillons nous étaient totalement inconnus. Nos collègues nous ont alors demandé : auriez-vous une idée de la façon de faire parler ces données ?”
Calculer une distance génomique
“C’est comme cela que nous est venue l’idée de comparer différents échantillons d’eau de mer pour mesurer leurs différences. Par exemple, les échantillons A et B comportent de l’ADN assez similaire alors que l’échantillon C est notablement différent. Nous avons donc créé une métrique pour quantifier cette distance génomique qui d’ailleurs ne prétend pas correspondre à une distance dans l’évolution. Il faut garder à l’esprit qu’à ce stade, nous ne savons même pas encore de quel être vivant il s’agit.”
Les scientifiques ont d’abord créé un outil appelé Compareads. “Il a été ensuite complètement ré-écrit du point de vue algorithmique. La deuxième version s’appelle Simka.” Son rôle : produire des matrices de distances entre les échantillons. “Et pour faire cela efficacement, nous réduisons les séquences d’ADN à un ensemble de mots qui font une trentaine de caractères. On appelle ces mots des k-mer (k indiquant la longueur du mot). Quand des k-mer apparaissent simultanément dans deux séquences, cela reflète la similarité entre elles.”
Cela dit, “cette métrique ne signifie rien en tant que telle. Il faut la coupler avec des données physio-chimiques comme la température de l’eau, l’acidité, la pression, etc. Nos collègues océanographes ont ensuite pu corréler cette matrice de distances génomiques avec le temps nécessaire pour que les espèces voyagent d’un point de prélèvement à l’autre. Nous avons ainsi recréé des génocenoses qui sont, en quelque sorte, des régions génomiques. Et chose intéressante : nous avons pu relier ces génocenoses à des environnements spécifiques comme, par exemple, les zones d’upwelling. Il s’agit d’endroits sur la planète où une eau profonde remonte en surface.” Biologistes et océanographes vont ensuite pouvoir rapprocher la distribution génomique d’une région et le scénario de changement climatique attendu pour cette zone. “Cela va permettre de mieux prédire comment certaines espèces vont décliner, migrer ou muter.”
Découvrir les polymorphismes nucléotidiques
Les mutations constituent justement l’autre volet du projet HydroGen. “Une mutation se traduit par une petite variation sur une paire de bases. On appelle ces variants des polymorphismes nucléotidiques. On utilise aussi le sigle anglais SNP (single-nucleotide polymorphisms). Ils présentent beaucoup d’intérêt en médecine, car on peut parfois les associer à des maladies génétiques. Pour trouver ces variants, les séquences sont généralement comparées à un génome de référence déjà connu. Mais en métagénomique, nous ne disposons pas encore de cette structure de référence. Nous aimerions pourtant beaucoup extraire les variants. Cela pourrait permettre, par exemple, d’établir que tel plancton possède tel polymorphisme nucléotidique qui le rend apte à survivre dans une eau plus chaude.”
D’où le besoin d’un nouvel outil capable de trouver ces variants dans des échantillons métagénomiques pour lesquels il n’existe aucun génome de référence déjà cartographié. “C’est à cela que sert DiscoSnp, le deuxième logiciel concerné par ces travaux. Il se marie assez bien avec le projet Tara car il peut traiter simultanément les données provenant de centaines d’échantillons d’eau de mer. Il prend en entrée des dizaines de milliards de caractères et en extrait les variants. À ma connaissance, il n’existe à l’heure actuelle aucun autre outil comme celui-là dans le monde.”
|