Cette dernière décennie a été marquée par l'avènement de la génomique, à savoir l'accès à la totalité de l'information génétique d'un organisme. A ce jour, plusieurs dizaines de bactéries ont été complètement séquencées. La publication de ces données ainsi que le développement de nouveaux outils d'analyse (puces, bioinformatique) vont très prochainement révolutionner le diagnostic bactériologique. Après une introduction sur le séquençage des bactéries, nous illustrons l'impact de la génomique par quelques exemples ayant une signification clinique. Nous présentons enfin la technologie des puces et détaillons leurs futurs domaines d'application en microbiologie diagnostique.
La fin du 2e millénaire aura été marquée par un premier déchiffrage du génome humain. Cette formidable réalisation scientifique a été largement rapportée dans les médias et est bien connue du grand public. Elle entraîne dans son sillage une foule de progrès dont les conséquences ne sont pas encore appréciées à leur juste valeur. Elle a, par exemple, facilité d'autres projets de séquençage d'organismes modèles tels que la bactérie Escherichia coli,1 la levure Saccharomyces cerevisiae,2 le ver Caenorhabditis elegans, la célèbre mouche du vinaigre Drosophila melanogaster, la plante à fleurs Arabidopsis thaliana et très bientôt, la souris et le rat. En parallèle, de nombreuses bactéries ont été séquencées et leur génome est publiquement disponible. Une véritable révolution est en marche dans le domaine médical. Nous n'en aborderons ici que les conséquences au niveau du diagnostic bactériologique.
Rappelons ici que si le génome représente le contenu génétique d'un organisme, la génomique comprend également les outils bioinformatiques nécessaires à son analyse et à son exploitation.
Il convient tout d'abord de sélectionner avec soin la souche d'intérêt. Cette question s'applique bien au-delà du sérotype (par exemple méningocoque du sérogroupe A ou B). Il faut également tenir compte de la virulence d'une souche et de sa signification clinique : tous les méningocoques du sérogroupe B n'ont pas la même virulence.3 Dans le même ordre d'idée, il faut relever qu'au moins quatre projets indépendants de séquençage de Staphylococcus aureus ont été entrepris, projets différents par la virulence des souches étudiées et leur résistance à la méticilline. Des experts suggèrent maintenant qu'il faudrait séquencer plus de cinq cents espèces bactériennes différentes et, idéalement, obtenir plusieurs souches pathogènes au sein d'une même espèce.4,5
Une fois la souche définie, son matériel génétique (ADN) en est extrait puis fragmenté. Ces fragments sont ensuite incorporés de manière aléatoire dans des plasmides, de petits segments d'ADN d'origine virale qui servent de vecteurs. Ils permettent d'introduire ces fragments d'ADN dans une autre bactérie, classiquement Escherichia coli. Chaque E. coli ainsi transformé donnera naissance à un clone qui par simple croissance multipliera son plasmide et le précieux fragment d'ADN qui lui est incorporé. Les plasmides de chaque clone sont alors purifiés puis séquencés.
Commence alors une étape complexe qui consiste à aligner la séquence des fragments, après en avoir éliminé toute trace du vecteur. La bioinformatique a permis de résoudre ces puzzles de plusieurs dizaines de milliers de fragments. Cette technique dite du shotgun sequencing est désormais pratique courante en génomique bactérienne. On dispose alors de la séquence du chromosome bactérien qui contient de 580 000 à plus de 6 millions de paires de base (Mycoplasma genitalium6 et Pseudomonas aeruginosa,7 respectivement).
Cette séquence brute est inutilisable en
l'état. Elle nécessite une phase d'annotation qui s'effectue également à l'aide d'outils bioinformatiques. Des programmes spécialisés parcourent cette séquence chromosomique et tentent d'en définir les mots, c'est-à-dire les gènes codant pour les protéines. Le processus de traduction de l'ADN en protéines, après transcription en ARN (acide ribonucléique), se fait par triplets : un groupe de trois paires de bases code pour un acide aminé. Le programme doit donc lire le texte selon six cadres de lecture différents : trois positions de départ possible pour chaque direction (sens de lecture). Après identification du cadre de lecture, on obtient des séquences de protéines prédites (ORF, open reading frame). Les outils logiciels permettent de définir certains paramètres pour s'assurer que ces séquences ont une haute chance d'être réellement codantes : taille minimale de la protéine prédite, utilisation préférentielle de certains triplets par la bactérie en question. Ce dernier paramètre (codon usage) ressemble à une analyse du langage de la bactérie : il permet d'évaluer si ces séquences prédites correspondent bien à sa façon de s'exprimer, par comparaison avec d'autres protéines déjà étudiées chez cet organisme. On peut alors rechercher leur degré d'homologie avec d'autres séquences disponibles dans les bases de données publiques (GenBank accessible via : http://www.ncbi.nlm.
nih.gov/entrez/query.fcgi et certains outils bioinformatiques librement disponibles via Internet : http://cmgm.stanford.edu/classes/genefind). Cette étape dite d'annotation automatisée permet d'attribuer une fonction théorique à chaque protéine prédite, moyennant un niveau suffisant d'homologie. Malheureusement, cette étude par homologie ne donne que des prédictions et, pour environ 50% des protéines prédites, il n'existe pas de séquence homologue permettant d'attribuer une fonction. On dispose alors d'un catalogue exhaustif représentant toutes les protéines que peut produire une bactérie, avec une fonction prédite pour une fraction d'entre elles.
Les techniques de séquençage se sont améliorées de manière spectaculaire comme conséquence des moyens investis dans le séquençage du génome humain. Alors qu'il fallait près de deux ans pour le séquençage d'une bactérie en 1999,8 la production a été multipliée par un facteur 20 en moins d'une année !9 Dernièrement, trois centres se sont regroupés pour séquencer le génome d'Enterococcus faecium en une seule journée, ce qui représente tout de même 2,8 millions de paires de bases pour un peu plus de 3000 gènes.9Plus récemment encore, un seul centre (US Department of Energy) a séquencé quinze génomes bactériens durant le mois d'octobre 2000 au cours d'un «marathon microbien». Les bases de données génétiques microbiennes vont donc se développer à un rythme croissant et fournir quantité d'informations originales.
Haemophilus influenzae est la première bactérie dont le génome a été publié en 1995.10 Moins de six ans après, pas moins de trente-quatre génomes procaryotes sont publiquement disponibles (http://www.tigr.org/
tdb/mdb/mdbcomplete.html) et plus de 100 projets sont en cours.4 Parmi ces génomes, il y a bien sûr des organismes modèles tels que E. coli K-121 ou M. genitalium6 dont l'analyse a démontré que seuls 265 à 350 gènes étaient nécessaires à sa survie !11 Les autres génomes de procaryotes peuvent être divisés en deux grands groupes : les pathogènes humains et les germes présentant un intérêt industriel.
La motivation à connaître le génome de ces derniers, appartenant pour la plupart aux Archeaebacteria, n'est pas exclusivement d'ordre scientifique même s'ils sont essentiels pour mieux comprendre les processus de l'évolution. On espère également découvrir dans leur génome des séquences codant pour des enzymes capables d'effectuer des processus complexes, sélectionnés par la capacité de ces bactéries à survivre dans des conditions environnementales extrêmes. On peut en identifier deux grandes catégories :
A. Amélioration de l'environnement/décontamination : dégradation d'hydrocarbures aromatiques grâce à Pseudomonas putida, dégradation de polysaccharides végétaux par Clostridium thermocellum, traitement des eaux usées et production de méthane grâce à Pyrobaculum aerophilum, etc.
B. Découverte de nouvelles molécules : insecticides biologiques grâce à Photorhabdus luminescens, antimicrobiens avec Streptomyces coelicolor, catalyseurs pour l'extraction de minerai, production de solvants, etc.12
La publication des séquences de plusieurs pathogènes humains ouvre un vaste domaine de recherche et un potentiel pour certaines applications diagnostiques (tableau 1). A titre d'exemple, nous revoyons ci-dessous quelques points que la génomique bactérienne nous a enseignés.
Si l'on assume que le contenu génomique est corrélé avec l'importance de certains processus physiologiques, on peut constater que M. genitalium consacre 5% de son minuscule génome aux processus d'adhésion.6 Plus de 6% du génome de Mycobacterium tuberculosis sont impliqués dans la biosynthèse des lipides et glycolipides, constituants essentiels de la paroi des bacilles acido-alcoolo résistants et responsables d'une partie de leur pouvoir pathogène.13 M. tuberculosis possède ainsi plus de deux cent cinquante enzymes différentes impliquées dans la biosynthèse des acides gras contre une cinquantaine seulement pour E. coli.
L'absence de certains gènes peut également expliquer des propriétés intéressantes : H. influenzae est dépourvu de trois enzymes impliquées dans le cycle de l'acide tricarboxylique.10 Ces informations peuvent donner des indices quant à la stratégie métabolique suivie par ce germe pour survivre exclusivement chez l'homme. De même, le décryptage du génome de Rickettsia prowazekii, l'agent du typhus épidémique, explique son comportement de pathogène intracellulaire strict puisqu'il est incapable de glycolyse aérobie.14 L'analyse du métabolisme d'Ureaplasma urealyticum, à partir du catalogue de gènes qu'il possède, confirme que la très grande majorité de son énergie provient de l'hydrolyse de l'urée et souligne son extraordinaire adaptation à l'environnement qu'il affectionne.15 Borrelia burgdorferi, l'agent de la maladie de Lyme, a confirmé son extrême pauvreté en gènes codant pour des activités de biosynthèse. Ce fait était déjà suspecté par les microbiologistes qui connaissaient la nécessité de cultiver B. burgdorferi sur des milieux spéciaux.16 Ce manque d'activités cataboliques et de biosynthèse se retrouve également chez un autre spirochète pathogène, Treponema pallidum, l'agent de la syphilis que personne n'a encore réussi à cultiver in vitro.17
Un des mécanismes de virulence fréquemment utilisé par les pathogènes pour échapper à la reconnaissance immunitaire est appelé «variation de phase». Il permet à la bactérie d'échapper à la reconnaissance immunitaire en modulant l'expression de certaines molécules de surface. Ainsi, près de 10% du génome de M. tuberculosis code pour de petits peptides constitués de motifs répétitifs.13 L'expression plus ou moins fidèle de ces fragments répétitifs est à la base de cette variation de phase. Ces phénomènes ont été observés chez plusieurs autres bactéries dont le pouvoir pathogène s'exerce au niveau des muqueuses : M. genitalium,6 H. influenzae,10 Neisseria meningitidis,18 Helicobacter pylori,19 Campylobacter jejuni.20 Une autre stratégie consiste à échanger des plasmides (= morceaux d'ADN extra-chromosomiques) susceptibles d'apporter différents facteurs de résistance et de virulence. B. burgdorferi B31 possède ainsi plus de dix-sept plasmides qui représentent plus de la moitié de la capacité de codage de son unique chromosome.16,21
La génomique comparée des bactéries permet aussi d'estimer plus précisément leur distance évolutive. Mycoplasma pneumoniae possède un homologue pour 480 des 517 gènes de M. genitalium mais également 197 gènes qui lui sont propres.22,23 Ces gènes orthologues, c'est-à-dire homologues à ceux présents dans un autre organisme, ne présentent que 65% d'homologie au niveau de leur séquence. La souche non virulente d'Escherichia coli K-121 et son redoutable cousin O157 : H724 responsable de colites hémorragiques et du syndrome hémolytique et urémique ont un ancêtre commun remontant à plus de 4,5 millions d'années.25 Cet intervalle a permis de nombreux changements dans le génome de O157 : H7 puisque ce ne sont pas moins de 1387 nouveaux gènes qui y ont été découverts. Ceci illustre à la fois l'importance de l'évolution entre deux souches «proches», comme la nomenclature aurait pu faussement le suggérer, et la difficulté de développer des stratégies diagnostiques.
En comparant les souches pathogènes avec leurs homologues non pathogènes, on peut mettre en évidence des gènes regroupés sous forme de segments et appelés îlots de pathogénicité (pathogenicity islands).26 Ces îlots codent pour des facteurs de virulence, comme par exemple la machinerie d'invasion cellulaire de Shigella flexneri ou des protéines impliquées dans la fixation du fer. Ces segments utilisent préférentiellement d'autres triplets (codon usage) que le reste du génome bactérien et constituent une sorte de signature que l'on peut détecter à l'aide d'outils bioinformatiques lors d'une analyse génomique.24 Ils suggèrent d'autre part que leur acquisition s'est faite en bloc, à partir d'autres espèces bactériennes (mécanisme évolutif appelé transfert latéral). Des gènes impliqués dans la synthèse de l'acide sialique ont été identifiés chez Campylobacter pylori.20 Ces résidus sialiques, présents à la surface de certaines cellules eucaryotes, sont rarement synthétisés par des bactéries. Ils pourraient être à la base de certaines réactions auto-immunes, comme le syndrome de Guillain-Barré, déclenchées par une réaction immunitaire croisée (molecular mimicry).
L'analyse génomique de deux souches virulentes de Helicobacter pylori récoltées aux Etats-Unis en 199427 et en Grande-Bretagne en 198719 a révélé 6-7% de différences dont près de la moitié étaient localisées dans une seule région du chromosome.27 Cette distribution suggère une zone de «plasticité» dans l'organisation du génome et offre des perspectives intéressantes pour typer plus finement ces bactéries. La comparaison de deux sérogroupes de Neisseria meningitidis (sérogroupe A responsable des pandémies et épidémies18 et sérogroupe B rencontré dans des cas sporadiques28) a révélé que 8,8 % des gènes n'avaient pas d'orthologues. Ces importantes différences soulignent à nouveau le besoin d'approches complémentaires pour développer des stratégies diagnostiques et thérapeutiques. L'analyse génomique permet par exemple de prédire quelles protéines seront exprimées à la surface de la bactérie. On peut alors produire ces protéines par clonage et les injecter à des souris. L'analyse de leur sera permet d'identifier la réponse de l'hôte à ces protéines, de mesurer le degré de conservation de ces protéines entre différentes souches et également d'induire, pour certaines d'entre elles, une réponse bactéricide. L'analyse des gènes impliqués dans la pathogenèse29couplée à une approche génétique ou biochimique est essentielle pour transformer les informations génomiques en vaccin ou traitements.
Les chercheurs ont rapidement pris conscience que le décryptage des fonctions des gènes ainsi découverts allait représenter un goulet d'étranglement. Une étonnante convergence de progrès en génétique, en robotique et en bioinformatique a favorisé le développement des puces. Ces puces ou leurs synonymes : bio(chips), microarrays, GeneChip® ont ainsi émergé comme un nouvel outil d'analyse. De manière simplifiée, une puce est une lame de microscope sur laquelle ont été déposées des milliers de sondes nucléiques différentes. Ces sondes sont disposées à des coordonnées bien précises (ligne, colonne) à la surface de la puce, comme on le ferait dans les cellules d'un tableur. Chaque sonde peut reconnaître la séquence
d'acide nucléique qui lui est complémentaire grâce aux propriétés d'appariement des acides nucléiques (hybridation). La puce permet donc de poser en parallèle autant de questions qu'il y a de sondes à sa surface. Pratiquement, les acides nucléiques de l'échantillon sont extraits, marqués avec un traceur fluorescent et incubés à la surface de la puce. Après hybridation et lavage, pour éliminer les acides nucléiques qui n'ont pas été reconnus par la puce, on détecte la fluorescence émise à chacune des coordonnées sur la puce. L'intensité de la fluorescence est liée à l'abondance des séquences retenues par hybridation sur chaque sonde.
Les nombreuses applications des puces dépassent le cadre de cette revue.30 Pour simplifier, disons qu'elles offrent l'avantage de fonctionner comme une batterie de tests effectués simultanément lors d'un seul examen. Leur exploitation peut être grossièrement subdivisée en deux catégories :
1) Le reséquençage par hybridation.
2) La reconnaissance de motifs.
Dès qu'une séquence est connue, il est possible de la représenter en déposant à la surface de la puce un ensemble de petites sondes recouvrant la totalité de cette séquence, à la manière de tuiles sur un toit (tiling array). Cette technique, appelée également reséquençage par hybridation, permet de déterminer des mutations ou des variations de séquence (génotypage). Une puce commerciale (HIV GeneChip®, Affymetrix) permet de déterminer la séquence de la polymérase et de la reverse transcriptase du VIH. Lors d'un échec thérapeutique, ce reséquençage permet d'identifier la présence de mutation(s) et d'identifier le(s) antiviraux pour le(s)quel(s) une résistance est présente. Le reséquençage par hybridation permet également de fournir une identification bactérienne. En choisissant un gène présent dans la plupart des bactéries mais ayant évolué indépendamment au sein de chaque espèce, on peut identifier et classer les bactéries. Cette méthode est bien connue des microbiologistes qui analysent des échantillons environnementaux ou contenant des bactéries impossibles ou difficiles à cultiver (Tropheryma whippelii, l'agent de la maladie de Whipple, par exemple31). Le développement d'un test moléculaire permet d'identifier cette bactérie. Par contre, cette approche devient techniquement et financièrement irréalisable dès lors qu'il s'agit de détecter de nombreuses cibles simultanément (multiplexage). C'est précisément là où les puces devraient se positionner comme de nouveaux outils diagnostiques, dès qu'elles seront suffisamment sensibles.
Les puces permettent également d'étudier le contenu génomique d'une souche (présence des gènes, niveau de l'ADN) ou de fournir des instantanés sur la quantité d'ARN messagers présents à un instant donné (gene expression profiling, niveau d'expression de l'ARN). On peut se représenter ceci de la manière suivante : si l'on transforme mentalement les intensités de fluorescence mesurées à chaque coordonnée en des bâtiments de tailles différentes, on obtient un profil caractéristique pour une souche ou une condition donnée. De même la silhouette des gratte-ciel de Manhattan ou de San Francisco nous donnent un profil que nous sommes capables de reconnaître. Ces motifs peuvent être étudiés à l'aide d'outils bioinformatiques appropriés (pattern profiling). En étudiant les profils d'expression de certaines tumeurs, des chercheurs ont pu démontrer que cette approche permettait de différencier certaines leucémies32 voire même de fournir des informations pronostiques indépendantes des critères actuellement utilisés.33
En adaptant certaines de ces méthodes, nous développons actuellement dans notre laboratoire une puce pour l'identification rapide des bactéries dans des prélèvements biologiques. Des stratégies analogues sont envisageables pour la mise en évidence de gènes de résistance aux antibiotiques (antimicrobial genotyping) ou de typage bactérien. La capacité des puces à utiliser simultanément autant de paramètres permet de spéculer sur le développement de systèmes combinant identification, détection de gènes de résistance et typage moléculaire. Enfin, les nouvelles connaissances dérivées de la génomique (mise en évidence de signatures moléculaires comme marqueurs de virulence) pourront également être incorporées aux puces.
L'explosion de la génomique nous offre non seulement quantité d'informations nouvelles à exploiter mais également un ensemble d'outils très puissants (puces, bioinformatique, etc). Les puces présentent d'ores et déjà un intérêt considérable grâce à la quantité d'informations qu'elles fournissent. Dès qu'elles atteindront le niveau de sensibilité souhaité, ce qui devrait se produire dans les cinq prochaines années, les puces apparaîtront dans de multiples applications diagnostiques. En plus de l'identification bactérienne, elles pourront fournir des profils de résistance génotypique et une collection de signatures moléculaires. Nous prédisons que ces dernières auront un impact important en épidémiologie puisque, disponibles comme un «bonus» sur la puce, elles permettront d'affiner nos connaissances épidémiologiques, tant par le nombre de souches étudiées que par le pouvoir de discrimination des puces. Enfin, il serait tentant de profiter du parallélisme des puces pour corréler la présence de certains gènes avec la virulence des souches. Si l'on arrivait par exemple à identifier les souches de S. aureus à risque de former des foyers métastatiques, pourrions-nous ajuster plus finement les durées de traitement ? Quoi qu'il en soit, l'irruption des puces dans le diagnostic microbiologique va profondément modifier cette discipline et nous forcer à reconsidérer l'interprétation de nos résultats bactériologiques.