Les maladies, telles que les maladies cardiovasculaires, le cancer, l'ostéoporose, le diabète non insulino-dépendant ou la démence, sont dites «complexes», entre autres parce qu'elles ont des causes à la fois génétiques, sociales et environnementales, qui interagissent les unes avec les autres. L'identification de facteurs de risque environnementaux modifiables est le principal objectif de la recherche étiologique. L'élucidation des bases héréditaires est la préoccupation principale des généticiens. L'épidémiologie génétique s'enrichit de la convergence des méthodes génétiques et épidémiologiques indispensables pour élucider l'étiologie complexe de la plupart des maladies chroniques. Elle a évolué au cours des années récentes de l'étude de syndromes monogéniques à l'investigation d'interactions entre gènes et des facteurs de risque modifiables.
Les maladies complexes d'étiologie multifactorielle sont causées par l'interrelation entre les facteurs environnementaux, comportementaux, psychologiques, sociaux, sanitaires et génétiques. Ces déterminants influencent la santé de façon indépendante mais ils s'influencent aussi les uns les autres. Les facteurs psychologiques et comportementaux influencent le statut social de l'individu et vice versa ; la variation génétique est l'un des nombreux déterminants de la susceptibilité aux facteurs environnementaux.
Historiquement, génétique humaine et épidémiologie ont eu des domaines d'intérêt très différents. L'objet principal de la génétique était l'identification de mutations rares causant des syndromes monogéniques. Les succès de la génétique sont nombreux et incluent la découverte des gènes de la mucoviscidose ou de la chorée de Huntington. Ces gènes sont utilisés en clinique pour le diagnostic. Les épidémiologistes classiques étudiaient les associations entre des facteurs de risque exogènes et des maladies, assurant que le bagage génétique de chacun ne jouait qu'un faible rôle. Les succès de l'épidémiologie sont aussi importants et incluent les causes du choléra, du béribéri et du cancer du poumon.
Aujourd'hui, la génétique et l'épidémiologie cherchent à élucider ensemble les causes des maladies complexes. Olson, directeur du Centre de génomique de l'Université de Washington, nous rappelle que la pauvreté est la principale source de maladies dans ce monde.1 Ce n'est pas tant la variabilité génétique que la variabilité économique qui dégrade la santé publique. Nous ne devrions pas oublier cela. Mais en même temps, ignorer la contribution du bagage génétique dans l'étiologie des maladies complexes nous interdit de comprendre l'étiologie de ces maladies et donc de les prévenir. Les progrès de la biologie moléculaire et le Human Genome Project ont élargi nos outils pour étudier les mécanismes pathogénétiques des maladies humaines. Sur le plan technologique, nous pouvons à présent caractériser sur une large échelle des variations de séquences d'ADN. Dans la même période, les concepts génétiques se sont lentement intégrés aux méthodes épidémiologiques. Ceci se reflète aujourd'hui dans la définition de l'épidémiologie génétique, qui est l'étude du rôle des facteurs génétiques et de leur interaction avec des facteurs environnementaux dans la survenue de maladies au sein de populations humaines.2,3,4
L'épidémiologie génétique a aujourd'hui plusieurs atouts pour comprendre et prévenir les maladies. Premièrement, omettre les marqueurs génétiques dans les études épidémiologiques peut mener à la non-reconnaissance de l'effet d'un facteur de risque modifiable, si celui-ci ne se manifeste que dans un sous-groupe de la population ayant une susceptibilité génétique. Pour élucider les effets délétères de la fumée de cigarette, il n'était pas nécessaire de prendre en considération la susceptibilité génétique, car la plupart des maladies causées par le tabac sont pratiquement inexistantes chez les non-fumeurs. En revanche, lorsque nous évaluons l'impact de la pollution atmosphérique sur la santé respiratoire en général ou spécifiquement sur le risque de cancer du poumon, l'effet est plus subtil, mais probablement assez substantiel dans un sous-groupe de gens sensibles pour des raisons génétiques.5,6 Deuxièmement, l'identification d'individus ou de groupes de la population ayant une susceptibilité génétique est importante pour l'intervention de santé publique. Des questions sur les limites légales des polluants environnementaux ou sur les groupes cibles pour l'action préventive peuvent se poser de façon beaucoup plus spécifique afin de protéger ceux qui en ont le plus besoin.
Le génome humain contient environ 3165 millions de nucléotides formés de bases pyrimidiques (C,T) et puriques (A et G). Les gènes représentent environ 2% du génome humain. Le reste est fait de régions non codantes, dont la fonction peut être celle de fournir l'intégrité structurelle des chromosomes et la régulation de la synthèse des protéines. On estime que le génome humain contient de 30 à 40 000 gènes. On a déjà identifié 1,4 million de bases variantes (single nucleotide polymorphism, snp) chez l'être humain (Human Genome Project information@www.ornl.gov/hgmis). Nous disposons donc d'une masse considérable d'informations qui dépasse largement la connaissance biologique que nous avons des mécanismes pathogènes et des méthodes d'analyses de l'épidémiologie classique. Il faut tout d'abord distinguer deux grandes catégories de gènes que l'on suppose être associés au processus de la maladie selon qu'ils sont de haute ou de basse pénétrance.
La pénétrance d'une mutation équivaut au risque qu'a une personne qui hérite de la mutation de développer la maladie avant un âge donné. Les gènes de haute pénétrance représentent en général des mutations transmissibles rares associées à un très haut risque de maladie parmi les porteurs de la mutation, indépendamment de la présence d'autres facteurs de risque endogènes ou exogènes. Les mutations des gènes du cancer du sein BRCA1 et BRCA2, le gène APC (impliqué dans la polypose adénomatose familiale) ou le gène de la mucoviscidose appartiennent à cette classe de gènes. Ils concernent la plupart du temps une très petite fraction de la population. Il y a d'autre part les gènes à faible pénétrance, qui regroupent des variants génétiques fréquents appelés polymorphismes, qui interagissent avec des facteurs exogènes pour produire la maladie. Bien que ces polymorphismes ne soient pas en tant que tels associés à un très haut risque de maladie chez la plupart des porteurs de l'allèle variant, ils sont impliqués dans l'étiologie d'un beaucoup plus grand pourcentage de cas de malades en raison de leur haute prévalence. Ces polymorphismes réagissent avec des facteurs de risque exogènes, modifiables et peuvent donc jouer un rôle important dans la prévention primaire.7
Les méthodes utilisées pour l'identification des gènes à haute ou basse pénétrance en épidémiologie génétique sont discutées ici en prenant comme exemple le cancer du sein.
L'agrégation familiale du cancer du sein a été rapportée la première fois par Broca en 1866.8,9 Cette observation a été confirmée par des études épidémiologiques. William et Anderson ont réalisé une analyse de ségrégation, dont le but était de déterminer si le mode d'héritabilité de la maladie observé dans des familles à haut risque de cancer du sein était compatible avec un ou plusieurs modes de transmissions génétiques connus (par exemple, mode de transmission récessif ou dominant). Ils fournirent les premières preuves qu'il existait un gène de susceptibilité du cancer du sein, autosomal dominant dont la pénétrance était liée à l'âge (1984).10 Cette étude ne reposait pas sur des techniques de biologie moléculaire ou d'analyse de l'ADN, mais elle consistait à comparer avec l'aide de méthodes statistiques le nombre de cas observés dans les familles avec celui prédit en fonction d'un mode spécifique de transmission.11
Le repérage d'un gène de cancer du sein associé avec un mode de transmission autosomal dominant a été possible grâce aux études de liaison (en anglais, linkage). L'étude de liaison est basée sur le fait que pendant la prophase 1 de la méiose, les chromosomes homologues (c'est-à-dire, maternels et paternels) se regroupent avant d'être à nouveau séparés et répartis dans les gamètes haploïdes. Pendant cette prophase, les bras du chromosome subissent une rupture physique et un échange d'ADN entre segments maternels et paternels. Cette recombinaison (cross over), si elle se produit au hasard, a pour effet de séparer plus fréquemment des séquences d'ADN qui sont distantes l'une de l'autre sur le chromosome. En revanche, deux localisations proches sur un même chromosome ont moins de chance d'être séparées pendant la méiose. L'analyse de liaison se fonde sur ce principe en utilisant des séquences «marqueurs» qui, si elles sont transmises plus fréquemment chez les individus malades, repèrent des régions génétiques qui ont une haute probabilité de contenir des mutations qui provoquent la maladie.12
Dans le cas de la recherche des gènes du cancer du sein, les échantillons d'ADN ont été récoltés parmi tous les membres de certaines familles souffrant ou non de cancer du sein. Des informations au sujet de leur état de santé et de leur relation parentale ont aussi été recueillies. Les échantillons d'ADN furent génotypés pour des variations génétiques réparties sur l'ensemble du génome. Les analyses de liaison ont permis de calculer la probabilité que certains marqueurs aient été cohérités avec la maladie dans ces familles. Plus cette probabilité était grande, exprimée par ce qu'on appelle les lod-score, plus il était possible que la mutation causant la maladie était proche, sur la base du principe du crossing over ou de la recombinaison que nous avons décrite plus haut.
Les analyses de liaison dans différents groupes de familles ont révélé la présence de deux gènes de susceptibilité dominant du cancer du sein, l'un sur le chromosome 7q21 et l'autre sur le chromosome 13q12-13.13 Une fois que la position chromosomique de gènes potentiels du cancer du sein était identifiée, des techniques laborieuses de biologie moléculaire (dites de clonage positionnel) furent appliquées pour identifier des gènes pouvant potentiellement causer le cancer du sein dans des régions candidates. Une fois ces gènes identifiés, leur variation allélique fut étudiée pour déterminer lesquels étaient associés à la transmission du cancer du sein dans ces familles. Finalement, Miki et collaborateurs ont isolé le gène de BRCA1 en 1994, suivis en 1995 par Wooster et collaborateurs avec l'identification du gène BRCA2.14,15
A partir de l'identification des mutations à haute pénétrance, l'épidémiologie génétique peut contribuer à résoudre des questions de recherche importantes en rapport avec le développement de test diagnostique, la prévention des maladies et le traitement.16 La prévalence des mutations dans les différentes populations permet d'en estimer l'importance de santé publique et d'identifier les groupes de population qui peuvent bénéficier d'un dépistage. La prévalence des mutations de BRCA varie entre environ 1% chez les femmes juives et moins de 0,2% dans les populations non juives, caucasiennes de l'ouest de l'Europe et des Etats-Unis.17,18
La connaissance de la pénétrance de mutations peut aider à dépister et conseiller. Les premières études indiquaient que les porteuses de la mutation BRCA1 ou BRCA2 avaient un risque d'environ 80% de développer un cancer du sein au cours de leur existence.19 Des études plus récentes ont révélé une pénétrance d'environ 30%.20,21,22,23,24 Les estimations contradictoires de pénétrance dépendent des méthodes utilisées pour l'identification et le recrutement des familles et des groupes ethniques étudiés. Elles suggèrent que la position et le type de mutation au sein des gènes BRCA1 influencent la pénétrance. Des centaines de mutations ont été identifiées jusqu'à présent (Breast Cancer Information Core, http://www.nhgri.nih.gov/intramural_research/ lab_transfert/Bic/member/index.html).
L'épidémiologie génétique sert également à étudier la façon dont certaines mutations de BRCA interagissent avec d'autres gènes et des facteurs de risque modifiables pour déterminer la pénétrance. D'un point de vue de santé publique et de prévention, il s'agit peut-être de l'aspect le plus important de l'épidémiologie génétique dans le contexte des gènes à haute pénétrance. Savoir pourquoi certaines femmes qui sont porteuses des mutations BRCA ne développent jamais la maladie ou seulement à un âge très avancé pourrait fournir des pistes très importantes pour la prévention du cancer du sein lié au BRCA1. Il y a de fortes évidences que la carcinogenèse associée à BRCA1 et BRCA2 est modifiée par les hormones stéroïdes et par l'histoire reproductive.25,26 Les rares données épidémiologiques sur l'association entre l'utilisation de contraception orale et le risque de cancer lié à BRCA suggèrent que le risque de cancer du sein est augmenté mais que le risque de cancer ovarien est diminué.27,28,29 Le conseil individuel relatif à l'utilisation de la contraception orale dépendra peut-être en dernière instance de la mutation spécifique sur BRCA1 ou BRCA2, qui peut influencer la prédominance relative du risque de cancer du sein ou de cancer ovarien dans une famille. La pénétrance de BRCA1 et BRCA2 peut encore être modifiée par des polymorphismes communs. Les génotypes impliqués dans le métabolisme des hormones stéroïdiennes, y compris le polymorphisme du gène du récepteur des androgènes ainsi que le polymorphisme du co-activateur AIB1 et du récepteur à strogènes et androgènes semblent modifier la pénétrance de BRCA1.25 La détermination du risque individuel pourrait donc requérir le génotypage de plusieurs gènes.
Les maladies complexes, polygéniques comme le cancer du sein sont génétiquement hétérogènes et ont une étiologie qui implique des facteurs environnementaux. La faible pénétrance de leurs déterminants génétiques complique la clarification de leurs bases génétiques. L'approche la plus communément utilisée, en raison des restrictions technologiques et financières à la recherche sur l'ensemble du génome, sont des études d'association au sein de populations non apparentées pour comparer, entre des cas et des témoins, la distribution de polymorphismes sélectionnés au sein des gènes candidats. C'est l'approche gène-candidat. Ces études permettent également d'étudier l'interaction entre des facteurs génétiques et environnementaux dans l'étiologie des maladies.30 Une association entre la maladie et la présence du facteur génétique suggère que le gène peut être causal dans la maladie. Mais une explication alternative peut être celle d'un biais dû au mélange de populations, c'est-à-dire, un biais dû à des différences entre cas et témoins dans la distribution des sous-groupes de population ayant différentes prévalences alléliques. Ce phénomène est appelé biais de stratification par les généticiens et effet de confusion de l'origine ethnique par les épidémiologistes. Nous savons par exemple que la fréquence de nombreux allèles varie selon les groupes ethniques. Une troisième explication peut être que l'association est due à un déséquilibre de liaison entre le polymorphisme étudié et un variant génétique non observé.11
L'approche gènes-candidats implique que ceux-ci sont choisis pour leur rôle potentiel dans un modèle pathogénique. Deux de ces modèles théoriques, cherchant à décrire l'étiologie des cancers du sein sporadiques, sont présentés ci-dessous.
Un premier modèle de susceptibilité au cancer du sein a été développé par Henderson et Spencer Feigelson.31,32 Ce modèle est basé sur l'étiologie hormonale du cancer du sein. Les hormones, surtout les strogènes, en stimulant la prolifération cellulaire, augmentent le nombre de divisions cellulaires et la probabilité d'erreurs génétiques aléatoires. Les facteurs de risque les plus communément acceptés du cancer du sein (l'âge de la ménarche, l'âge de la ménopause, le nombre d'enfants, l'obésité, la thérapie hormonale de substitution) peuvent être considérés comme des mesures d'une «dose» cumulée d'strogènes auxquels l'épithélium du sein est exposé au cours de la vie. Ce modèle multigénique pour la prédisposition au cancer du sein inclut les gènes candidats évidents qui participent aux différents aspects du métabolisme des strogènes (biosynthèse, transport, liaison aux récepteurs). Les polymorphismes de différents gènes codant pour des enzymes qui catalysent les étapes de la biosynthèse des strogènes (cytochrome P450C17*, aromatase, 17ß-hydroxysthéroïde déshydrogènases1) ainsi que les polymorphismes des gènes des récepteurs aux strogènes et à la progestérone, et des gènes codant pour des enzymes impliqués dans l'inactivation et l'excrétion des strogènes ont été étudiés dans des études d'association.33,34,35,36
Un deuxième modèle de susceptibilité au cancer du sein a ses racines dans la pharmacogénétique, discipline qui a reconnu très tôt que le profil génétique d'un individu influence sa réponse aux médicaments. Plusieurs carcinogènes potentiels du cancer du sein, comme par exemple les amines aromatiques dans la cigarette ou dans la viande cuite, ne peuvent endommager l'ADN qu'après avoir subi une ou plusieurs bioactivations métaboliques, en compétition avec des étapes de détoxification dans le corps humain.37,31,38 Les enzymes impliquées dans la bioactivation et la détoxification des amines aromatiques sont les mêmes que celles qui contrôlent le métabolisme des médicaments. Leur activité varie beaucoup entre individus et est dans de nombreux cas déterminée génétiquement. Il a donc été postulé que le profil génétique d'une personne la rend plus ou moins sensible à des carcinogènes spécifiques. Plusieurs études cas-témoins du cancer du sein ont évalué l'interaction entre le polymorphisme de NAT2, un gène connu pour être impliqué dans le métabolisme des amines aromatiques, avec la consommation de viande et l'exposition à la fumée de cigarette.39,40,41 Ces études ont cherché à clarifier si la fumée de cigarette et les mutagènes de la viande sont carcinogènes dans les sous-groupes déterminés, à quelle dose et par quel mécanisme. Les données épidémiologiques actuelles sur l'association entre des polymorphismes métaboliques et le risque de différents cancers montrent que l'impact d'un polymorphisme spécifique sur une maladie humaine dépend de cette maladie mais également de la présence d'autres facteurs de risque génétiques ou exogènes. Les acétylateurs rapides selon le polymorphisme NAT2 semblent avoir un plus haut risque de cancer du côlon, alors que les acétylateurs lents semblent avoir un plus haut risque de cancer de la vessie.42 Par conséquent, les allèles de faible pénétrance seront d'une utilité limitée pour tester les individus. Ils doivent plutôt être considérés comme des outils de recherche.
La principale limite des approches gènes-candidats est qu'il paraît hautement probable qu'un petit nombre de polymorphismes puissent expliquer une grande partie du risque génétique associé aux traits complexes. La susceptibilité a résisté aux mécanismes de sélection naturelle et est probablement répartie sur un grand nombre de variants ayant chacun un faible risque. C'est la raison pour laquelle l'identification de variants isolés requiert des études de grande taille, ayant la puissance statistique nécessaire pour mettre en évidence des effets faibles.
Les progrès dans notre compréhension des bases génétiques et environnementales des maladies complexes au cours des années passées ont été lents et l'incohérence des résultats est frustrante. Certains aspects sont importants pour le succès futur de l'épidémiologie génétique. Tout d'abord, les associations de polymorphismes et risques de maladie devraient être biologiquement plausibles et cohérents avec l'état de l'ensemble des connaissances scientifiques. Deuxièmement, la caractérisation fonctionnelle des polymorphismes par des analyses in vitro et la détermination de l'association avec la maladie dans différents groupes ethniques peuvent renforcer la crédibilité d'une association. Troisièmement, il est nécessaire de passer de l'étude de gènes-candidats (l'étude du risque de maladie associé à un petit nombre de polymorphismes) à l'étude de circuit, métaboliques candidats. Il est en effet plausible que dans les traits complexes, ce n'est pas une étape d'un circuit causal, mais la fonction sous le contrôle de nombreux gènes qui est perturbée. Les sources de variabilités génétiques seraient ainsi différentes selon les familles, expliquant le faible risque associé à chaque polymorphisme, mais convergeraient vers un même effet. Dans cette optique, les effets faibles de chaque variant pourraient être cumulatifs et des études de taille modérée pourraient avoir la puissance statistique nécessaire pour identifier des ensembles de variants impliqués dans un même circuit causal.