- Tout d'abord, nous allons définir le séquençage de l'ADN.
- Ensuite, nous aborderons l'expression et la régulation des gènes.
- Nous expliquerons ensuite le fonctionnement du séquençage de l'ADN.
- Nous parlerons ensuite de la méthode de Sanger.
Nous aborderons également le séquençage de nouvelle génération (NGS).
Enfin, nous évoquerons le projet du génome humain, une entreprise internationale qui a utilisé la méthode de Sanger pour séquencer le génome humain.
Qu'est-ce que le séquençage de l'ADN ?
Le séquençage de l'ADN est le processus qui consiste à déterminer la séquence des nucléotides de l'ADN, c'est-à-dire l'ordre des nucléotides qui composent un segment d'ADN.
Nous pouvons utiliser cette information pour déterminer la séquence de l'ARN ou de la protéine, ce qui nous permet d'obtenir plus d'informations sur la fonction du gène et sa relation avec d'autres gènes. Nous pouvons également utiliser ces informations pour étudier l'expression et la régulation des gènes. Pour comprendre le séquençage de l'ADN, il faut d'abord comprendre la structure de l'ADN.
Structure et séquence de l'ADN
L'ADN a une structure en double hélice composée de blocs de construction appelés nucléotides (ou bases azotées). L'ADN est composé de quatre bases azotées qui sont divisées en deux catégories : les purines, qui sont la guanine (G) et l'adénine (A), et les pyrimidines, qui sont la cytosine (C) et la thymine (T). Un brin d'ADN est composé de A, G, C et T, se répétant dans un ordre apparemment aléatoire (figure 1).
À première vue, l'ordre de ces quatre nucléotides peut sembler aléatoire, mais il ne l'est pas du tout. La disposition de ces nucléotides est très importante et correspond à différentes informations génétiques au sein d'une cellule ou d'un organisme. Elles constituent la base génétique sous-jacente des différents caractères d'un individu (également connu sous le nom de phénotype).
Supposons que la séquence d'ADN « CGATGG » transmette l'information génétique des cheveux noirs. Même s'il n'y a qu'un nucléotide différent, la séquence d'ADN « CGATCG » pourrait transmettre l'information génétique des cheveux bruns.
L'information génétique est essentielle pour comprendre les maladies génétiques telles que la maladie de Huntington, la mucoviscidose, le syndrome de Down et bien d'autres. Connaître une séquence d'ADN est essentiel pour comprendre la fonction de nos gènes.
Toute modification de cette séquence d'ADN est appelée mutation. Nous pouvons considérer la mutation comme une erreur dans la séquence d'ADN qui peut survenir lorsque l'ADN est copié pendant la réplication de l'ADN ou à la suite de différents facteurs environnementaux tels que le tabagisme, l'exposition au soleil, les radiations et d'autres agents mutagènes.
Les mutations de l'ADN peuvent conduire à la diversité des espèces, car elles produisent de nouveaux allèles (variantes de gènes). Les mutations peuvent être nuisibles, bénéfiques ou neutres. Les mutations nuisibles ont un impact négatif sur l'aptitude évolutive d'un organisme ou sur sa capacité à survivre et à se reproduire. Au contraire, les mutations bénéfiques ont un impact positif sur la capacité d'évolution d'un organisme.
La plupart des mutations sont neutres : elles n'ont aucun effet sur la capacité d'évolution d'un organisme. Si la plupart des mutations sont neutres, des mutations plus graves peuvent entraîner divers troubles génétiques mortels. L'une des maladies génétiques humaines les plus courantes est le cancer, causé par des mutations néfastes qui entraînent une croissance incontrôlée des cellules.
Complémentarité des bases azotées
Les quatre bases azotées s'apparient et sont reliées par des liaisons hydrogène. L'adénine (A) s'apparie toujours à la thymine (T), reliée par deux liaisons hydrogène, tandis que la cytosine (C) s'apparie toujours à la guanine (G), reliée par trois liaisons hydrogène. C'est ce qu'on appelle la complémentarité des bases azotées. Cette complémentarité joue un rôle important dans le séquençage de l'ADN.
Expression et régulation des gènes
L'expression des gènes est le processus de conversion des instructions contenues dans notre ADN en ARN et en protéines. Elle se déroule en deux étapes principales : la transcription, au cours de laquelle une copie de la séquence d'ADN d'un gène est produite et inscrite dans l'ARN, et la traduction, au cours de laquelle la protéine est synthétisée à l'aide de l'information génétique contenue dans le modèle d'ARN messager (ARNm). Examinons comment une séquence d'ADN se transforme au cours de ces deux étapes de l'expression génétique.
Transcription : de l'ADN à l'ARNm
Lors de la transcription de l'ADN, le brin d'ADN sert de modèle à l'ARN messager (ARNm). L'enzyme ARN polymérase forme un ARNm en parcourant le brin d'ADN de l'extrémité 3′ → 5'. En parcourant le brin, elle « copie » la séquence des bases en ajoutant des paires de bases complémentaires de l'extrémité 5′ → 3′.
Rappelons que l'ARN comporte de l'uracile (U) à la place de la thymine (T) tout en conservant l'adénine (A), la guanine (G) et la cytosine (C). Une guanine (G) dans l'ADN indiquerait l'ajout d'une cytosine (C) dans le brin d'ARNm en croissance. De même, une thymine (T) dans l'ADN sera copiée en adénine (A) dans l'ARNm. L'information contenue dans la séquence d'ADN est transmise à l'ARNm. L'ARNm subira ensuite une traduction pour produire une protéine.
Traduction : de l'ARNm à la protéine
L'ARNm passe du noyau (chez les eucaryotes) ou du cytoplasme (chez les procaryotes) aux ribosomes, où il sera traduit en protéines. L'ordre des bases azotées de l'ARNm correspondrait à des acides aminés spécifiques, qui sont les éléments constitutifs des protéines.
Séquençage de l'ADN : tableau montrant comment les séquences d'ARNm sont traduites en acides aminés
Comme indiqué précédemment, l'ADN contient l'information génétique nécessaire à la production de protéines. La séquence d'ADN transcrite en ARNm sera ensuite utilisée pour former des chaînes d'acides aminés, qui constituent les protéines. Toutes les trois bases azotées d'un ARNm correspondent à un codon, et chaque codon spécifie un acide aminé (figure 2).
Comment fonctionne le séquençage de l'ADN ?
Le séquençage de l'ADN consiste à diviser la séquence d'ADN en petits morceaux ou fragments. L'ordre des nucléotides de ces petits fragments est déterminé et ensuite assemblé pour constituer le fragment original.
L'une des techniques les plus populaires pour le séquençage de l'ADN est la méthode de séquençage de Sanger ou méthode par terminaison de chaîne. Elle est considérée comme une méthode de séquençage de « première génération ». Dans le séquençage de Sanger, la séquence d'ADN d'intérêt est amplifiée comme dans une réaction en chaîne par polymérase (PCR), mais modifiée de telle sorte qu'il s'agit désormais d'une réaction en chaîne par polymérase avec terminaison en chaîne.
La réaction en chaîne par polymérase (ou PCR) est une technique de laboratoire dans laquelle un segment d'ADN est « amplifié », ce qui signifie que des millions à des milliards de copies du segment sont créés. Ce processus utilise des amorces (de courts fragments d'ADN synthétique) pour déterminer le segment qui sera amplifié. La synthèse d'ADN est ensuite effectuée plusieurs fois pour amplifier ce segment.
La terminaison de chaîne d'ADN fait référence à la fin prématurée de la synthèse de la chaîne d'ADN lorsqu'un nucléotide qui ne peut pas former de liaison phosphodiester avec le nucléotide suivant est incorporé dans la chaîne en cours de synthèse.
La PCR à terminaison de chaîne suit une PCR conventionnelle, à l'exception qu'elle contient des désoxyribonucléotides modifiés supplémentaires ou nucléotides terminaux de chaîne appelés désoxyribonucléotides (ddNTPs) qui sont également marqués de manière fluorescente unique.
Méthode de Sanger
L'ADN double brin est d'abord dénaturé par chauffage. Une fois refroidi, une amorce est attachée à la matrice d'ADN simple brin. En augmentant à nouveau la température, l'étape d'extension commence : une ADN polymérase ajoute des nucléotides pour synthétiser un nouvel ADN jusqu'à ce qu'elle ajoute un ddNTP du mélange, ce qui met fin à l'ensemble de la réaction.
Ce cycle sera répété plusieurs fois, en veillant à ce qu'un ddNTP soit virtuellement ajouté à chaque position de la séquence d'ADN. Il en résultera de multiples fragments d'ADN de longueurs variables. L'extrémité des fragments étant marquée par fluorescence, cela indique le dernier nucléotide qui a été ajouté. Le mélange de fragments sera soumis à une électrophorèse en gel capillaire, qui sépare les fragments en fonction de leur taille.
Un détecteur sera capable de détecter les signaux fluorescents, ce qui donnera lieu à un chromatogramme. Un chromatogramme montre généralement les résultats du séquençage de l'ADN, où les quatre nucléotides sont représentés par des couleurs spécifiques (figure 3). Un chromatogramme contient généralement 1000 à 1200 nucléotides. La séquence d'ADN peut maintenant être déterminée à partir de ce chromatogramme en lisant les nucléotides de gauche à droite. Cet ordre équivaut à la séquence de l'extrémité 5' à l'extrémité 3' du brin d'ADN.
Si le séquençage Sanger est efficace pour séquencer de petits fragments d'ADN, même jusqu'à 900 paires de bases, le séquençage de fragments plus importants serait très inefficace avec cette technique. Pour le séquençage à grande échelle, comme le séquençage du génome d'un organisme, on utilise des technologies récentes de séquençage de l'ADN appelées séquençage de nouvelle génération.
Séquençage de nouvelle génération (NGS)
Les améliorations apportées au séquençage de l'ADN ont conduit à la mise au point de nouvelles techniques de séquençage de deuxième génération ou de nouvelle génération (NGS : Next Generation Sequencing). Le principe du NGS est similaire à celui du séquençage Sanger. Le NGS comprend trois étapes générales :
la préparation de la bibliothèque ;
l'amplification de l'ADN ;
le séquençage de l'ADN.
Préparation de la bibliothèque
Lors de la préparation de la bibliothèque, l'ADN de départ est coupé en fragments aléatoires, soit mécaniquement, soit par voie enzymatique.
Les séquences d'ADN peuvent être coupées mécaniquement grâce à un processus appelé sonication, dans lequel l'énergie sonore est utilisée pour agiter les particules dans un échantillon.
Les séquences d'ADN peuvent être coupées enzymatiquement à l'aide d'enzymes de restriction (ER). Après avoir reconnu des sites spécifiques de séquence, les ER coupent l'ADN en produisant une extrémité franche ou collante avec une séquence connue à chaque extrémité.
Une fois qu'une bibliothèque de fragments d'ADN de différentes tailles est produite, elle est amplifiée par PCR.
Amplification de l'ADN
Une fois qu'une bibliothèque appropriée est préparée, l'ADN doit être amplifié afin qu'un séquenceur puisse détecter le signal. Pendant l'amplification, une amorce se lie au modèle d'ADN monocaténaire par appariement de nucléotides complémentaires. Cette amorce sera le point de départ pour qu'une Taq polymérase ajoute des bases azotées et crée de nouveaux brins d'ADN.
La Taq polymérase est une enzyme utilisée en biologie moléculaire pour amplifier l'ADN par PCR. Elle a été isolée à l'origine à partir de la bactérie thermophile Thermus aquaticus. La Taq polymérase est connue pour sa résistance à la chaleur, ce qui en fait un choix populaire pour les réactions de PCR qui impliquent des cycles de chauffage et de refroidissement répétés.
En raison de l'appariement complémentaire des nucléotides de l'ADN, les chercheurs peuvent prédire la séquence de l'ADN complémentaire une fois que la séquence d'un brin d'ADN est connue. Cet appariement complémentaire est la base de la polymérase Taq pour la synthèse de nouveaux brins d'ADN.
Séquençage de l'ADN et analyse bio-informatique
Le séquençage est réalisé à l'aide de diverses méthodes de NGS (telles que Illumina, pyroséquençage et séquençage par ligation). Cela est effectué en chargeant la bibliothèque sur la plateforme de séquençage, qui lit les nucléotides et produit des données qui seront analysées par un logiciel spécialisé.
Exemple : le pyroséquençage
Le pyroséquençage est une technique utilisée pour lire la séquence d'ADN. Il fonctionne en utilisant une réaction chimique pour amplifier de petits fragments d'ADN en millions de copies. Ces fragments d'ADN sont ensuite attachés à de petites billes et placés dans une machine appelée séquenceur.
Le séquenceur utilise un laser pour détecter chaque nucléotide d'ADN lorsqu'elle est ajoutée au brin complémentaire. Chaque nucléotide d'ADN émet une lumière différente lorsqu'elle est ajoutée, ce qui permet au séquenceur de lire la séquence d'ADN. Le pyroséquençage est une méthode rapide et précise pour lire la séquence d'ADN, et elle est souvent utilisée dans la recherche scientifique pour étudier les gènes et les maladies génétiques.
Le projet du génome humain
Auparavant, il aurait été impensable de séquencer un génome entier. Les scientifiques ne disposaient pas alors des outils et des techniques nécessaires pour analyser de grands fragments d'ADN.
Aujourd'hui, avec l'avènement des nouvelles technologies, les scientifiques sont en mesure de séquencer des génomes entiers de différents organismes, comme le montre le projet du génome humain, qui a duré de 1990 à 2003. Le projet du génome humain est le fruit d'une collaboration entre une équipe de scientifiques internationaux dont l'objectif était de séquencer complètement le génome humain et de cartographier l'emplacement des gènes importants dans nos chromosomes.
Ils ont pu non seulement déterminer les paires de bases azotées de l'ADN, mais aussi cartographier tous les gènes et annoter certaines de leurs fonctions. Cela a permis de faire des découvertes très importantes sur la structure, l'organisation et la fonction du génome humain.
Un avantage inattendu du projet a été le développement de méthodes de séquençage de l'ADN plus rapides et moins coûteuses. En 2001, le séquençage d'un million de nucléotides coûtait plus de 5 000 dollars. Ce coût est tombé à 0,02 $ en 2016. En outre, alors que le séquençage du premier génome humain a pris plus de 10 ans, le séquençage d'un génome humain aujourd'hui ne prendrait que quelques jours.
Séquençage - Points clés
- Le séquençage de l'ADN est le processus qui consiste à déterminer la séquence de l'ADN ou l'ordre des bases azotées qui composent un segment d'ADN.
- La séquence d'ADN correspond à différentes informations génétiques au sein d'une cellule ou d'un organisme. Elle détermine les caractéristiques des organismes.
- Dans le processus d'expression génétique, une séquence d'ADN est transcrite en ARNm, puis l'ARNm est traduit en protéine.
- Le séquençage de l'ADN nécessite la décomposition de la séquence d'ADN en plus petits morceaux ou fragments.
- Le séquençage de l'ADN peut être effectué à l'aide de la méthode Sanger (généralement plus coûteuse) ou de la méthode plus récente et plus rapide du séquençage de nouvelle génération.