Informations

9 : Enquête sur l'ADN - Biologie

9 : Enquête sur l'ADN - Biologie



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

9 : Enquête sur l'ADN

Une nouvelle découverte montre que les cellules humaines peuvent écrire des séquences d'ARN dans l'ADN

Les cellules contiennent des machines qui dupliquent l'ADN dans un nouvel ensemble qui entre dans une cellule nouvellement formée. Cette même classe de machines, appelées polymérases, crée également des messages d'ARN, qui sont comme des notes copiées à partir du référentiel central de recettes d'ADN, afin qu'elles puissent être lues plus efficacement en protéines. Mais on pensait que les polymérases ne fonctionnaient que dans un seul sens de l'ADN en ADN ou ARN. Cela empêche les messages d'ARN d'être réécrits dans le livre de recettes principal de l'ADN génomique. Maintenant, les chercheurs de l'Université Thomas Jefferson fournissent la première preuve que les segments d'ARN peuvent être réécrits dans l'ADN, ce qui remet potentiellement en question le dogme central de la biologie et pourrait avoir de vastes implications affectant de nombreux domaines de la biologie.

"Ce travail ouvre la porte à de nombreuses autres études qui nous aideront à comprendre l'importance d'avoir un mécanisme pour convertir les messages d'ARN en ADN dans nos propres cellules", déclare Richard Pomerantz, Ph.D., professeur agrégé de biochimie et de biologie moléculaire à Université Thomas Jefferson. « La réalité selon laquelle une polymérase humaine peut le faire avec une grande efficacité soulève de nombreuses questions. » Par exemple, cette découverte suggère que les messages d'ARN peuvent être utilisés comme modèles pour réparer ou réécrire l'ADN génomique.

Le travail a été publié le 11 juin dans la revue Avancées scientifiques.

En collaboration avec le premier auteur Gurushankar Chandramouly et d'autres collaborateurs, l'équipe du Dr Pomerantz a commencé par étudier une polymérase très inhabituelle, appelée polymérase thêta. Sur les 14 ADN polymérases présentes dans les cellules de mammifères, seules trois effectuent l'essentiel du travail de duplication de l'ensemble du génome pour préparer la division cellulaire. Les 11 autres sont principalement impliqués dans la détection et la réparation en cas de rupture ou d'erreur dans les brins d'ADN. La polymérase thêta répare l'ADN, mais est très sujette aux erreurs et provoque de nombreuses erreurs ou mutations. Les chercheurs ont donc remarqué que certaines des "mauvaises" qualités de la polymérase thêta étaient celles qu'elle partageait avec une autre machine cellulaire, bien qu'une plus courante dans les virus, la transcriptase inverse. Comme Pol theta, la transcriptase inverse du VIH agit comme une ADN polymérase, mais peut également se lier à l'ARN et relire l'ARN dans un brin d'ADN.

Dans une série d'expériences élégantes, les chercheurs ont testé la polymérase thêta contre la transcriptase inverse du VIH, qui est l'une des mieux étudiées en son genre. Ils ont montré que la polymérase thêta était capable de convertir les messages d'ARN en ADN, ce qu'elle faisait aussi bien que la transcriptase inverse du VIH, et qu'elle faisait en fait un meilleur travail que lors de la duplication d'ADN en ADN. La polymérase thêta était plus efficace et introduisait moins d'erreurs lors de l'utilisation d'une matrice d'ARN pour écrire de nouveaux messages d'ADN que lors de la duplication d'ADN en ADN, ce qui suggère que cette fonction pourrait être son objectif principal dans la cellule.

Le groupe a collaboré avec le laboratoire du Dr Xiaojiang S. Chen à l'USC et a utilisé la cristallographie aux rayons X pour définir la structure et a découvert que cette molécule était capable de changer de forme pour s'adapter à la molécule d'ARN plus volumineuse, un exploit unique parmi les polymérases.

"Notre recherche suggère que la fonction principale de la polymérase thêta est d'agir comme une transcriptase inverse", explique le Dr Pomerantz. "Dans les cellules saines, le but de cette molécule peut être la réparation de l'ADN par l'ARN. Dans les cellules malsaines, telles que les cellules cancéreuses, la polymérase thêta est fortement exprimée et favorise la croissance des cellules cancéreuses et la résistance aux médicaments. Il sera passionnant de mieux comprendre comment L'activité de la polymérase thêta sur l'ARN contribue à la réparation de l'ADN et à la prolifération des cellules cancéreuses."


Introduction

Le domaine rapidement émergent des vésicules extracellulaires (VE) a conduit à des changements de paradigme dans de nombreux domaines différents de la biologie et de la biomédecine. La libération des véhicules électriques, dont on pensait à l'origine qu'elle n'agissait que pour éliminer les substances nocives des cellules, s'est avérée avoir beaucoup plus de conséquences fonctionnelles et un large éventail d'implications pour la biomédecine. Pour comprendre la structure et la fonction des véhicules électriques, les approches biochimiques initiales ciblées ont rapidement progressé vers des analyses à grande échelle sans biais utilisant la biologie des systèmes et la bioinformatique. En 2009, la première base de données organisée manuellement de protéines, d'ARN et de lipides EV, ExoCarta 1 (http://www.exocarta.org/), a été lancée. Elle a été suivie de deux bases de données supplémentaires, dont Vesiclepedia 2,3 (http://www.microvesicles.org/) et EVpedia 4,5 (http://student4.postech.ac.kr/evpedia2_xe/xe/). Ce sont des référentiels d'ensembles de données d'ARN, de protéines, de lipides et de métabolites. Étant donné que les paramètres préanalytiques peuvent jouer un rôle important dans la qualité des préparations d'EV, les entrées de la base de données doivent être interprétées avec prudence et une attention particulière doit être portée aux conditions préanalytiques. Récemment, l'ontologie des gènes a été étendue au contexte de la communication EV, en raison de la reconnaissance accrue de l'importance du champ EV 6 . En outre, des outils bioinformatiques pouvant être utilisés pour analyser les ensembles de données EV sont devenus disponibles 7,8. Les orientations futures peuvent inclure les éléments suivants : (i) des analyses de biologie des systèmes après des analyses préanalytiques EV plus standardisées, (ii) des analyses multiomiques d'échantillons EV (combinaisons de différents groupes omiques utilisés pour l'analyse), et (iii) la détermination de facteurs spécifiques à la maladie. Modèles/réseaux moléculaires EV composés de différents types de molécules. De plus, les approches de biologie des systèmes peuvent être étendues à de nouveaux domaines tels que la biologie des systèmes basée sur l'image.

Les avancées dans l'analyse de systèmes biologiques complexes tels que les véhicules électriques permettront de révéler la signification biologique de ces structures récemment découvertes et d'exploiter leur potentiel diagnostique et/ou thérapeutique.


Résultats et discussion

Présentation de RnBeads et nouvelles fonctionnalités

RnBeads comprend des modules pour l'importation de données, le contrôle de la qualité, le filtrage et la normalisation (« prétraitement »), l'exportation des données traitées (« pistes et tableaux »), l'inférence de covariables (p. analyse (p. ex., réduction de dimension, distribution globale des niveaux de méthylation de l'ADN, regroupement hiérarchique) et analyse différentielle de la méthylation de l'ADN (Fig. 1). Chaque module d'analyse génère un rapport HTML qui combine des descriptions de méthodes, des tableaux de résultats et des graphiques de qualité publication. Ces rapports fournissent à l'utilisateur un résumé complet et facilement partageable de l'ensemble de données.

Vue d'ensemble du workflow d'analyse RnBeads et des nouvelles fonctionnalités ajoutées dans RnBeads 2.0. Dessin conceptuel du flux de travail RnBeads pour l'analyse de la méthylation de l'ADN, répertoriant les fonctionnalités clés (à droite) pour chacun des modules d'analyse RnBeads (au centre), avec les fonctionnalités nouvellement ajoutées indiquées en texte rouge gras. tab, fichiers tabulaires (par exemple, séparés par des virgules) idat, fichiers d'intensité du signal Infinium geo, téléchargement à partir du référentiel de données GEO

Parmi les différentes fonctionnalités que nous avons introduites dans RnBeads depuis la publication originale en 2014, nous soulignons spécifiquement les quatre domaines suivants :

Nouveaux types de données et analyse multiplateforme : RnBeads prend désormais en charge les puces EPIC et permet une intégration transparente des données entre différents tests de méthylation de l'ADN (par exemple, les puces EPIC, 450k et 27k ainsi que WGBS et RRBS), ce qui facilite les méta-analyses de la méthylation de l'ADN qui combinent plusieurs sources de données en un seul ensemble de résultats.

Méthodes d'analyse et d'inférence étendues : Nous avons ajouté une nouvelle fonctionnalité pour gérer les données incomplètes et les valeurs manquantes, pour détecter les preuves génétiques de la contamination de l'échantillon ou de la faible qualité des données, pour quantifier l'hétérogénéité de la méthylation de l'ADN et pour l'inférence basée sur la méthylation de l'ADN des informations phénotypiques. Nous avons incorporé l'algorithme LUMP [22], qui estime le contenu en cellules immunitaires des tumeurs et d'autres échantillons de tissus hétérogènes, et la prédiction de l'âge épigénétique [23] pour les données de séquençage des puces Infinium et du bisulfite. Ces prédictions sont utiles non seulement pour déduire des annotations de donneurs manquantes, mais également pour détecter des écarts indiquant un vieillissement accéléré [24] ou des preuves de mélanges d'échantillons. Parmi les nouvelles fonctionnalités supplémentaires, citons l'identification de régions génomiques caractérisées par la variabilité différentielle de la méthylation de l'ADN [25, 26] et l'analyse d'enrichissement des régions génomiques à l'aide de l'outil LOLA [27].

Nouvelle interface conviviale : Nous fournissons une interface utilisateur graphique pour RnBeads qui facilite la configuration et l'exécution des analyses de méthylation de l'ADN. Avec les rapports HTML interactifs et explicites de RnBeads, cette nouvelle interface rend les analyses RnBeads plus facilement accessibles pour les utilisateurs ayant des connaissances limitées en R/Bioconducteur.

Efficacité de calcul améliorée : En utilisant la parallélisation et la distribution automatique des analyses RnBeads sur un cluster de calcul haute performance (HPC), nous avons pu traiter des ensembles de données comprenant des centaines de profils RRBS/WGBS et des milliers de profils basés sur des microréseaux en une seule analyse.

Pour illustrer l'utilité pratique de ces nouvelles fonctionnalités de RnBeads, nous présentons quatre cas d'utilisation : (i) méthylation de l'ADN dans les échantillons de sang périphérique humain, (ii) méthylation de l'ADN spécifique au type de cellule dans l'hématopoïèse humaine, (iii) hétérogénéité de la méthylation de l'ADN dans les échantillons de cancer , et (iv) l'analyse de la méthylation de l'ADN multiplateforme. Des versions détaillées réexécutables de ces analyses, y compris les configurations et les résultats, sont disponibles pour visualisation et téléchargement sur le site Web de RnBeads (https://rnbeads.org/methylomes.html). Ces analyses pré-configurées et rapports pré-calculés constituent également un bon point de départ pour s'initier à l'utilisation des RnBeads, complétant ainsi les tutoriels proposés sur le site RnBeads (https://rnbeads.org/tutorial.html), et pour paramétrer des analyses personnalisées qui intègrent des ensembles de données nouvellement générés avec des données de référence accessibles au public.

Cas d'utilisation 1 : Analyse de la méthylation de l'ADN dans une large cohorte d'échantillons de sang périphérique

Pour illustrer l'utilisation de RnBeads pour analyser les données de microréseau de méthylation de l'ADN dans une large cohorte, nous avons obtenu des profils Infinium 450k pour des échantillons de sang périphérique de 732 individus sains [28]. Nous avons également inclus des profils de référence pour les types de cellules sanguines triés [29], afin de tenir compte des différences interindividuelles dans la fréquence des différents types de cellules [30]. Tout d'abord, nous avons utilisé RnBeads pour déduire l'âge et le sexe du donneur pour chaque échantillon, comblant ainsi une poignée d'annotations manquantes avec des valeurs imputées, tout en vérifiant les éventuelles confusions d'échantillons parmi les échantillons dont l'âge et le sexe du donneur sont documentés dans le cadre de leur annotation (Fig. 2a, b). Deuxièmement, nous avons effectué une estimation basée sur des références de la composition des cellules immunitaires [30] telle qu'implémentée dans RnBeads, et nous avons constaté que le contenu inféré des cellules immunitaires [22] (ainsi que d'autres annotations) est en effet associé à des composants principaux importants de la méthylation de l'ADN. ensemble de données (Fig. 2c, d). Nos résultats soulignent la nécessité de corriger ces covariables lors de l'identification des CpG et des régions génomiques associées à la ou aux annotations d'intérêt principal. Troisièmement, nous avons comparé l'âge chronologique avec la fraction de cellules CD4 + T déduite des données de méthylation de l'ADN en utilisant des types de cellules sanguines triés comme référence [30] (Fig. 2e) et avons observé une corrélation négative, cohérente avec le changement connu lié à l'âge vers hématopoïèse myéloïde (au lieu de lymphoïde) [31]. En résumé, ce cas d'utilisation illustre la prédiction de l'âge, du sexe et de la composition cellulaire sur la base des données de méthylation de l'ADN, et il fournit un cadre pour les études d'association à l'échelle de l'épigénome basées sur des puces.

Analyse d'un vaste ensemble de données de méthylation de l'ADN d'échantillons sanguins profilés à l'aide d'Infinium 450k. une Diagramme de dispersion montrant la corrélation entre l'âge épigénétique prédit à partir de la méthylation de l'ADN et l'âge chronologique rapporté pour 729 donneurs sains (trois individus ont été exclus car aucun âge chronologique n'a été rapporté). b Positionnement des échantillons dans un espace bidimensionnel pour la prédiction du sexe. c Association statistique entre les composants principaux (colonnes) et les annotations d'échantillon (lignes). Associations significatives avec p les valeurs inférieures à 0,01 sont marquées par des cercles pleins, tandis que les valeurs non significatives sont représentées par des cercles vides. Analyse des composants principaux pour 792 profils de méthylation de l'ADN à base de sang, comprenant 732 échantillons de sang périphérique et 60 populations de cellules sanguines triées, en utilisant les mêmes composants principaux que dans le panel c. Le contenu des cellules immunitaires a été estimé à l'aide de l'algorithme LUMP. e Diagramme de dispersion montrant la corrélation négative entre l'âge chronologique et la fraction estimée de cellules CD4 + T

Cas d'utilisation 2 : Disséquer le paysage de la méthylation de l'ADN de l'hématopoïèse humaine

Les efforts de l'International Human Epigenome Consortium [14] et ses projets contributeurs ont abouti à de grands ensembles de données WGBS accessibles au public pour divers types de cellules. Pour démontrer la capacité de RnBeads à traiter de telles collections de référence, nous avons analysé un ensemble de données de méthylome d'ADN comprenant 195 profils WGBS et 26 238 599 sites CpG uniques (après l'étape de prétraitement) pour divers types de cellules hématopoïétiques (Fig. 3a), qui a été initialement établi par le Projet BLUEPRINT [32]. En nous concentrant sur des ensembles de régions génomiques prédéfinis, y compris l'Ensembl Regulatory Build [33], nous avons observé la distribution attendue de la méthylation de l'ADN, avec des niveaux élevés de méthylation de l'ADN dans les régions de pavage à l'échelle du génome, des niveaux légèrement inférieurs aux amplificateurs et aux sites de liaison des facteurs de transcription, et des niveaux beaucoup plus faibles (et une distribution bimodale) de méthylation de l'ADN au niveau des promoteurs de gènes et des sites de démarrage de la transcription (Fig. 3b). Les profils de méthylation de l'ADN se sont regroupés selon la lignée cellulaire (cellules lymphoïdes contre cellules myéloïdes), le stade de maturation cellulaire (cellules naïves contre cellules effectrices/mémoire) et le type de cellule (Fig. 3c). En comparant deux types de cellules myéloïdes (monocytes et neutrophiles), les RnBeads ont identifié une diminution des niveaux de méthylation de l'ADN dans les monocytes dans un sous-ensemble de régions régulatrices putatives (Fig. 3d). L'analyse LOLA pour l'enrichissement des ensembles de régions génomiques [27] (une nouvelle fonctionnalité que nous avons introduite dans RnBeads 2.0 pour faciliter l'interprétation biologique) a identifié un enrichissement caractéristique pour les régions régulatrices spécifiques au type cellulaire (y compris la chromatine ouverte spécifique aux monocytes et ses modifications d'histones associées) et pour les sites de liaison de facteurs de transcription hématopoïétiques importants tels que CEBPB et SPI-1/PU.1. En résumé, ce cas d'utilisation démontre l'évolutivité des RnBeads vers de grands ensembles de données de méthylation de l'ADN (ce qui implique la distribution de tâches d'analyse sur un cluster HPC pour un calcul parallélisé efficace), l'analyse régionale de la méthylation de l'ADN et l'interprétation biologique par l'analyse d'enrichissement de l'ensemble de régions. .

Analyse à l'échelle du génome de la méthylation de l'ADN dans les cellules hématopoïétiques profilées à l'aide de WGBS. une Vue d'ensemble des types de cellules et des numéros d'échantillons dans l'ensemble de données BLUEPRINT WGBS (version d'août 2016), qui a été analysé avec RnBeads. b Distribution des niveaux de méthylation de l'ADN pour différents types d'ensembles de régions génomiques. c Réduction de la dimension t-SNE basée sur les distances euclidiennes de la méthylation moyenne de l'ADN dans les régions régulatrices putatives. Les types de cellules sont codés par couleur comme dans le panneau une. Diagrammes de dispersion de densité montrant les niveaux de méthylation de l'ADN différentiels entre les monocytes (N = 20) et les neutrophiles (N = 10). La densité des points est indiquée en bleu. Les 0,1% des régions dans les zones les moins peuplées de la parcelle sont représentées sous forme de points individuels. Les 500 régions hypométhylées les mieux classées dans les monocytes par rapport aux neutrophiles sont indiquées en violet. e Log-odds ratios de l'analyse d'enrichissement LOLA pour les 500 régions mises en évidence dans le panneau . Les 20 catégories les plus enrichies des bases de données LOLA Core et Extended sont affichées. Des barres de couleurs différentes représentent différents types de données de région génomique (par exemple, des pics pour les marques d'histone ou des sites de liaison de facteur de transcription). Mf, macrophage GM, cellule lymphoblastoïde Mo, monocytes REMC, Roadmap Epigenomics Mapping Consortium

Cas d'utilisation 3 : Quantification de l'hétérogénéité de la méthylation de l'ADN dans une cohorte de cancers infantiles

L'hétérogénéité épigénétique est récemment apparue comme une propriété clé des échantillons tumoraux [34]. Pour démontrer l'utilité des RnBeads pour la recherche sur le cancer, nous avons réanalysé 188 profils RRBS récemment publiés de tumeurs du sarcome d'Ewing, de lignées cellulaires et de cellules souches mésenchymateuses [7]. Le sarcome d'Ewing est un cancer des os pédiatrique caractérisé par une faible hétérogénéité génétique mais des changements frappants dans l'épigénome [7, 35]. Le traitement des données et le contrôle de la qualité ont abouti à 2 217 186 sites CpG uniques qui ont été couverts par au moins cinq lectures de séquençage dans plus de 50 % des échantillons. Sur la base de ces CpG, nous avons agrégé les valeurs de méthylation de l'ADN dans chaque échantillon à travers les régions génomiques annotées, y compris les éléments régulateurs putatifs définis dans l'Ensembl Regulatory Build [33]. L'analyse en composantes principales a montré la séparation attendue entre les tumeurs, les lignées cellulaires et les cellules souches mésenchymateuses, avec une plus grande hétérogénéité d'échantillon à échantillon parmi les tumeurs et les lignées cellulaires par rapport aux cellules souches mésenchymateuses (Fig. 4a). Nous avons comparé les tumeurs primaires avec les lignées cellulaires en utilisant le module de méthylation différentielle de l'ADN de RnBeads, et nous avons constaté que la plupart des régions différentiellement méthylées étaient hyperméthylées dans les lignées cellulaires (Fig. 4b). Nous avons également observé une augmentation de la variance dans les lignées cellulaires (Fig. 4c). L'analyse LOLA a détecté des enrichissements nettement différents parmi les régions à méthylation différentielle (DMR) et les régions à variation différentielle (DVR), indiquant que les deux mesures fournissent des informations complémentaires sur le paysage de méthylation de l'ADN (Fig. 4d-f). Les régions hyperméthylées dans les lignées cellulaires du sarcome d'Ewing ont été enrichies en sites hypersensibles à la DNase dans divers échantillons de tissus sains (Fig. 4d), conformément à l'hyperméthylation et au silence généralisés des régions régulatrices non essentielles dans les lignées cellulaires. En revanche, les régions hypervariables étaient enrichies pour la liaison au facteur de transcription et les modifications des histones dans les lignées cellulaires cancéreuses et les cellules souches embryonnaires (Fig. 4f), indiquant une plasticité régulatrice accrue des lignées cellulaires du sarcome d'Ewing par rapport aux tumeurs primaires. En résumé, ce cas d'utilisation décrit l'analyse d'un ensemble de données basé sur RRBS (qui bénéficie d'une analyse régionale en raison des fluctuations de la couverture CpG unique), et il démontre l'utilité de RRBS et RnBeads pour étudier l'hétérogénéité de la méthylation de l'ADN dans les échantillons de tumeur .

Dissection de l'hétérogénéité de la méthylation de l'ADN dans des échantillons de sarcome d'Ewing profilés à l'aide du RRBS. une Analyse en composantes principales d'un ensemble de données RRBS pour les tumeurs du sarcome d'Ewing, les lignées cellulaires et les cellules souches mésenchymateuses, sur la base des valeurs de méthylation de l'ADN agrégées dans les régions Ensembl Regulatory Build. b Nuage de points de densité comparant les niveaux de méthylation de l'ADN agrégé entre les tumeurs du sarcome d'Ewing (N = 140) et des lignées cellulaires de sarcome d'Ewing (N = 16). Marquées en violet sont les régions méthylées de manière différentielle les plus classées jusqu'à un seuil de classement sélectionné automatiquement. c Nuage de points de densité comparant la variance de la méthylation de l'ADN entre les tumeurs du sarcome d'Ewing et les lignées cellulaires. Les régions significativement variables de manière différentielle sont marquées en brun. Enrichissement (log-odds ratios) basé sur l'analyse LOLA pour les régions méthylées différentiellement indiquées dans le panneau b et en panneau e. Les barres de couleurs différentes représentent différents types de données de région génomique. e Nuage de points de densité comparant les rapports logarithmiques entre les niveaux de méthylation de l'ADN et la variance dans les tumeurs du sarcome d'Ewing et les lignées cellulaires. F Enrichissement (log-odds ratios) basé sur l'analyse LOLA pour les régions différentiellement variables présentées dans le panneau c et en panneau e. CSE, CGI de cellules souches embryonnaires, îlots CpG

Cas d'utilisation 4 : Analyse des données de méthylation de l'ADN sur différentes plates-formes d'analyse

Plusieurs générations de puces à ADN de méthylation d'Infinium ont été utilisées au fil des ans, et il peut être nécessaire de combiner plusieurs ensembles de données dans une analyse intégrative. RnBeads fournit désormais des méthodes dédiées pour l'analyse multiplateforme, permettant de combiner des objets de données RnBeads à travers les différentes versions du microarray Infinium (27k, 450k, EPIC) et avec des données de séquençage bisulfite (RRBS, WGBS). Pour démontrer cette fonctionnalité, nous avons analysé un ensemble de données d'analyse comparative comprenant trois plates-formes d'analyse différentes : les puces Infinium 450k, les puces Infinium EPIC et le WGBS [36]. Les trois ensembles de données ont été chargés et prétraités séparément à l'aide de RnBeads, ce qui a abouti à des objets de données avec respectivement 443 053 (450 k), 801 716 (EPIC) et 25 918 426 (WGBS) sites CpG uniques. En appliquant la méthode RnBeads pour combiner des ensembles de données avec la possibilité d'inclure uniquement les CpG couverts par les trois plates-formes, ces objets ont été fusionnés en un ensemble de données combiné comprenant 408 621 CpG partagés. Cet ensemble de données combiné a été traité à l'aide des modules d'analyse RnBeads. Nous avons observé des différences dans la distribution globale des niveaux de méthylation de l'ADN entre les tests (Fig. 5a). Néanmoins, l'analyse en composantes principales a montré que les différences biologiques entre les échantillons prédominaient sur les différences techniques entre les plateformes (Fig. 5b). En nous concentrant spécifiquement sur la comparaison entre une lignée cellulaire du cancer de la prostate (LNCaP) et les cellules épithéliales de la prostate (PrEC), nous avons observé la corrélation la plus élevée entre les réplicats pour le même test dans le même type cellulaire (Pearson’s r = 0,9979, figure 5c). Néanmoins, la corrélation entre différents dosages dans le même type cellulaire (Pearson’s r = 0.9655, Fig. 5d) était encore élevée et beaucoup plus forte que la corrélation entre les différents types de cellules pour le même test (Pearson's r = 0,6471, figure 5e). En résumé, ce cas d'utilisation met en évidence la faisabilité et l'utilité pratique de l'analyse multiplateforme de la méthylation de l'ADN à l'aide de RnBeads.

Intégration de données multiplateforme à l'aide de RnBeads. une Distribution des niveaux de méthylation de l'ADN pour les mêmes échantillons profilés sur différentes plates-formes d'analyse. b Analyse en composantes principales de l'ensemble de données de comparaison d'essais. Les formes et les couleurs des points représentent respectivement les plates-formes de dosage et les types de cellules. c–e Nuages ​​de points de densité comparant des réplicats de cellules épithéliales de la prostate profilées à l'aide du test EPIC (panel c) cellules épithéliales de la prostate profilées à l'aide du test EPIC et WGBS (panel ) et des cellules épithéliales de la prostate ainsi qu'une lignée cellulaire de cancer de la prostate profilée avec le test EPIC (panel e). La densité des points est indiquée en bleu. Les 0,1 % de CpG dans les zones les moins peuplées de la parcelle sont indiqués sous forme de points individuels. Toutes les parcelles sont basées sur les CpG qui ont été couverts par les trois plates-formes d'analyse. Les coefficients de corrélation de Pearson sont indiqués sous chaque diagramme. NAF, fibroblastes non malins associés aux tissus CAF, fibroblastes associés au cancer PrEC, cellules épithéliales de la prostate LNCaP, lignée cellulaire du cancer de la prostate

Comparaison avec d'autres outils logiciels pour l'analyse de la méthylation de l'ADN

Pour évaluer l'efficacité de calcul des RnBeads, nous avons comparé ses performances à celles d'autres progiciels pour l'analyse de la méthylation de l'ADN [37,38,39,40], séparément pour les données de microarray de méthylation de l'ADN, les données RRBS et les données WGBS (voir les « Méthodes ” pour plus de détails et Fichier supplémentaire 2 : Tableau S2 pour les configurations d'outils). Étant donné que les différents outils fournissent des ensembles de fonctionnalités très différents, nous avons envisagé trois scénarios : (i) importation de données uniquement, (ii) modules de base et (iii) analyse complète avec la plupart des fonctionnalités activées (Fichier supplémentaire 3 : Figure S1). RnBeads était le seul outil qui prenait en charge à la fois l'analyse basée sur les microréseaux et l'analyse basée sur le séquençage au bisulfite. Pour l'analyse basée sur des puces à ADN, les packages de traitement de données de bas niveau minfi, methylumi et watermelon étaient plus rapides que ChAMP et RnBeads (qui doivent préparer l'ensemble de données pour leurs analyses en aval plus approfondies). Par rapport à ChAMP, RnBeads était plus efficace en mémoire et plus rapide dans le cadre global. Pour l'analyse basée sur le séquençage du bisulfite, RnBeads a montré de meilleures performances que methylKit sur l'ensemble de données WGBS dans le paramètre du module de base, mais une durée d'exécution un peu plus longue et une utilisation de la mémoire plus élevée sur l'ensemble de données RRBS. Ces différences peuvent être attribuées au reformatage en structures de données économes en mémoire que RnBeads effectue lors de l'importation de données. En résumé, les performances d'exécution de RnBeads étaient similaires à celles d'autres outils avec des fonctionnalités plus limitées, ce qui suggère que le choix de l'outil le plus approprié pour l'analyse de la méthylation de l'ADN dépend principalement des fonctionnalités et des modes d'analyse souhaités. Pour aider à une sélection éclairée, nous avons donc examiné une large gamme d'outils pour l'analyse de la méthylation de l'ADN et assemblé un tableau de caractéristiques détaillé basé sur les documentations de l'outil (Fichier supplémentaire 1 : Tableau S1). RnBeads a émergé de cette comparaison comme le logiciel qui met en œuvre le flux de travail le plus complet pour analyser les données de méthylation de l'ADN, tout en fournissant également une interface conviviale et des options étendues pour la création de rapports et la reproductibilité.


Dynamique spatio-temporelle du méthylome de l'ADN du fœtus de souris en développement

La méthylation de l'ADN de la cytosine est essentielle pour le développement des mammifères, mais la compréhension de sa distribution spatio-temporelle dans l'embryon en développement reste limitée 1,2. Ici, dans le cadre du projet Encyclopédie des éléments d'ADN de la souris (ENCODE), nous avons profilé 168 méthylomes de 12 tissus ou organes de souris à 9 stades de développement, de l'embryogenèse à l'âge adulte. Nous avons identifié 1 808 810 régions génomiques qui présentaient des variations dans la méthylation de la CG en comparant les méthylomes de différents tissus ou organes de différents stades de développement. Ces éléments de l'ADN perdent principalement la méthylation de la CG au cours du développement fœtal, alors que la tendance s'inverse après la naissance. Au cours des derniers stades du développement fœtal, la méthylation non-CG s'est accumulée dans le corps des gènes clés des facteurs de transcription du développement, coïncidant avec leur répression transcriptionnelle. L'intégration des données sur la méthylation de l'ADN à l'échelle du génome, la modification des histones et l'accessibilité de la chromatine nous a permis de prédire 461 141 activateurs putatifs de développement spécifique aux tissus, dont les orthologues humains ont été enrichis pour les variantes génétiques associées à la maladie. Ces cartes spatio-temporelles de l'épigénome fournissent une ressource pour les études de la régulation des gènes au cours de la progression des tissus ou des organes, et un point de départ pour étudier les éléments régulateurs impliqués dans les troubles du développement humain.

Déclaration de conflit d'intérêts

B.R. est co-fondateur et actionnaire d'Arima Genomics, Inc. Les autres auteurs ne déclarent aucun intérêt concurrent.

Les figures

Fig. 1. Annotation de la variable de méthylation régulatrice…

Fig. 1. Annotation des éléments régulateurs variables de la méthylation dans les tissus de souris en développement.

Fig. 2. Les CG-DMR spécifiques aux tissus subissent une déméthylation continue…

Fig. 2. Les CG-DMR spécifiques aux tissus subissent une déméthylation continue pendant l'embryogenèse et une reméthylation après la naissance.

Fig. 3. L'accumulation de mCH prédit une réduction du gène…

Fig. 3. L'accumulation de mCH prédit une expression génique réduite.

Fig. 4. Annotation Enhancer de la souris en développement…

Fig. 4. Annotation Enhancer des tissus de souris en développement.

Fig. 5. Association entre mCG, expression génique…

Fig. 5. Association entre mCG, expression génique et SNP associés à la maladie.

Données étendues Fig. 1. Hypométhylation globale dans…

Données étendues Fig. 1. Hypométhylation globale dans le foie fœtal.

Données étendues Fig. 2. Catégorisation des CG-DMR.

Données étendues Fig. 2. Catégorisation des CG-DMR.

Données étendues Fig. 3. Caractérisation des amorçages…

Données étendues Fig. 3. Caractérisation des feDMR et unxDMR distaux amorcés.

Données étendues Fig. 4. Taille de l'effet CG-DMR…

Données étendues Fig. 4. Analyse de la taille de l'effet CG-DMR.

Données étendues Fig. 5. Lien entre la méthylation…

Données étendues Fig. 5. Lien entre la dynamique de méthylation et les modifications des histones au niveau des CG-DMR spécifiques aux tissus.

Données étendues Fig. 6. Hypométhylation CG à grande échelle…

Données étendues Fig. 6. L'hypométhylation de la CG à grande échelle se chevauche fortement avec les super-amplificateurs.


CH450 et CH451 : Biochimie - Définir la vie au niveau moléculaire

Acide désoxyribonucléique génomique est l'ADN chromosomique, contrairement à l'ADN extra-chromosomique tel que celui trouvé dans les mitochondries des mammifères ou les structures plasmidiques des bactéries (Figure 5.1). Les plasmides seront discutés plus en détail dans la section 5.3 au cours de la discussion sur le clonage et l'expression de gènes. Il est également abrégé en ADNg. La plupart des organismes ont le même ADN génomique dans chaque cellule, cependant, seuls certains gènes sont actifs dans chaque cellule pour permettre la fonction cellulaire et la différenciation dans le corps.

Le génome d'un organisme (codé par l'ADN génomique) est l'information (biologique) de l'hérédité qui se transmet d'une génération d'organisme à l'autre. Ce génome est transcrit pour produire divers ARN, qui sont nécessaires au fonctionnement de l'organisme. L'ARNm précurseur (pré-ARNm) est transcrit par l'ARN polymérase II dans le noyau. Le pré-ARNm est ensuite traité par épissage pour éliminer les introns, laissant les exons dans l'ARN messager mature (ARNm). Un traitement supplémentaire comprend l'ajout d'un capuchon 5 & 8242 et d'une queue poly (A) au pré-ARNm. L'ARNm mature peut ensuite être transporté vers le cytosol et traduit par le ribosome en une protéine. D'autres types d'ARN comprennent l'ARN ribosomique (ARNr) et l'ARN de transfert (ARNt). Ces types sont transcrits respectivement par l'ARN polymérase II et l'ARN polymérase III et sont essentiels à la synthèse des protéines. Cependant, l'ARNr 5s est le seul ARNr qui est transcrit par l'ARN polymérase III.

En génétique, ADN complémentaire (ADNc) est un ADN synthétisé à partir d'une matrice d'ARN simple brin (par exemple, ARN messager (ARNm) ou microARN) dans une réaction catalysée par l'enzyme transcriptase inverse (Figure 5.1). La transcriptase inverse est une enzyme présente dans les rétrovirus tels que le VIH dont le matériel génétique de base est l'ARN. Lorsqu'il pénètre dans la cellule hôte, l'ARN subit une transcription inverse pour produire une copie de l'ADNc qui peut ensuite s'intégrer dans l'ADN génomique de l'hôte. En biotechnologie, la transcriptase inverse est souvent utilisée pour créer de l'ADNc à partir de l'ARNm exprimé dans des cellules ou des tissus spécifiques. De cette manière, les gènes eucaryotes peuvent être clonés sans aucun intron logé dans la structure. Ceci est particulièrement utile si l'objectif est d'exprimer la protéine dans un hôte procaryote (bactérien). Rappelons que l'ADN bactérien ne contient aucune séquence d'intron dans son ADN chromosomique. Ainsi, si vous utilisez un système procaryote pour exprimer des protéines eucaryotes, vous devez utiliser l'ADNc, car le système procaryote ne sera pas en mesure d'éliminer les séquences d'intron après la transcription du gène.

Le terme ADNc est également utilisé, généralement dans un contexte bioinformatique, pour désigner une séquence de transcription d'ARNm, exprimée en bases d'ADN (GCAT) plutôt qu'en bases d'ARN (GCAU).

Graphique 5.1. ADN génomique (ADNg) vs ADN complémentaire (ADNc). Le diagramme de gauche montre le traitement de l'ADN génomique dans une cellule pour produire une protéine (Panneau bleu supérieur montre les éléments structurels communs aux gènes eucaryotes. Le processus de transcription génique produit une molécule d'ARN messager (ARNm) qui doit être modifiée post-traductionnellement, panneau gris, pour supprimer les séquences d'intron non codantes et ajouter les sections 5 & 8242-CAP et Poly-A-Tail. L'ARNm mature est transporté du noyau vers le cytoplasme où il est traduit par le ribosome dans la séquence protéique, panneau rouge.) Le diagramme de droite montre que l'isolement de l'ARNm d'une cellule peut être utilisé pour synthétiser l'ADNc à l'aide de l'enzyme transcriptase inverse. L'ADNc résultant ne contient que des éléments de l'ARNm mature, y compris les exons et la queue poly-A.

Techniques d'isolement de l'ADN

Isolement de l'ADN est un processus de purification de l'ADN à partir d'un échantillon utilisant une combinaison de méthodes physiques et chimiques. Le premier isolement d'ADN a été réalisé en 1869 par Friedrich Miescher. Il s'agit actuellement d'une procédure de routine en biologie moléculaire ou en analyses médico-légales. Pour la méthode chimique, il existe de nombreux kits différents utilisés pour l'extraction, et en sélectionnant le bon, vous gagnerez du temps sur l'optimisation des kits et les procédures d'extraction. La détection de la sensibilité par PCR est considérée comme montrant la variation entre les kits commerciaux.

Il existe trois techniques standard de purification d'ADN décrites ci-dessous :

  • Les cellules qui doivent être étudiées doivent être collectées.
  • Briser les membranes cellulaires pour exposer l'ADN ainsi que le cytoplasme à l'intérieur (lyse cellulaire).
    • Les lipides de la membrane cellulaire et du noyau sont décomposés avec des détergents et des tensioactifs.
    • Briser les protéines en ajoutant une protéase (facultatif).
    • Briser l'ARN en ajoutant une RNase (facultatif).
    1. Précipitation d'éthanolgénéralement par de l'éthanol ou de l'isopropanol glacé. Puisque l'ADN est insoluble dans ces alcools, il s'agrègera, donnant un pastille lors de la centrifugation. La précipitation de l'ADN est améliorée en augmentant la force ionique, généralement en ajoutant de l'acétate de sodium.
    2. Extraction phénol-chloroforme dans lequel le phénol dénature les protéines de l'échantillon. Après centrifugation de l'échantillon, les protéines dénaturées restent dans la phase organique tandis que la phase aqueuse contenant l'acide nucléique est mélangée au chloroforme qui élimine les résidus de phénol de la solution.
    3. Purification minicolonne cela repose sur le fait que les acides nucléiques peuvent se lier (adsorption) à la phase solide (silice ou autre) en fonction du pH et de la concentration en sel du tampon (Figure 5.2).

    Les protéines cellulaires et histones liées à l'ADN peuvent être éliminées soit en ajoutant une protéase, soit en ayant précipité les protéines avec de l'acétate de sodium ou d'ammonium, ou en les extrayant avec un mélange phénol-chloroforme avant la précipitation de l'ADN.

    Après isolement, l'ADN est dissous dans un tampon légèrement alcalin, généralement dans un tampon Tris-EDTA, ou dans de l'eau ultra-pure. Les modifications apportées à ces techniques standard sont souvent apportées si le tissu utilisé est difficile à décomposer, si des contaminants persistent dans la solution de lyse qui inhibent d'autres réactions, ou si l'échantillon est extrêmement minime, comme c'est souvent le cas dans les enquêtes médico-légales. De plus, différents kits commerciaux seront adaptés pour l'isolement d'ADN génomique plus gros ou d'ADN plasmidique plus petit.

    Figure 5.2 Colonne de centrifugation de silice utilisée pour la purification de l'ADN. La purification des acides nucléiques sur colonne de centrifugation est une méthode d'extraction en phase solide pour purifier rapidement les acides nucléiques. Cette méthode repose sur le fait que l'acide nucléique se lie à la phase solide de la silice dans certaines conditions, puis se libère lorsque ces conditions sont modifiées. Pour la liaison, une solution tampon est ajoutée au lysat d'ADN avec de l'éthanol ou de l'isopropanol. Cela forme la solution de liaison. La solution de liaison est transférée dans une colonne de centrifugation et la colonne est placée dans une centrifugeuse. La centrifugeuse force la solution de liaison à travers une membrane de gel de silice qui se trouve à l'intérieur de la colonne de centrifugation. Si le pH et la concentration en sel de la solution de liaison sont optimaux, l'acide nucléique se lie à la membrane de gel de silice lors du passage de la solution. Pour laver les composants cellulaires non spécifiques de la colonne, l'écoulement est retiré et un tampon de lavage est ajouté à la colonne. La colonne est remise dans une centrifugeuse, forçant le tampon de lavage à traverser la membrane. Cela élimine toutes les impuretés restantes de la membrane, ne laissant que l'acide nucléique lié au gel de silice. Pour éluer, le tampon de lavage est retiré et un tampon d'élution à faible teneur en sel (ou simplement de l'eau) est ajouté à la colonne. La colonne est remise dans une centrifugeuse, forçant le tampon d'élution à traverser la membrane. Le tampon d'élution déplace l'acide nucléique de la colonne lui permettant d'être collecté dans l'écoulement. Contrairement à l'ARN qui se dégrade très rapidement, l'ADN est assez stable et peut être stocké pendant de longues périodes à -20 o C.

    Techniques de séquençage de l'ADN

    séquençage ADN est le processus de détermination de la séquence d'acide nucléique - l'ordre des nucléotides dans l'ADN. Il comprend toute méthode ou technologie utilisée pour déterminer l'ordre des quatre bases : adénine, guanine, cytosine et thymine. L'avènement des méthodes de séquençage rapide de l'ADN a considérablement accéléré la recherche et les découvertes biologiques et médicales.

    La connaissance des séquences d'ADN est devenue indispensable pour la recherche biologique fondamentale, et dans de nombreux domaines appliqués tels que le diagnostic médical, la biotechnologie, la biologie médico-légale, la virologie et la systématique biologique. La comparaison de séquences d'ADN saines et mutées peut diagnostiquer différentes maladies, y compris divers cancers, caractériser le répertoire d'anticorps et peut être utilisée pour guider le traitement du patient. Disposer d'un moyen rapide de séquencer l'ADN permet d'administrer des soins médicaux plus rapides et plus individualisés, et d'identifier et de cataloguer davantage d'organismes.

    La vitesse rapide de séquençage atteinte avec la technologie moderne de séquençage de l'ADN a joué un rôle déterminant dans le séquençage de séquences d'ADN complètes, ou génomes, de nombreux types et espèces de vie, y compris le génome humain et d'autres séquences d'ADN complètes de nombreux animaux, végétaux et microbiens. espèce.

    Les premières séquences d'ADN ont été obtenues au début des années 1970 par des chercheurs universitaires utilisant des méthodes laborieuses basées sur la chromatographie bidimensionnelle. Suite au développement de méthodes de séquençage basées sur la fluorescence avec un séquenceur d'ADN, le séquençage d'ADN est devenu plus facile et des ordres de grandeur plus rapides.

    La structure canonique de l'ADN a quatre bases : la thymine (T), l'adénine (A), la cytosine (C) et la guanine (G). Le séquençage de l'ADN est la détermination de l'ordre physique de ces bases dans une molécule d'ADN. Cependant, les bases d'ADN sont souvent modifiées par des processus épigénétiques pour contrôler l'expression des gènes. Ainsi, de nombreuses autres bases modifiées qui peuvent être présentes dans une molécule d'ADN que les quatre bases standard. Par exemple, dans certains virus (en particulier, les bactériophages), la cytosine peut être remplacée par l'hydroxyméthyl- ou l'hydroxyméthylglucose cytosine. Dans l'ADN eucaryote, des bases variantes avec des groupes méthyle ou phosphosulfate peuvent être trouvées (Figure 5.3). Selon la technique de séquençage, une modification particulière, par exemple, le 5mC (5-méthylcytosine) courante chez l'homme, peut ou non être détectée.

    Figure 5.3 Modifications de l'ADN avec des fonctions régulatrices épigénétiques et leurs interdépendances. La cytosine (C) est méthylée en 5-méthylcytosine (5mC) par les ADN méthyltransférases (DNMT) puis oxydée en 5hmC, 5fC et 5caC par les dioxygénases Tet. Le 5-hydroxyuracile (5hmU) est produit par oxydation catalysée par Tet de la thymine (T).La N6-méthyladénine (6mA) est probablement catalysée par l'ADN N6 adénine méthyltransférase (DAMT-1 dans C. elegans), même si l'activité biochimique de ces enzymes reste à caractériser. Les enzymes ALKB de type Tet NMAD (N6-méthyl adénine déméthylase 1) et DMAD (ADN 6mA déméthylase) se sont révélées être impliquées dans la déméthylation de 6mA dans C. elegans et en Drosophile, respectivement, éventuellement en utilisant un mécanisme de dioxygénase conservé.

    Premières méthodes de séquençage de l'ADN

    La première méthode de détermination des séquences d'ADN impliquait une stratégie d'extension d'amorce spécifique à l'emplacement établie par Ray Wu à l'Université Cornell en 1970. La catalyse de l'ADN polymérase et le marquage spécifique des nucléotides, qui figurent tous deux en bonne place dans les schémas de séquençage actuels, ont été utilisés pour séquencer les extrémités cohésives. de l'ADN du phage lambda. Entre 1970 et 1973, Wu, R Padmanabhan et leurs collègues ont démontré que cette méthode peut être utilisée pour déterminer n'importe quelle séquence d'ADN à l'aide d'amorces synthétiques spécifiques à l'emplacement. Frederick Sanger a ensuite adopté cette stratégie d'extension d'amorce pour développer des méthodes de séquençage d'ADN plus rapides au MRC Centre, Cambridge, Royaume-Uni et a publié une méthode de séquençage de l'ADN avec des inhibiteurs de terminaison de chaîne en 1977. Walter Gilbert et Allan Maxam à Harvard a également développé des méthodes de séquençage, dont une pour le “séquençage de l'ADN par dégradation chimique”. En 1973, Gilbert et Maxam ont rapporté la séquence de 24 paires de bases en utilisant une méthode connue sous le nom d'analyse des points errants. Les progrès du séquençage ont été facilités par le développement simultané de la technologie de l'ADN recombinant, permettant d'isoler des échantillons d'ADN à partir de sources autres que des virus.

    Séquençage Maxam-Gilbert nécessite un marquage radioactif à une extrémité 5 & 8242 de l'ADN et la purification du fragment d'ADN à séquencer. Le traitement chimique génère alors des cassures à une faible proportion d'une ou deux des quatre bases nucléotidiques dans chacune des quatre réactions (G, A+G, C, C+T). La concentration des produits chimiques modificateurs est contrôlée pour introduire en moyenne une modification par molécule d'ADN. Ainsi, une série de fragments marqués est générée, de l'extrémité radiomarquée au premier site "coupé" dans chaque molécule. Les fragments dans les quatre réactions sont soumis à une électrophorèse côte à côte dans des gels d'acrylamide dénaturants pour une séparation par taille. Pour visualiser les fragments, le gel est exposé à un film radiographique pour autoradiographie, produisant une série de bandes sombres correspondant chacune à un fragment d'ADN radiomarqué, à partir duquel la séquence peut être déduite.

    Les aspects techniques du séquençage de Maxam-Gilbert l'ont rendu obsolète une fois la méthode de séquençage de Sanger bien établie, comme décrit ci-dessous.

    Méthode de séquençage de Sanger

    La méthode de terminaison de chaîne développée par Frederick Sanger et ses collègues en 1977 est rapidement devenue la méthode de choix, en raison de sa relative facilité et fiabilité. Lorsqu'elle a été inventée, la méthode du terminateur de chaîne utilisait moins de produits chimiques toxiques et des quantités inférieures de radioactivité que la méthode Maxam-Gilbert. En raison de sa facilité relative, la méthode de Sanger a été rapidement automatisée et a été la méthode utilisée dans la première génération de séquenceurs d'ADN.

    La méthode classique de terminaison de chaîne nécessite une matrice d'ADN simple brin, une amorce d'ADN, une ADN polymérase, des désoxynucléotides triphosphates normaux (dNTP) et des di-désoxynucléotidetriphosphates modifiés (ddNTP), ces derniers mettant fin à l'élongation des brins d'ADN. Ces nucléotides de terminaison de chaîne manquent d'un groupe 3 & 8242-OH requis pour la formation d'une liaison phosphodiester entre deux nucléotides, provoquant l'arrêt de l'extension de l'ADN par l'ADN polymérase lorsqu'un ddNTP modifié est incorporé. Les ddNTP peuvent être marqués par radioactivité ou fluorescence pour une détection dans des machines de séquençage automatisées.

    L'échantillon d'ADN est divisé en quatre réactions de séquençage distinctes, contenant les quatre désoxynucléotides standard (dATP, dGTP, dCTP et dTTP) et l'ADN polymérase. A chaque réaction est ajouté un seul des quatre didésoxynucléotides (ddATP, ddGTP, ddCTP ou ddTTP), tandis que les autres nucléotides ajoutés sont des nucléotides ordinaires (Figure 5.4).

    Graphique 5.4. ddNTP fluorescents pour le séquençage de Sanger. Les didésoxynucléotides sont utilisés pour le séquençage car ils ne peuvent pas être étendus davantage une fois qu'ils sont incorporés dans l'ADN naissant.

    La concentration en didésoxynucléotide doit être environ 100 fois inférieure à celle du désoxynucléotide correspondant (par exemple 0,005 mM ddTTP : 0,5 mM dTTP) pour permettre la production de suffisamment de fragments tout en transcrivant la séquence complète. Au total, quatre réactions distinctes sont nécessaires dans ce processus pour tester les quatre ddNTP (Figure 5.5).

    Graphique 5.5. La méthode Sanger (terminaison de chaîne) pour le séquençage de l'ADN. (1) Une amorce est hybridée à une séquence, (2) Des réactifs sont ajoutés à l'amorce et à la matrice, notamment : l'ADN polymérase, les dNTP et une petite quantité des quatre didésoxynucléotides (ddNTP) marqués avec des fluorophores. Au cours de l'allongement de l'amorce, l'insertion aléatoire d'un ddNTP au lieu d'un dNTP met fin à la synthèse de la chaîne car l'ADN polymérase ne peut pas réagir avec l'hydroxyle manquant. Cela produit toutes les longueurs de chaînes possibles. (3) Les produits sont séparés sur un gel capillaire à voie unique, où les bandes résultantes sont lues par un système d'imagerie. (4) Cela produit plusieurs centaines de milliers de nucléotides par jour, des données qui nécessitent un stockage et une analyse informatique ultérieure.

    Après des cycles d'extension d'ADN matrice à partir de l'amorce liée, les fragments d'ADN résultants sont dénaturés par la chaleur et séparés par taille en utilisant une électrophorèse sur gel. Cette technique a été fréquemment réalisée en utilisant un gel de polyacrylamide-urée dénaturant avec chacune des quatre réactions exécutées dans l'une des quatre voies individuelles (voies A, T, G, C). Les bandes d'ADN peuvent ensuite être visualisées par autoradiographie ou lumière UV et la séquence d'ADN peut être directement lue sur le film radiographique ou l'image sur gel (Figure 5.6).

    Graphique 5.6. Gel de séquençage traditionnel Sanger. Séquence visualisée par autoradiographie. Chaque voie contient une seule réaction qui contient les quatre nucléotides réguliers et une petite quantité de l'un des didésoxynucléotides (ddNTP). Au fil du temps, les ddNTP seront incorporés à chaque position contenant ce nucléotide spécifique. Le gel peut ensuite être lu de bas en haut, car les fragments les plus petits (ces fragments terminés le plus près de l'amorce à l'extrémité 5 & 8242) parcourront la distance la plus éloignée dans le gel. La séquence de ce fragment est :

    L'automatisation de la méthode de séquençage de Sanger a été rendue possible lorsque le passage de nucléotides marqués radioactivement à des nucléotides marqués par fluorescence a été effectué. Dans les séquenceurs automatisés, une électrophorèse sur gel capillaire est effectuée plutôt que de séparer les échantillons à l'aide d'une électrophorèse sur gel. Les résultats de l'électrophorèse capillaire sont des chromatogrammes de traces de pics fluorescents (figure 5.7). Les instruments automatisés de séquençage d'ADN (séquenceurs d'ADN) peuvent séquencer jusqu'à 384 échantillons d'ADN en un seul lot. Les analyses par lots peuvent avoir lieu jusqu'à 24 fois par jour, ce qui améliore considérablement la vitesse à laquelle les échantillons peuvent être séquencés et analysés. Les défis courants du séquençage de l'ADN avec la méthode de Sanger incluent la mauvaise qualité des 15 à 40 premières bases de la séquence en raison de la liaison à l'amorce et de la détérioration de la qualité des traces de séquençage après 400 à 500 bases.

    Figure 5.7 Comparaison côte à côte de l'électrophorèse sur gel et de l'électrophorèse capillaire. Diagramme de gauche montre l'autoradiogramme traditionnel des échantillons de séquençage de Sanger. Les Diagramme de droite montre les mêmes réactions en utilisant des ddNTP marqués par fluorescence séparés par électrophorèse capillaire. La sortie du chromatogramme est affichée à l'extrême droite.

    Le séquençage de Sanger est la méthode qui a prévalu des années 1980 jusqu'à

    2005. Au cours de cette période, de grands progrès ont été réalisés dans la technique, tels que le marquage fluorescent, l'électrophorèse capillaire et l'automatisation générale. Ces développements ont permis un séquençage beaucoup plus efficace, conduisant à des coûts inférieurs. La méthode Sanger, sous forme de production de masse, est la technologie qui a produit le premier génome humain en 2001, inaugurant l'ère de la génomique.

    Séquençage Microfluidique Sanger

    Le séquençage microfluidique de Sanger est un application de laboratoire sur puce pour le séquençage de l'ADN, dans lequel les étapes de séquençage de Sanger (cyclage thermique, purification de l'échantillon et électrophorèse capillaire) sont intégrées sur une puce à l'échelle d'une plaquette en utilisant des volumes d'échantillon à l'échelle du nanolitre (Figure 5.8). Cette technologie génère des lectures de séquences longues et précises, tout en supprimant bon nombre des lacunes importantes de la méthode de Sanger conventionnelle (par exemple, consommation élevée de réactifs coûteux, recours à des équipements coûteux, manipulations à forte intensité de personnel, etc.) en intégrant et en automatisant les étapes de séquençage de Sanger. .

    Figure 5.8 Technologies de laboratoire sur puce. Exemple d'un dispositif de laboratoire microfluidique sur puce posé sur une assiette en polystyrène. Des aiguilles en acier inoxydable insérées dans l'appareil servent de points d'accès pour les fluides dans de petits canaux à l'intérieur de l'appareil, qui ont à peu près la taille d'un cheveu humain.

    Séquençage de nouvelle génération

    Le séquençage de nouvelle génération (NGS), également connu sous le nom de séquençage à haut débit, est le terme fourre-tout utilisé pour décrire un certain nombre de différentes technologies de séquençage modernes. Ces technologies permettent le séquençage de l'ADN et de l'ARN beaucoup plus rapidement et à moindre coût que le séquençage Sanger précédemment utilisé et, en tant que telles, ont révolutionné l'étude de la génomique et de la biologie moléculaire. Ces technologies comprennent :

    Séquençage Illumina – Dans NGS, un grand nombre de lectures courtes sont séquencées en un seul passage à l'aide de la technologie de laboratoire sur puce décrite ci-dessus. Pour ce faire, l'échantillon d'entrée doit être clivé en sections courtes. Dans le séquençage Illumina, des lectures de 100 à 150 pb sont utilisées. Des fragments un peu plus longs sont ligaturés à des adaptateurs génériques et recuits sur une lame à l'aide des adaptateurs. La PCR est effectuée pour amplifier chaque lecture, créant un spot avec de nombreuses copies de la même lecture. Ils sont ensuite séparés en ADN simple brin pour être séquencés (Figure 5.9).

    Figure 5.9 Procédure de séquençage Illumina. (A) La lame avec des fragments d'ADN amplifiés par PCR est inondée de nucléotides et d'ADN polymérase. Ces nucléotides sont marqués par fluorescence avec chaque couleur correspondant à une base spécifique. Les réactions ont également un terminateur présent, de sorte qu'une seule base est ajoutée à la fois. (B) Une image est prise de la diapositive. Dans chaque emplacement de réaction, il y aura un signal fluorescent indiquant qu'une base spécifique a été ajoutée. (C) Les données sont enregistrées et la lame est ensuite préparée pour le cycle suivant. En préparation, les terminateurs sont retirés, ce qui permettra d'ajouter la base suivante, et le signal fluorescent est clivé, empêchant le signal fluorescent de contaminer l'image suivante. Le processus est répété, ajoutant un nucléotide à la fois (G, A, T ou C) et l'imagerie entre les deux. Toutes les lectures de séquence auront la même longueur car des bases simples sont ajoutées à chaque cycle.

    Roche 454-Séquençageest similaire au processus Illumina mais peut séquencer des lectures beaucoup plus longues. Comme Illumina, il le fait en séquençant plusieurs lectures à la fois en lisant les signaux optiques au fur et à mesure que des bases sont ajoutées.

    Comme dans Illumina, l'ADN ou l'ARN est fragmenté en lectures plus courtes, dans ce cas jusqu'à 1 kb (1 000 pb). Des adaptateurs génériques sont ajoutés aux extrémités et ceux-ci sont annelés en billes, un fragment d'ADN par bille. Les fragments sont ensuite amplifiés par PCR en utilisant des amorces spécifiques à l'adaptateur. Chaque bille est ensuite placée dans un seul puits d'une lame. Ainsi, chaque puits contiendra une seule bille, couverte de nombreuses copies PCR d'une même séquence. Les puits contiennent également de l'ADN polymérase et des tampons de séquençage (figure 5.10).

    5.10 Procédure pour le séquençage Roche 454. (A) Une fois que le produit PCR est attaché à la perle, la lame est inondée avec l'une des quatre espèces NTP. Lorsque ce nucléotide est le suivant dans la séquence, il est ajouté à la séquence lue. Si cette seule base se répète, d'autres seront ajoutées. Donc, si nous inondons de bases guanines et que le suivant dans la séquence est G, un G sera ajouté, mais si la partie suivante de la séquence est GGGG, alors quatre G seront ajoutés. (B) L'ajout de chaque nucléotide libère un signal lumineux. Ces emplacements de signaux sont détectés et utilisés pour déterminer à quelles billes les nucléotides sont ajoutés. (C) Le mélange NTP est emporté. Le prochain mélange NTP est maintenant ajouté et le processus répété, en parcourant les quatre NTP. Toutes les lectures de séquence à partir du séquençage 454 auront des longueurs différentes, car différents nombres de bases seront ajoutés à chaque cycle.

    Des technologies plus récentes telles que le Technologie de torrent ioniqueet le Système MinION détecter les données de séquence en utilisant des signaux électriques sur une puce semi-conductrice, plutôt que de lire optiquement des nucléotides marqués par un colorant. Ceci est possible car l'ajout d'un dNTP au polymère d'ADN provoque la libération d'un ion H + (Figure 5.11). Comme dans d'autres types de NGS, l'ADN ou l'ARN d'entrée est fragmenté, cette fois

    200 pb. Des adaptateurs sont ajoutés et une molécule est placée sur une bille. Les molécules sont amplifiées sur la bille par PCR en émulsion. Chaque perle est placée dans un seul puits d'une lame.

    Figure 5.11 Technologie de séquençage Ion Torrent. (A) Semblable au séquençage 454, la lame est inondée d'une seule espèce de dNTP, ainsi que de tampons et de polymérase. Le pH est contrôlé dans chacun des puits après l'ajout du dNTP spécifique. Le pH va diminuer lorsque le dNTP est incorporé dans le polymère provoquant la libération d'un proton (H + ). Les changements de pH nous permettent de déterminer si cette base et combien d'entre elles ont été ajoutées à la séquence lue. (B) Les dNTP sont emportés et le processus est répété à travers les différentes espèces de dNTP. (C) Le changement de pH, le cas échéant, est utilisé pour déterminer combien de bases (le cas échéant) ont été ajoutées à chaque cycle.

    Ces technologies ioniques qui ne nécessitent pas de détection optique, ont permis la production de petits dispositifs de séquençage d'ADN portables qui peuvent être branchés sur la clé USB d'un ordinateur portable et utilisés sur le terrain dans des conditions de collecte en temps réel (Figure 5.12).

    Figure 5.12 Le dispositif de séquençage en temps réel portable MinION. Le MinION peut produire jusqu'à 30 Go de données de séquence d'ADN par échantillon

    Les quatre principaux avantages du NGS par rapport au séquençage classique de Sanger sont :

    Taille de l'échantillon

    Le NGS est nettement moins cher, plus rapide, nécessite beaucoup moins d'ADN et est plus précis et fiable que le séquençage Sanger. Regardons cela de plus près. Pour le séquençage Sanger, une grande quantité d'ADN matrice est nécessaire pour chaque lecture. Plusieurs brins d'ADN matrice sont nécessaires pour chaque base à séquencer (c'est-à-dire pour une séquence de 100 pb, vous avez besoin de plusieurs centaines de copies, pour une séquence de 1000 pb, vous avez besoin de plusieurs milliers de copies), car un brin qui se termine sur chaque base est nécessaire pour construire une séquence complète. En NGS, une séquence peut être obtenue à partir d'un seul brin. Dans les deux types de séquençage, plusieurs copies décalées sont prises pour la construction contig et la validation de la séquence.

    NGS est plus rapide que le séquençage Sanger de deux manières. Premièrement, la réaction chimique peut être combinée avec la détection du signal dans certaines versions de NGS, alors que dans le séquençage de Sanger, il s'agit de deux processus distincts. Deuxièmement et de manière plus significative, une seule lecture (maximum

    1kb) peut être pris à la fois dans le séquençage de Sanger, alors que NGS est massivement parallèle, permettant de lire 300 Go d'ADN en une seule fois sur une seule puce.

    Le temps, la main-d'œuvre et les réactifs réduits dans NGS signifient que les coûts sont beaucoup plus faibles. La première séquence du génome humain a coûté environ 2,7 milliards de dollars en 2003. En utilisant les méthodes de séquençage modernes de Sanger, aidées par les données de la séquence connue, un génome humain complet coûtait encore 300 000 $ en 2006. Le séquençage d'un génome humain avec NGS coûte aujourd'hui environ 1 000 $.

    Les répétitions sont intrinsèques au NGS, car chaque lecture est amplifiée avant le séquençage, et parce qu'elle repose sur de nombreuses lectures courtes qui se chevauchent, chaque section d'ADN ou d'ARN est donc séquencée plusieurs fois. De plus, comme c'est beaucoup plus rapide et moins cher, il est possible de faire plus de répétitions qu'avec le séquençage de Sanger. Plus de répétitions signifie une plus grande couverture, ce qui conduit à une séquence plus précise et fiable, même si les lectures individuelles sont moins précises pour NGS.

    Le séquençage de Sanger peut être utilisé pour donner des lectures de séquences beaucoup plus longues. Cependant, la nature parallèle de NGS signifie que des lectures plus longues peuvent être construites à partir de nombreuses lectures courtes contiguës.

    Techniques de synthèse d'ADN

    synthèse d'ADN est la création naturelle ou artificielle de molécules d'acide désoxyribonucléique (ADN). Le terme synthèse d'ADN peut désigner Réplication de l'ADN (qui sera traité plus en détail au chapitre XX), réaction en chaîne par polymérase (PCR)ou synthèse de gènes (créer physiquement des séquences de gènes artificiels).

    Réaction en chaîne par polymérase (PCR)

    La réaction en chaîne par polymérase (PCR) fait référence à une technique largement utilisée dans les sciences fondamentales et biomédicales. La PCR est une technique de laboratoire utilisée pour amplifier des segments spécifiques d'ADN pour un large éventail d'applications de laboratoire et/ou cliniques. S'appuyant sur les travaux de l'amplification réussie de l'ADN par Panet et Khorana in vitro, Kary Mullis et ses collègues ont développé la PCR au début des années 1980, après avoir reçu un prix Nobel seulement une décennie plus tard. Permettant d'amplifier plus d'un milliard de fois des régions cibles spécifiques, il est devenu essentiel dans de nombreuses applications, notamment le clonage de gènes, le diagnostic de maladies infectieuses et le dépistage d'anomalies génétiques délétères chez les nourrissons prénatals.

    Fondamentaux

    Les principaux composants de la PCR sont une matrice, des amorces, des bases nucléotidiques libres et l'enzyme ADN polymérase. Les modèle d'ADNcontient la région spécifique que vous souhaitez amplifier, comme l'ADN extrait d'un cheveu par exemple. Amorces, ou oligonucléotides, sont de courts brins d'ADN simple brin complémentaires à l'extrémité 3 & 8242 de chaque région cible. Une amorce directe et une amorce inverse sont nécessaires, une pour chaque brin complémentaire d'ADN. ADN polymérase est l'enzyme qui effectue la réplication de l'ADN. Les analogues thermostables de l'ADN polymérase I, tels que la Taq polymérase, qui a été trouvée à l'origine dans une bactérie qui pousse dans les sources chaudes, est un choix courant en raison de sa résistance aux cycles de chauffage et de refroidissement nécessaires à la PCR.

    La PCR tire parti de l'appariement des bases complémentaires, de la nature double brin et de la température de fusion des molécules d'ADN. Ce processus implique le cycle à travers 3 cycles séquentiels de réactions dépendantes de la température : la fusion de l'ADN (dénaturation), l'annelage et la réplication de l'ADN enzymatique (élongation). Dénaturationcommence par chauffer la réaction à environ 95 o C, perturbant les liaisons hydrogène qui maintiennent ensemble les deux brins d'ADN matrice. Ensuite, la réaction est réduite à environ 50 à 65 o C, selon les variables physico-chimiques des amorces, permettant recuitde paires de bases complémentaires. Les amorces, qui sont ajoutées à la solution en excès, se lient au début de l'extrémité 3 & 8242 de chaque brin matrice et empêchent la ré-hybridation du brin matrice avec lui-même. Enfin, la réplication de l'ADN enzymatique, ou élongation, commence par régler la température de réaction à la quantité qui optimise l'activité de l'ADN polymérase, qui est d'environ 75 à 80 o C. À ce stade, l'ADN polymérase, qui a besoin d'ADN double brin pour commencer la réplication, synthétise un nouveau brin d'ADN en assembler des nucléotides libres en solution dans le sens 3′ à 5′ pour produire 2 ensembles complets de brins complémentaires. L'ADN nouvellement synthétisé est maintenant identique au brin matrice et sera utilisé en tant que tel dans les cycles de PCR progressifs (Vidéo 5.1).

    Vidéo 5.1 : Réaction en chaîne par polymérase (PCR). (1) Étapes du processus PCR traditionnel. (2) Détection de fluorophore non spécifique en qPCR, et (3) Détection de sonde d'hybridation spécifique en qPCR.

    Étant donné que les brins d'ADN précédemment synthétisés servent de matrices, l'amplification d'ADN par PCR augmente à un rythme exponentiel, où les copies d'ADN doublent à la fin de chaque étape de réplication. La réplication exponentielle de l'ADN cible finit par plafonner autour de 30 à 40 cycles principalement en raison de la limitation des réactifs, mais peut également être due aux inhibiteurs de la réaction de la polymérase trouvés dans l'échantillon, à l'auto-hybridation du produit accumulé et à l'accumulation de molécules de pyrophosphate.

    À son avènement, la technologie PCR était limitée à l'analyse qualitative et/ou semi-quantitative en raison des limitations de la capacité de quantifier les acides nucléiques. À ce moment-là, pour vérifier si le gène cible a été amplifié avec succès, le produit d'ADN a été séparé par taille via une électrophorèse sur gel d'agarose. Le bromure d'éthidium, une molécule qui émet une fluorescence lorsqu'elle est liée à l'ADNdb, pourrait donner une estimation approximative de la quantité d'ADN en comparant grossièrement la luminosité des bandes séparées, mais n'était pas assez sensible pour une analyse quantitative rigoureuse.

    Les améliorations apportées au développement et à l'instrumentation des fluorophores ont conduit à des thermocycleurs qui ne nécessitaient plus de mesurer uniquement l'ADN du produit final. Ce processus, connu sous le nom Pcr en temps réel,ou PCR quantitative (qPCR), a permis la détection de l'ADNdb pendant l'amplification. Les thermocycleurs qPCR sont équipés de la capacité d'exciter les fluorophores à des longueurs d'onde spécifiques, de détecter leur émission avec un photodétecteur et d'enregistrer les valeurs. La collecte sensible de valeurs numériques pendant l'amplification a fortement amélioré la puissance analytique quantitative.

    Il existe deux principaux types de fluorophores utilisés en qPCR : ceux qui se lient spécifiquement à une séquence cible donnée et ceux qui ne le font pas. La sensibilité des fluorophores a été un aspect important du développement de la qPCR. L'un des marqueurs non spécifiques les plus efficaces et les plus largement utilisés, le SYBR Green, après s'être lié au petit sillon de l'ADNdb, présente une fluorescence multipliée par 1000 par rapport à une solution libre (Vidéo 5.1). Cependant, si encore plus de spécificité est souhaitée, un oligonucléotide spécifique à la séquence, ou une sonde d'hybridation, peut être ajouté, qui se lie au gène cible à un certain point avant l'amorce (après l'extrémité 3 & 8242). Ces sondes d'hybridation contiennent une molécule rapporteur à l'extrémité 5 & 8242 et une molécule quencher à l'extrémité 3 & 8242. La molécule d'extincteur inhibe efficacement la fluorescence du rapporteur tant que la sonde est intacte. Cependant, au contact de l'ADN polymérase I, la sonde d'hybridation est clivée, permettant la fluorescence du colorant (Vidéo 5.1).

    PCR avec transcription inversée

    Depuis son avènement, la technologie PCR a été étendue de manière créative et PCR par transcription inverse (RT-PCR) est l'une des avancées les plus importantes. La PCR en temps réel est souvent confondue avec la PCR par transcription inverse, mais ce sont des techniques distinctes. Dans la RT-PCR, l'ADN amplifié est dérivé de l'ARNm en utilisant des enzymes de transcriptase inverse, pour produire une copie d'ADNc du gène. En utilisant des séquences d'amorces pour les gènes d'intérêt, les méthodes PCR traditionnelles peuvent être utilisées avec l'ADNc pour étudier qualitativement l'expression des gènes. Actuellement, la PCR par transcription inverse est couramment utilisée avec la PCR en temps réel, ce qui permet de mesurer quantitativement le changement relatif de l'expression des gènes dans différents échantillons.

    Sujets de préoccupation

    Un inconvénient de la technologie PCR est qu'elle est extrêmement sensible. Des traces de contamination par l'ARN ou l'ADN dans l'échantillon peuvent produire des résultats extrêmement trompeurs. Un autre inconvénient est que les amorces conçues pour la PCR nécessitent des données de séquence et ne peuvent donc être utilisées que pour identifier la présence ou l'absence d'un agent pathogène ou d'un gène connu. Une autre limitation est que parfois les amorces utilisées pour la PCR peuvent s'hybrider de manière non spécifique à des séquences similaires, mais non identiques, au gène cible.

    Un autre problème potentiel de l'utilisation de la PCR est la possibilité de formation de dimères d'amorces (PD). La PD est un sous-produit potentiel et se compose de molécules d'amorces qui se sont hybridées les unes aux autres en raison des chaînes de bases complémentaires dans les amorces. L'ADN polymérase amplifie la PD, entraînant une compétition pour les réactifs PCR qui pourraient être utilisés pour amplifier les séquences cibles.

    Signification clinique

    L'amplification PCR est un outil indispensable avec diverses applications en médecine. Souvent, il est utilisé pour tester la présence d'allèles spécifiques, comme dans le cas des futurs parents qui recherchent des porteurs génétiques, mais il peut également être utilisé pour diagnostiquer directement la présence d'une maladie et de mutations dans l'embryon en développement. Par exemple, la première fois que la PCR a été utilisée de cette manière, c'était pour le diagnostic de la drépanocytose grâce à la détection d'une mutation génétique unique.

    De plus, la PCR a considérablement révolutionné le potentiel de diagnostic des maladies infectieuses, car elle peut être utilisée pour déterminer rapidement l'identité de microbes qui ne pouvaient traditionnellement pas être cultivés ou qui nécessitaient des semaines de croissance. Les agents pathogènes couramment détectés par PCR comprennent Mycobacterium tuberculosis, le virus de l'immunodéficience humaine, le virus de l'herpès simplex, la syphilis et d'innombrables autres agents pathogènes. De plus, la qPCR n'est pas seulement utilisée pour tester la présence qualitative de microbes mais aussi pour quantifier les charges bactériennes, fongiques et virales.

    La sensibilité des outils de diagnostic pour les mutations des oncogènes et des gènes de suppression tumorale a été améliorée d'au moins 10 000 fois grâce à la PCR, permettant un diagnostic plus précoce de cancers comme la leucémie. La PCR a également permis des thérapies plus nuancées et individualisées pour les patients atteints de cancer. De plus, la PCR peut être utilisée pour le typage tissulaire qui est essentiel à l'implantation d'organes et a même été proposée en remplacement des tests basés sur les anticorps pour le groupe sanguin. La PCR a également des applications cliniques dans le domaine des tests prénatals pour diverses maladies génétiques et/ou pathologies cliniques. Les échantillons sont obtenus soit par amniocentèse, soit par prélèvement de villosités choriales.

    En médecine légale, de courts morceaux d'ADN répétés et hautement polymorphes, appelés répétitions courtes en tandem (STR), sont amplifiés et utilisés pour comparer des variations spécifiques au sein des gènes afin de différencier les individus.[9] Des amorces spécifiques des loci de ces STR sont utilisées et amplifiées par PCR. Divers loci contiennent des STR dans le génome humain, et la puissance statistique de cette technique est renforcée par la vérification de plusieurs sites.

    Synthèse des gènes

    Synthèse de gènes artificiels, parfois appelé impression d'ADN est une méthode de biologie synthétique utilisée pour créer des gènes artificiels en laboratoire. Basé sur la synthèse d'ADN en phase solide, il diffère du clonage moléculaire et de la réaction en chaîne par polymérase (PCR) en ce qu'il n'a pas besoin de commencer par des séquences d'ADN préexistantes. Par conséquent, il est possible de fabriquer une molécule d'ADN double brin complètement synthétique sans aucune limite apparente sur la séquence nucléotidique ou la taille.

    La méthode a été utilisée pour générer des chromosomes bactériens ou de levure fonctionnels contenant environ un million de paires de bases. La création de nouvelles paires de bases nucléiques en plus des deux paires de bases naturelles pourrait considérablement étendre le code génétique.

    La synthèse du premier gène complet, un ARNt de levure, a été démontrée par Har Gobind Khorana et ses collaborateurs en 1972. La synthèse des premiers gènes codant pour les peptides et les protéines a été réalisée dans les laboratoires d'Herbert Boyer et d'Alexander Markham, respectivement.

    Des services commerciaux de synthèse de gènes sont maintenant disponibles. Les approches sont le plus souvent basées sur une combinaison de techniques de chimie organique et de biologie moléculaire et des gènes entiers peuvent être synthétisés "de novo" sans avoir besoin d'ADN modèle. La synthèse de gènes est un outil important dans de nombreux domaines de la technologie de l'ADN recombinant, notamment l'expression de gènes hétérologues, le développement de vaccins, la thérapie génique et le génie moléculaire. La synthèse de séquences d'acides nucléiques peut être plus économique que les procédures classiques de clonage et de mutagenèse. C'est également un outil d'ingénierie puissant et flexible pour créer et concevoir de nouvelles séquences d'ADN et fonctions protéiques.

    Optimisation des gènes

    Alors que la capacité de produire des portions d'ADN de plus en plus longues de manière efficace et à des prix inférieurs est un moteur technologique de ce domaine, l'attention se porte de plus en plus sur l'amélioration de la conception de gènes à des fins spécifiques. Au début de l'ère du séquençage du génome, la synthèse des gènes était utilisée comme source (coûteuse) d'ADNc qui étaient prédits par des informations génomiques ou partielles d'ADNc, mais difficiles à cloner. Au fur et à mesure que des sources de meilleure qualité d'ADNc cloné à séquence vérifiée sont devenues disponibles, cette pratique est devenue moins urgente.

    Produire de grandes quantités de protéines à partir de séquences géniques (ou du moins des régions codant pour les protéines des gènes, le cadre de lecture ouvert) trouvées dans la nature peut parfois s'avérer difficile et constitue un problème d'impact suffisant pour que des conférences scientifiques aient été consacrées au sujet. Bon nombre des protéines les plus intéressantes recherchées par les biologistes moléculaires sont normalement régulées pour être exprimées en très faibles quantités dans les cellules de type sauvage. La refonte de ces gènes offre un moyen d'améliorer l'expression des gènes dans de nombreux cas. La réécriture du cadre de lecture ouvert est possible en raison de la dégénérescence du code génétique. Ainsi, il est possible de modifier jusqu'à environ un tiers des nucléotides dans un cadre de lecture ouvert et de produire toujours la même protéine. Le nombre disponible de conceptions alternatives possibles pour une protéine donnée est astronomique. Pour une séquence protéique typique de 300 acides aminés, il existe plus de 10 150 combinaisons de codons qui coderont pour une protéine identique. L'optimisation des codons ou le remplacement de codons rarement utilisés par des codons plus courants ont parfois des effets dramatiques. D'autres optimisations telles que l'élimination des structures secondaires d'ARN peuvent également être incluses. Au moins dans le cas de E. coli, l'expression des protéines est maximisée en utilisant principalement des codons correspondant à l'ARNt qui retiennent la charge d'acides aminés pendant la famine. Des programmes informatiques écrits pour effectuer ces opérations et d'autres optimisations simultanées sont utilisés pour gérer l'énorme complexité de la tâche. Un gène bien optimisé peut améliorer l'expression des protéines de 2 à 10 fois, et dans certains cas, des améliorations de plus de 100 fois ont été rapportées. En raison du grand nombre de modifications nucléotidiques apportées à la séquence d'ADN d'origine, le seul moyen pratique de créer les gènes nouvellement conçus est d'utiliser la synthèse de gènes.

    Synthèse d'oligonucléotides

    Les oligonucléotides sont synthétisés chimiquement à l'aide de blocs de construction appelés phosphoramidites nucléosidiques. Ceux-ci peuvent être des nucléosides normaux ou modifiés qui ont des groupes protecteurs pour empêcher leurs amines, leurs groupes hydroxyle et leurs groupes phosphate d'interagir de manière incorrecte. Un phosphoramidite est ajouté à la fois, le groupe hydroxyle 5 & 8242 est déprotégé et une nouvelle base est ajoutée et ainsi de suite. La chaîne se développe dans le sens 3 & 842 à 5 842, ce qui est en arrière par rapport à la biosynthèse de l'ADN in vivo. A la fin, tous les groupes protecteurs sont éliminés.

    Graphique 5.13 Cycle de synthèse d'oligodésoxynucléotides phosphoramidite en quatre étapes. La méthode au phosphoramidite, mise au point par Marvin Caruthers au début des années 1980, et améliorée par l'application de la technologie en phase solide et de l'automatisation, est désormais fermement établie comme la méthode de choix. La synthèse des oligonucléotides de phosphoramidite se déroule dans le sens 3 à 5 (opposé au sens 5 à 3 de la biosynthèse de l'ADN dans la réplication de l'ADN). Un nucléotide est ajouté par cycle de synthèse. Le cycle de synthèse d'ADN phosphoramidite se compose d'une série d'étapes décrites dans la figure

    Néanmoins, étant un processus chimique, plusieurs interactions incorrectes se produisent conduisant à certains produits défectueux. Plus la séquence d'oligonucléotides synthétisée est longue, plus il y a de défauts, donc ce processus n'est pratique que pour produire de courtes séquences de nucléotides. La limite pratique actuelle est d'environ 200 pb (paires de bases) pour un oligonucléotide de qualité suffisante pour être utilisé directement pour une application biologique. La HPLC peut être utilisée pour isoler les produits avec la séquence appropriée. Parallèlement, un grand nombre d'oligos peuvent être synthétisés en parallèle sur des puces génétiques. Pour des performances optimales dans les procédures de synthèse de gènes ultérieures, ils doivent être préparés individuellement et à plus grande échelle.

    Synthèse de l'ADN et biologie synthétique

    La baisse significative du coût de la synthèse de gènes ces dernières années en raison de la concurrence croissante des entreprises fournissant ce service a conduit à la capacité de produire des plasmides bactériens entiers qui n'ont jamais existé dans la nature. Le domaine de la biologie synthétique utilise la technologie pour produire des circuits biologiques synthétiques, qui sont des segments d'ADN manipulés pour modifier l'expression des gènes dans les cellules et amener la cellule à produire un produit souhaité.

    La capacité de produire de l'ADN par synthèse permettra le développement de produits pertinents pour l'environnement, la médecine et le commerce. Par exemple, en 2015, Novartis, en collaboration avec les Vaccins Génomiques Synthétiques inc. et la US Biomedical Advanced Research and Development Authority, ont annoncé qu'ils avaient effectivement créé un vaccin synthétique contre la grippe à ADN. Les nouveaux vaccins synthétiques à ADN promettent de fournir une alternative aux vaccins conventionnels actuels produits à partir d'œufs qui peuvent être entravés par une faible efficacité.

    Les vaccins à ADN sont capables d'éviter de nombreux problèmes associés à la production de vaccins à base d'œufs en générant des protéines virales dans les cellules hôtes. Pour créer un vaccin à ADN, un gène codant pour l'antigène est cloné dans un plasmide d'expression non réplicatif, qui est délivré à l'hôte par les voies de vaccination traditionnelles. Les cellules hôtes qui reprennent le plasmide expriment l'antigène vaccinal qui peut être présenté aux cellules immunitaires via les voies du complexe majeur d'histocompatibilité (CMH). L'activation des lymphocytes T auxiliaires CD4+ après la présentation par le CMH de classe II de la protéine vaccinale à ADN sécrétée est critique pour la production d'anticorps spécifiques de l'antigène (Figure 5.14).

    Figure 5.14 Création d'un vaccin à ADN. Un gène antigénique est synthétisé et cloné dans un vecteur plasmidique. (Les étapes concernant le processus de clonage sont décrites plus en détail dans la section 5.3). Le vaccin à ADN est délivré à l'hôte, où il sera exprimé pour produire et présenter l'antigène au système immunitaire de l'hôte.

    Après deux décennies de recherche, la technologie des vaccins à ADN gagne en maturité : plusieurs vaccins à ADN vétérinaires sont actuellement homologués pour le virus du Nil occidental et le mélanome, et de manière significative, le premier vaccin à ADN commercial contre le H5N1 chez les poulets a récemment été approuvé sous condition par l'USDA. En outre, les grands essais en cours sur les animaux de vaccins à ADN contre d'autres maladies telles que le VIH, l'hépatite et le virus Zika offrent des informations précieuses qui peuvent être appliquées à la conception de vaccins à ADN contre la grippe. Des approches prometteuses ont émergé des nombreuses études évaluant différentes formulations et systèmes d'administration de vaccins à ADN, mais une stratégie qui suscite systématiquement une protection contre la grippe dans de grands modèles animaux n'a pas encore émergé. L'administration réussie de plasmides et l'utilisation d'adjuvants appropriés restent des défis clés qui doivent être résolus avant que les vaccins antigrippaux à ADN ne deviennent efficaces pour un usage humain.

    5.2 Bioinformatique

    Une révolution sans précédent a été observée dans la science avec les récentes avancées technologiques, qui ont fourni une grande quantité de données « omiques ». La génération de croissants et la disponibilité de ces informations disponibles dans les bases de données publiques étaient, et sont toujours, un défi pour les professionnels de différents domaines. Cependant, quel est le défi? En biologie, le principal défi est de donner un sens à l'énorme quantité de données structurelles et de séquences qui ont été générées à plusieurs niveaux des systèmes biologiques. Pourtant, en bioinformatique, le développement d'outils (statistiques et informatiques) est nécessaire pour aider à comprendre les mécanismes sous-jacents aux questions biologiques de l'étude. D'ailleurs, si l'on considère la complexité de la science, c'est une vision très réductrice. L'ère d'une « nouvelle biologie » émerge accompagnée par la naissance/le développement d'autres sciences, telles que la bioinformatique et la biologie computationnelle, qui ont une interface intégrée de biologie moléculaire. Bien que considérées récemment, la bioinformatique et la génomique ont évolué de manière interdépendante et ont favorisé un impact historique sur les connaissances disponibles.

    La bioinformatique, une science hybride qui relie les données biologiques aux techniques de stockage, de distribution et d'analyse de l'information pour soutenir plusieurs domaines de la recherche scientifique, y compris la biomédecine. Il concerne principalement la biologie moléculaire et la génétique, l'informatique, les mathématiques et les statistiques. Les problèmes biologiques à grande échelle et exigeants en données sont traités d'un point de vue informatique. La bioinformatique est alimentée par des expériences génératrices de données à haut débit, y compris des déterminations de séquences génomiques et des mesures de modèles d'expression génique. Les projets de base de données organisent et annotent les données, puis les distribuent via le World Wide Web. L'exploitation de ces données conduit à des découvertes scientifiques et à l'identification de nouvelles applications cliniques.

    Une solution bioinformatique implique généralement les étapes suivantes :

    • Recueillir des statistiques à partir de données biologiques
    • Construire un modèle de calcul
    • Résoudre un problème de modélisation informatique
    • Tester et évaluer un algorithme de calcul

    Il aborde également les aspects suivants :

    • Types d'informations biologiques et bases de données
    • Analyse de séquences et modélisation moléculaire
    • Analyse génomique
    • Biologie des systèmes

    Dans le domaine de la médecine en particulier, un certain nombre d'applications importantes pour la bioinformatique ont été découvertes. Par exemple, il est utilisé pour identifier les corrélations entre les séquences de gènes et les maladies, pour prédire les structures protéiques à partir de séquences d'acides aminés, pour aider à la conception de nouveaux médicaments et pour adapter les traitements aux patients individuels en fonction de leurs séquences d'ADN (pharmacogénomique). En bioinformatique, nous pouvons désormais effectuer des analyses globales de toutes les données disponibles dans le but de découvrir des principes communs qui s'appliquent à de nombreux systèmes et de mettre en évidence de nouvelles fonctionnalités.

    Quelques applications de la bioinformatique en biotechnologie sont données ci-dessous :

    Génomique

    Pour gérer une quantité croissante d'informations génomiques, des outils bioinformatiques sont nécessaires pour maintenir et analyser les séquences d'ADN de différents organismes.Détermination d'homologie de séquences, recherche de gènes, identification de régions codantes, analyses structurelles et fonctionnelles de séquences génomiques, etc., tout cela est possible grâce à l'utilisation de différents outils bioinformatiques et progiciels.

    Ci-dessous se trouve une liste de quelques outils bioinformatiques utilisés en génomique (tableau 5.1).

    Tableau 5.1 Outils/bases de données bioinformatiques utilisés en génomique

    Outils bioinformatiques But
    Carrie Base de données des réseaux de régulation transcriptionnelle
    CisML Outil de détection de motifs
    ICSF Identification des caractéristiques structurelles conservées dans les sites de liaison TF
    opossum Outil de recherche de motifs
    Promoteur Outil d'extraction de promoteur d'organismes eucaryotes
    REPINDRE Déterminer les répétitions groupées dans un fragment d'ADN
    Cluster-Buster Outil pour prédire le cluster de motifs dans les séquences d'ADN
    Cister Trouve les régions régulatrices dans les fragments d'ADN
    Trèfle Trouver des motifs surreprésentés dans les séquences d'ADN
    GLAMOUR Outil de prédiction de motifs fonctionnels
    MotifViz Identification des motifs surreprésentés
    NECorr Outil d'analyse des données d'expression génique
    VAGABOND Prédit les motifs surreprésentés dans les fragments d'ADN
    SeqVISTA Outil de visualisation de séquences
    ADNDynamo Outil pour trouver des facteurs de transcription avec des sites de liaison surreprésentés dans les régions en amont des gènes humains co-exprimés

    Génomique comparée

    La bioinformatique joue un rôle important dans la génomique comparative en déterminant la relation structurelle et fonctionnelle génomique entre différentes espèces biologiques.

    Ci-dessous se trouve une liste de quelques outils bioinformatiques utilisés en génomique comparative (tableau 5.2).

    Tableau 5.2 Outils/bases de données bioinformatiques utilisés en génomique comparative

    Outils bioinformatiques But
    DÉTRUIRE Outil d'alignement de séquences d'ADN ou de protéines
    HMMER Outil de recherche de séquences de protéines homologues
    Clustal Oméga Outil d'alignement de séquences multiples
    Séquerome Outil de profilage de séquence
    ProtParam Prédit les propriétés physico-chimiques des protéines
    novoSNP Prédit une mutation ponctuelle dans les séquences d'ADN
    Recherche ORF Trouver un cadre de lecture ouvert dans des gènes putatifs
    Empreinte virtuelle Analyse du génome procaryote entier
    WebGeSTer Prédit les sites de terminaison des gènes pendant la transcription
    Genscan Trouver des sites exon-intron dans des séquences d'ADN
    Outils de baies rouges Outil d'annotation des génomes ainsi que la prédiction de la structure et de la fonction des molécules biologiques
    MÉGA Étudier la relation évolutive
    MOLPHY Outil d'analyse phylogénétique basé sur le maximum de vraisemblance
    PHYLIP Outil pour les études phylogénétiques
    JStree Outil de visualisation et d'édition d'arbres phylogénétiques
    Jalview C'est un outil d'édition d'alignement
    La banque de données ADN du Japon Ressources pour les séquences nucléotidiques
    Rfam La base de données contient une collection de familles d'ARN
    Uniprot Base de données de séquences de protéines
    Banque de données sur les protéines La base de données fournit des données sur les structures des acides nucléiques, des protéines, etc.
    PROT SUISSE Base de données contenant les séquences protéiques annotées manuellement
    InterPro Fournir des informations sur les familles de protéines, ses domaines conservés et ses sites actifs
    Base de données d'identifications protéomiques Contient des données sur la caractérisation fonctionnelle et la modification post-traduction des protéines et des peptides
    Ensemble Base de données contenant des génomes annotés d'eucaryotes, y compris des humains, des souris et d'autres vertébrés
    Medherbe Base de données pour les herbes médicinales

    Protéomique :

    Des techniques moléculaires avancées ont conduit à l'accumulation d'énormes données protéomiques sur les modèles d'activité des protéines, les interactions, le profilage, la composition, les informations structurelles, l'analyse d'images, les empreintes de masse peptidique, les empreintes de fragmentation de peptides, etc. Ces énormes données pourraient être gérées en utilisant différents outils de bioinformatique. .

    Ci-dessous se trouve une liste de quelques outils bioinformatiques utilisés en protéomique (tableau 5.3).

    Tableau 5.3 Outils/bases de données bioinformatiques utilisés en protéomique.

    Outils bioinformatiques But
    K2 / RAPIDE Outil d'alignement de la structure des protéines
    SMM Outil de détermination des peptides se liant au complexe majeur d'histocompatibilité
    ZDOCK Outil d'amarrage protéine-protéine
    Benchmark d'amarrage Outil pour évaluer les performances des algorithmes d'amarrage
    Serveur ZDOCK Un serveur automatisé pour exécuter ZDOCK
    MÉLANIE Analyse protéomique pour l'analyse d'images 2D-Gel

    Découverte de médicament

    La bioinformatique clinique est un nouveau domaine émergent de la bioinformatique qui utilise divers outils bioinformatiques tels que la conception de médicaments assistée par ordinateur pour concevoir de nouveaux médicaments, vaccins, modélisation de médicaments ADN et in silico des tests de dépistage de drogues pour produire des médicaments nouveaux et efficaces dans un délai plus court avec des risques plus faibles.

    Recherche et analyse sur le cancer

    Les outils bioinformatiques tels que le NCI, le NCIP (qui fait partie du NCI) et le CBIIT ont joué un rôle important dans la génomique, la protéomique, l'imagerie et la métabolomique pour accroître notre connaissance de la base moléculaire du cancer.

    Études phylogénétiques

    À l'aide de nombreux outils bioinformatiques, l'analyse phylogénétique des données moléculaires peut facilement être réalisée en peu de temps en construisant des arbres phylogénétiques pour étudier sa relation évolutive basée sur l'alignement des séquences.

    Sciences médico-légales

    Un certain nombre de bases de données sont constituées de profils ADN de délinquants connus. Les progrès de la technologie des puces à ADN, des réseaux bayésiens et des algorithmes de programmation fournissent une méthode efficace d'organisation et d'interprétation des preuves.

    Bio-défense

    Bien que la bioinformatique ait un impact limité sur la médecine légale, car il existe un besoin d'algorithmes et d'applications de calcul plus avancés afin que les bases de données établies puissent présenter une interopérabilité les unes avec les autres.

    Nutrigénomique

    Les progrès de la génomique structurelle/fonctionnelle et des technologies moléculaires telles que le séquençage du génome et les puces à ADN génèrent des connaissances précieuses qui expliquent la nutrition par rapport à la génétique d'un individu qui influence directement son métabolisme. En raison de l'afflux d'outils bioinformatiques, la recherche liée à la nutrition est considérablement augmentée.

    L'expression du gène

    La régulation de l'expression des gènes est au cœur de la génomique fonctionnelle, ce qui permet aux chercheurs d'appliquer les données génomiques aux technologies moléculaires qui peuvent quantifier la quantité de gènes transcrivant activement dans n'importe quelle cellule à tout moment (par exemple, les matrices d'expression génique).

    Vous trouverez ci-dessous une liste de quelques outils bioinformatiques utilisés dans l'étude de l'expression génique. Tableau 5.4.

    Tableau 5.4 Outils/bases de données bioinformatiques utilisés dans l'expression des gènes

    Outils bioinformatiques But
    GeneChords Outil de récupération de gènes conservés
    Bioconducteur Fournit des outils pour l'analyse de données génomiques à haut débit
    GXD Base de données d'expression génique pour la souris de laboratoire
    Recherche de répétitions inversées Trouver des répétitions inversées dans l'ADN génomique
    BU ORchidée La base de données stocke les données de clivage des radicaux hydroxyles des séquences d'ADN
    ODB Prédit les groupes de gènes fonctionnels
    Support de pli d'ARN Prédit la structure de l'ARN sur la base de mutations dans les allèles
    CellNetVis Outil de visualisation de complexes et réseaux biologiques
    Recherche de répétition en tandem Trouve des répétitions en tandem dans l'ADN génomique
    VisANT Des outils pour visualiser et analyser de nombreuses interactions biologiques
    PROMO Identification des sites de liaison des facteurs de transcription
    ConTra V.3 Détection du site de liaison du facteur de transcription

    Table remixée de Kahn, N.T. (2018)

    Qualité de la nourriture

    De nouvelles améliorations dans les algorithmes de calcul et les bases de données de simulation structurelle disponibles de structures reconnues ont introduit la modélisation moléculaire dans la chimie alimentaire conventionnelle. De telles simulations permettront d'améliorer la qualité des aliments en développant de nouveaux additifs alimentaires en comprenant les bases de la ténacité gustative, de l'antagonisme et de la complémentation.

    Prédire la structure et la fonction des protéines

    La prédiction de la topologie des protéines est maintenant tellement facile grâce à la bioinformatique qui aide à la prédiction de la structure 3D d'une protéine pour avoir un aperçu de sa fonction également.

    Vous trouverez ci-dessous une liste de quelques outils bioinformatiques utilisés dans la prédiction de la structure et de la fonction des protéines. Tableau 5.

    Tableau 5.5 Outils/bases de données bioinformatiques utilisés dans la prédiction de la structure et de la fonction des protéines

    Outils bioinformatiques But
    CATH Outil pour l'organisation catégorisée des protéines
    Phyre2 Outil de prédiction de la structure des protéines
    HMMSTR Pour la prédiction des corrélations séquence-structure dans les protéines
    MODELEUR Prédit la structure 3D de la protéine
    JPRED / APSSP2 Prédit les structures secondaires des protéines
    RaptorX Prédit la structure des protéines
    QUARK Prédit la structure des protéines

    Table remixée de Kahn, N.T. (2018)

    Médecine personnalisée

    Les médecins seront en mesure d'analyser le profil génétique d'un patient et de prescrire le meilleur traitement médicamenteux et le meilleur dosage disponibles dès le début en utilisant un outil bioinformatique.

    Applications du génome microbien

    Les microbes ont été étudiés à un niveau très basique à l'aide d'outils bioinformatiques nécessaires pour analyser leur ensemble unique de gènes qui leur permet de survivre dans des conditions défavorables.

    5.3 Clonage et expression recombinante

    Pour réaliser les applications décrites ci-dessus, les biochimistes doivent être capables d'extraire, de manipuler et d'analyser des acides nucléiques. Pour comprendre les techniques de base utilisées pour travailler avec les acides nucléiques, rappelez-vous que les acides nucléiques sont des macromolécules constituées de nucléotides (un sucre, un phosphate et une base azotée). Les groupes phosphate sur ces molécules ont chacun une charge négative nette. Un ensemble complet de molécules d'ADN dans le noyau des organismes eucaryotes est appelé le génome. L'ADN a deux brins complémentaires liés par des liaisons hydrogène entre les bases appariées.

    Contrairement à l'ADN des cellules eucaryotes, les molécules d'ARN quittent le noyau. L'ARN messager (ARNm) est analysé le plus fréquemment car il représente les gènes codant pour les protéines qui sont exprimés dans la cellule.

    Les techniques d'isolement de l'ADN ont été décrites dans la section 5.1 et constituent la première étape utilisée pour étudier ou manipuler les acides nucléiques. L'ARN peut également être extrait et est étudié pour comprendre les modèles d'expression génique dans les cellules. L'ARN est naturellement très instable car les enzymes qui décomposent l'ARN sont généralement présentes dans la nature. Certains sont même sécrétés par notre propre peau et sont très difficiles à inactiver. Lors de l'extraction de l'ARN, des inhibiteurs de RNase et le traitement spécial de la verrerie sont utilisés pour réduire le risque de destruction de l'échantillon lors de l'isolement

    Électrophorèse sur gel

    Parce que les acides nucléiques sont des ions chargés négativement à pH neutre ou alcalin dans un environnement aqueux, ils peuvent être déplacés par un champ électrique. L'électrophorèse sur gel est une technique utilisée pour séparer les molécules chargées sur la base de la taille et de la charge. Les acides nucléiques peuvent être séparés sous forme de chromosomes entiers ou de fragments. Les acides nucléiques sont chargés dans une fente à une extrémité d'une matrice de gel, un courant électrique est appliqué et des molécules chargées négativement sont tirées vers l'extrémité opposée du gel (l'extrémité avec l'électrode positive). Les molécules plus petites se déplacent à travers les pores du gel plus rapidement que les molécules plus grosses. Cette différence de vitesse de migration sépare les fragments en fonction de leur taille. Les acides nucléiques dans une matrice de gel sont invisibles jusqu'à ce qu'ils soient colorés avec un composé qui permet de les voir, tel qu'un colorant. Des fragments distincts d'acides nucléiques apparaissent sous forme de bandes à des distances spécifiques du sommet du gel (l'extrémité de l'électrode négative) en fonction de leur taille (figure 5.15). Un mélange de nombreux fragments de tailles variables apparaît sous la forme d'un long frottis, alors que l'ADN génomique non coupé est généralement trop gros pour traverser le gel et forme une seule grande bande au sommet du gel.

    Figure 5.15 Électrophorèse sur gel d'ADN. Sont montrés des fragments d'ADN de six échantillons exécutés sur un gel, colorés avec un colorant fluorescent et visualisés sous lumière UV. (crédit : modification du travail par James Jacob, Tompkins Cortland Community College)

    Réaction en chaîne par polymérase (PCR)

    Les détails de la PCR sont discutés dans la section 5.1. Cette technique est utilisée dans le clonage d'ADN pour augmenter rapidement le nombre de copies de régions spécifiques de l'ADN.

    Clonage

    En général, le clonage signifie la création d'une réplique parfaite. Typiquement, le mot est utilisé pour décrire la création d'une copie génétiquement identique. En biologie, la recréation d'un organisme entier est appelée « clonage reproductif ». Bien avant que des tentatives ne soient faites pour cloner un organisme entier, les chercheurs ont appris à copier de courtes portions d'ADN, un processus appelé clonage moléculaire.

    Le clonage moléculaire permet la création de copies multiples de gènes, expression de gènes et étude de gènes spécifiques. Pour obtenir le fragment d'ADN dans une cellule bactérienne sous une forme qui sera copiée ou exprimée, le fragment est d'abord inséré dans un vecteur de clonage.

    UNE vecteur de clonage est un petit morceau d'ADN qui peut être maintenu de manière stable dans un organisme et dans lequel un fragment d'ADN étranger peut être inséré à des fins de clonage. Le vecteur de clonage peut être de l'ADN prélevé sur un virus, la cellule d'un organisme supérieur, ou il peut s'agir du plasmide d'une bactérie. Le vecteur contient donc des caractéristiques qui permettent l'insertion ou l'élimination pratique d'un fragment d'ADN vers ou depuis le vecteur, par exemple en traitant le vecteur et l'ADN étranger avec une enzyme de restriction qui coupe l'ADN. Les fragments d'ADN ainsi générés contiennent soit des extrémités franches soit des surplombs connus sous le nom d'extrémités collantes, et l'ADN vecteur et l'ADN étranger avec des extrémités compatibles peuvent ensuite être joints ensemble par ligature moléculaire. Une fois qu'un fragment d'ADN a été cloné dans un vecteur de clonage, il peut être encore sous-cloné dans un autre vecteur conçu pour une utilisation plus spécifique.

    Il existe de nombreux types de vecteurs de clonage, mais les plus couramment utilisés sont les plasmides génétiquement modifiés. Le clonage est généralement effectué d'abord en utilisant Escherichia coli, et des vecteurs de clonage dans E. coli comprennent les plasmides, les bactériophages (tels que le phage ), les cosmides et les chromosomes artificiels bactériens (BAC). Certains ADN, cependant, ne peuvent pas être maintenus de manière stable dans E. coli, par exemple de très gros fragments d'ADN. Pour ces études, d'autres organismes tels que la levure peuvent être utilisés. Les vecteurs de clonage dans la levure comprennent les chromosomes artificiels de levure (YAC).

    Figure 5.16 Exemple d'un vecteur de clonage commun.

    Tous les vecteurs de clonage couramment utilisés en biologie moléculaire ont des caractéristiques clés nécessaires à leur fonction, telles qu'un site de clonage approprié avec des enzymes de restriction et un marqueur sélectionnable. D'autres peuvent avoir des fonctionnalités supplémentaires spécifiques à leur utilisation. Pour des raisons de facilité et de commodité, le clonage est souvent effectué en utilisant E. coli. Ainsi, les vecteurs de clonage utilisés possèdent souvent des éléments nécessaires à leur propagation et à leur maintien dans E. coli, comme un fonctionnel origine de réplication (ori). L'origine de réplication ColE1 se trouve dans de nombreux plasmides. Certains vecteurs comportent également des éléments qui leur permettent de se maintenir dans un autre organisme en plus de E. coli, et ces vecteurs sont appelés vecteurs de navette.

    Site de clonage

    Tous les vecteurs de clonage ont des caractéristiques qui permettent à un gène d'être commodément inséré dans le vecteur ou retiré de celui-ci. Cela peut être un site de clonage multiple (MCS) ou polylinker, qui contient de nombreux sites de restriction uniques. Les sites de restriction dans le MCS sont d'abord clivés par des enzymes de restriction, puis un gène cible amplifié par PCR également digéré avec les mêmes enzymes est ligaturé dans les vecteurs à l'aide d'ADN ligase. La séquence d'ADN cible peut être insérée dans le vecteur dans une direction spécifique si on le souhaite. Les sites de restriction peuvent en outre être utilisés pour un sous-clonage dans un autre vecteur si nécessaire.

    D'autres vecteurs de clonage peuvent utiliser la topoisomérase au lieu de la ligase et le clonage peut être effectué plus rapidement sans nécessiter une digestion de restriction du vecteur ou de l'insert. Dans cette méthode de clonage TOPO, un vecteur linéarisé est activé en attachant la topoisomérase I à ses extrémités, et ce vecteur “TOPO-activé” peut alors accepter un produit PCR en ligaturant les deux extrémités 5′ du produit PCR, libérant la topoisomérase et former un vecteur circulaire dans le processus. Une autre méthode de clonage sans utiliser de digestion d'ADN et de ligase est la recombinaison d'ADN, par exemple telle qu'utilisée dans le système de clonage Gateway. Le gène, une fois cloné dans le vecteur de clonage (appelé clone d'entrée dans cette méthode), peut être commodément introduit dans une variété de vecteurs d'expression par recombinaison.

    Enzymes de restriction

    Les enzymes de restriction (également appelées endonucléases de restriction) reconnaissent des séquences d'ADN spécifiques et les coupent de manière prévisible, elles sont naturellement produites par les bactéries en tant que mécanisme de défense contre l'ADN étranger.

    Comme leur nom l'indique, les endonucléases de restriction (ou enzymes de restriction) sont "limité” dans leur capacité à couper ou à digérer l'ADN. La restriction utile aux biochimistes est généralement une palindrome séquence d'ADN. Les séquences palindromiques sont la même séquence en avant et en arrière. Quelques exemples de palindromes : RACE CAR, CIVIC, A MAN A PLAN A CANAL PANAMA. En ce qui concerne l'ADN, il y a 2 brins qui sont antiparallèles l'un à l'autre. Par conséquent, le complément inverse d'un brin est identique à l'autre.

    Comme avec un mot palindrome, cela signifie que la séquence palindromique de l'ADN se lit de la même manière en avant et en arrière. Dans la plupart des cas, la séquence se lit de la même manière en avant sur un brin et en arrière sur le brin complémentaire. Les ER coupent souvent l'ADN en un motif décalé. Lorsqu'une coupe décalée est réalisée en séquence, les surplombs sont complémentaires (Figure 5.17).

    Figure 5.17 Séquences de reconnaissance d'enzymes de restriction. Dans ce (a) site de reconnaissance d'enzyme de restriction à six nucléotides, notez que la séquence de six nucléotides se lit de la même manière dans le sens 5' à 3' sur un brin que dans le sens 5' à 3' sur le brin complémentaire. Ceci est connu comme un palindrome. (b) L'enzyme de restriction fait des ruptures dans les brins d'ADN, et (c) la coupure dans l'ADN entraîne des « extrémités collantes ». Un autre morceau d'ADN coupé à chaque extrémité par la même enzyme de restriction pourrait se fixer à ces extrémités collantes et être inséré dans l'espace créé par cette coupe.

    Les biologistes moléculaires ont également tendance à utiliser ces ciseaux moléculaires spéciaux qui reconnaissent les palindromes de 6 ou 8. En utilisant des couteaux 6 ou 8, les séquences se produisent rarement sur de grandes étendues, mais assez souvent pour être utiles.

    EcoRI génère des extrémités collantes et cohésives SmaI génère des pointes émoussées

    Figure 5.18 Enzymes de restriction. Les enzymes de restriction reconnaissent les séquences palindromiques dans l'ADN et hydrolysent les liaisons phosphodiester covalentes de l'ADN pour laisser soit des extrémités « collantes/cohésives » soit des extrémités « franches ». Cette distinction dans la coupe est importante car un EcoRI L'extrémité collante peut être utilisée pour faire correspondre un morceau d'ADN coupé avec la même enzyme afin de les coller ou de les ligaturer ensemble. Alors que les endonucléases coupent l'ADN, ligases les réunir à nouveau. ADN digéré avec EcoRI peut être ligaturé avec un autre morceau d'ADN digéré avec EcoRI, mais pas à un morceau digéré avec SmaI. Un autre couteau émoussé est EcoRV avec une séquence de reconnaissance de GAT | ATC.

    Marqueur sélectionnable

    Un marqueur sélectionnable est porté par le vecteur pour permettre la sélection de cellules transformées positivement. La résistance aux antibiotiques est souvent utilisée comme marqueur, un exemple étant le gène de la bêta-lactamase, qui confère une résistance au groupe pénicilline des antibiotiques bêta-lactamines comme l'ampicilline.Certains vecteurs contiennent deux marqueurs sélectionnables, par exemple le plasmide pACYC177 possède à la fois un gène de résistance à l'ampicilline et à la kanamycine. Les vecteurs navettes qui sont conçus pour être maintenus dans deux organismes différents peuvent également nécessiter deux marqueurs sélectionnables, bien que certains marqueurs sélectionnables tels que la résistance à la zéocine et à l'hygromycine B soient efficaces dans différents types cellulaires. Les marqueurs de sélection auxotrophes qui permettent à un organisme auxotrophe de se développer dans un milieu de croissance minimal peuvent également être utilisés. LEU2 et URA3 qui sont utilisés avec leurs souches de levure auxotrophes correspondantes.

    Un autre type de marqueur sélectionnable permet la sélection positive du plasmide avec le gène cloné. Cela peut impliquer l'utilisation d'un gène mortel pour les cellules hôtes, tel que la barnase, le Ccda et les toxines parD/parE. Cela fonctionne généralement en perturbant ou en supprimant le gène mortel pendant le processus de clonage, et les clones infructueux où le gène mortel reste intact tueraient les cellules hôtes, par conséquent, seuls les clones réussis sont sélectionnés.

    Gènes rapporteurs

    Les gènes rapporteurs sont utilisés dans certains vecteurs de clonage pour faciliter le criblage de clones réussis en utilisant les caractéristiques de ces gènes qui permettent d'identifier facilement les clones réussis. De telles caractéristiques présentes dans les vecteurs de clonage peuvent être le lacZFragment pour la complémentation dans la sélection bleu-blanc, et/ou gène marqueur ou gènes rapporteurs dans le cadre avec et flanquant le MCS pour faciliter la production de protéines de fusion. Des exemples de partenaires de fusion qui peuvent être utilisés pour le criblage sont la protéine fluorescente verte (GFP) et la luciférase.

    Figure 5.19 Gènes rapporteurs. Dans ce diagramme, la protéine de fluorescence verte est utilisée comme gène rapporteur pour étudier les séquences régulatrices en amont.

    Éléments d'expression

    Si l'expression du gène ciblé est souhaitée, alors un vecteur de clonage doit également contenir des éléments appropriés pour l'expression du gène cible cloné, y compris un promoteur et un site de liaison ribosomique (RBS). L'ADN cible peut être inséré dans un site qui est sous le contrôle d'un promoteur particulier nécessaire à l'expression du gène cible chez l'hôte choisi. Lorsque le promoteur est présent, l'expression du gène est de préférence étroitement contrôlée et inductible de sorte que les protéines ne sont produites que lorsque cela est nécessaire. Certains promoteurs couramment utilisés sont le T7 et lac promoteurs. La présence d'un promoteur est nécessaire lorsque des techniques de criblage telles que la sélection bleu-blanc sont utilisées.

    Des vecteurs de clonage sans promoteur et RBS pour la séquence d'ADN clonée sont parfois utilisés, par exemple lors du clonage de gènes dont les produits sont toxiques pour E. coli cellules. Le promoteur et le RBS pour la séquence d'ADN clonée sont également inutiles lors de la première création d'une bibliothèque génomique ou d'ADNc de clones puisque les gènes clonés sont normalement sous-clonés dans un vecteur d'expression plus approprié si leur expression est requise.

    Types de vecteurs de clonage

    Un grand nombre de vecteurs de clonage sont disponibles, et le choix du bon vecteur peut dépendre d'un certain nombre de facteurs, tels que la taille de l'insert, le nombre de copies et la méthode de clonage. Les grands inserts d'ADN peuvent ne pas être maintenus de manière stable dans un vecteur de clonage général, en particulier pour ceux avec un nombre de copies élevé, par conséquent, le clonage de grands fragments peut nécessiter un vecteur de clonage plus spécialisé.

    Les plasmides répliquent de manière autonome l'ADN extra-chromosomique circulaire. Ce sont les vecteurs de clonage standard et les plus couramment utilisés. La plupart des plasmides généraux peuvent être utilisés pour cloner un insert d'ADN d'une taille allant jusqu'à 15 kb. De nombreux plasmides ont un nombre de copies élevé, par exemple pUC19 qui a un nombre de copies de 500 à 700 copies par cellule, et un nombre de copies élevé est utile car il produit un plus grand rendement de plasmide recombinant pour une manipulation ultérieure. Cependant, des plasmides à faible nombre de copies peuvent être utilisés de préférence dans certaines circonstances, par exemple, lorsque la protéine du gène cloné est toxique pour les cellules.

    Bactériophage

    Les bactériophages les plus couramment utilisés pour le clonage sont le phage lambda (λ) et le phage M13. Il existe une limite supérieure à la quantité d'ADN pouvant être emballée dans un phage (un maximum de 53 kb). Le génome moyen du phage lambda est d'environ 48,5 kb (figure 5.20). Par conséquent, pour permettre à l'ADN étranger d'être inséré dans l'ADN de phage, les vecteurs de clonage de phage peuvent avoir besoin d'avoir certains de leurs gènes non essentiels supprimés pour faire de la place à l'ADN étranger.

    Il existe également une limite de taille inférieure pour l'ADN qui peut être emballé dans un phage, et l'ADN vecteur qui est trop petit ne peut pas être correctement emballé dans le phage. Cette propriété peut être utilisée pour la sélection – le vecteur sans insertion peut être trop petit, donc seuls les vecteurs avec insertion peuvent être sélectionnés pour la propagation.

    Figure 5.20 Phage lambda. (A) Représentation schématique du génome circulaire du phage lambda (B) Schéma de la particule infectieuse du phage Lambda et (C) Micrographie électronique du bactériophage apparenté, le vibriophage VvAWI. La barre indique une longueur de 50 nm.

    Les cosmides sont des plasmides qui incorporent un segment d'ADN du bactériophage qui a les sites terminaux cohésifs (car) qui contient les éléments nécessaires à l'encapsidation de l'ADN en particules . Il est normalement utilisé pour cloner de gros fragments d'ADN entre 28 et 45 Kb.

    Chromosome artificiel bactérien

    Une taille d'insert allant jusqu'à 350 kb peut être clonée dans un chromosome artificiel bactérien (BAC). Les taux d'alcoolémie sont maintenus dans E. coli avec un nombre de copies de seulement 1 par cellule. Les BAC ont souvent été utilisés pour séquencer le génome d'organismes dans des projets de génome, y compris le projet du génome humain. Un court morceau de l'ADN de l'organisme est amplifié sous forme d'insert dans les BAC, puis séquencé. Enfin, les parties séquencées sont réarrangées in silico, aboutissant à la séquence génomique de l'organisme. Les BAC ont été largement remplacés à ce titre par des méthodes de séquençage plus rapides et moins laborieuses telles que le séquençage par fusil de chasse du génome entier et maintenant plus récemment le séquençage de nouvelle génération.

    Chromosome artificiel de levure

    Les chromosomes artificiels de levure sont utilisés comme vecteurs pour cloner des fragments d'ADN d'une taille supérieure à 1 mégabase (1Mb = 1000kb = 1 000 000 bases). Ils sont utiles pour cloner des fragments d'ADN plus gros, comme requis dans la cartographie des génomes, comme dans le projet du génome humain. Il contient une séquence télomérique, une séquence à réplication autonome (caractéristiques requises pour répliquer les chromosomes linéaires dans les cellules de levure). Ces vecteurs contiennent également des sites de restriction appropriés pour cloner de l'ADN étranger ainsi que des gènes à utiliser comme marqueurs sélectionnables.

    Chromosome artificiel humain

    Les chromosomes artificiels humains peuvent être potentiellement utiles en tant que vecteurs de transfert de gènes pour la délivrance de gènes dans des cellules humaines et en tant qu'outil pour les études d'expression et la détermination de la fonction des chromosomes humains. Il peut transporter de très gros fragments d'ADN (il n'y a pas de limite supérieure de taille à des fins pratiques), il n'a donc pas le problème de la capacité de clonage limitée d'autres vecteurs, et il évite également une éventuelle mutagenèse insertionnelle causée par l'intégration dans les chromosomes de l'hôte par des virus. vecteur.

    Des vecteurs viraux animaux et végétaux qui infectent les cellules végétales et animales ont également été manipulés pour introduire des gènes étrangers dans les cellules végétales et animales. La capacité naturelle des virus à s'adsorber dans les cellules, à introduire leur ADN et à se répliquer en a fait des véhicules idéaux pour transférer de l'ADN étranger dans des cellules eucaryotes en culture. Un vecteur basé sur le virus simien 40 (SV40) a été utilisé dans la première expérience de clonage impliquant des cellules de mammifères. Un certain nombre de vecteurs basés sur d'autres types de virus tels que les adénovirus et le virus du papillome ont été utilisés pour cloner des gènes chez les mammifères. À l'heure actuelle, les vecteurs rétroviraux sont populaires pour cloner des gènes dans des cellules de mammifères. En cas de transformation des plantes, des virus tels que le virus de la mosaïque du chou-fleur, le virus de la mosaïque du tabac et les virus des Gémeaux ont été utilisés avec un succès limité.

    Résumé du clonage d'ADN

    La figure 5.21 présente un résumé des méthodes de clonage de base les plus largement utilisées dans les laboratoires de biochimie. L'ADN étranger est isolé ou amplifié par PCR pour obtenir suffisamment de matériel pour la procédure de clonage. L'ADN est purifié et coupé avec des enzymes de restriction, puis mélangé avec un vecteur qui a été coupé avec les mêmes enzymes de restriction. L'ADN peut ensuite être recousu avec de l'ADN ligase. L'ADN peut ensuite être transformé dans un système hôte, souvent des bactéries, pour faire croître de grandes quantités du plasmide contenant l'ADN cloné.

    La structuration des fragments de restriction et le séquençage de l'ADN peuvent être utilisés pour valider le matériel cloné.

    Figure 5.21 Diagramme montrant les principales étapes du clonage.

    Pour un didacticiel vidéo sur le clonage d'ADN, visitez: HHMI – BioInteractive

    Les plasmides contenant de l'ADN étranger sont appelés molécules d'ADN recombinant car ils contiennent de nouvelles combinaisons de matériel génétique. Les protéines produites à partir de molécules d'ADN recombinant sont appelées protéines recombinantes. Tous les plasmides recombinants ne sont pas capables d'exprimer des gènes. Les plasmides peuvent également être modifiés pour exprimer des protéines uniquement lorsqu'ils sont stimulés par certains facteurs environnementaux, afin que les scientifiques puissent contrôler l'expression des protéines recombinantes.

    Clonage reproductif

    Le clonage reproductif est une méthode utilisée pour créer un clone ou un copie identique d'un organisme multicellulaire entier. La plupart des organismes multicellulaires subissent une reproduction par voie sexuée, ce qui implique l'apport d'ADN de deux individus (parents), ce qui rend impossible la génération d'une copie identique ou d'un clone de l'un ou l'autre des parents. Les progrès récents de la biotechnologie ont permis de cloner des mammifères de manière reproductive en laboratoire.

    La reproduction sexuée naturelle implique l'union, lors de la fécondation, d'un spermatozoïde et d'un ovule. Chacun de ces gamètes est haploïde, ce qui signifie qu'ils contiennent un ensemble de chromosomes dans leurs noyaux. La cellule résultante, ou zygote, est ensuite diploïde et contient deux ensembles de chromosomes. Cette cellule se divise par mitose pour produire un organisme multicellulaire. Cependant, l'union de deux cellules ne peut produire un zygote viable. Il existe des composants dans le cytoplasme de l'ovule qui sont essentiels au développement précoce de l'embryon au cours de ses premières divisions cellulaires. Sans ces dispositions, il n'y aurait pas de développement ultérieur. Par conséquent, pour produire un nouvel individu, un complément génétique diploïde et un cytoplasme d'œuf sont nécessaires. L'approche pour produire un individu artificiellement cloné consiste à prélever l'ovule d'un individu et à retirer le noyau haploïde. Ensuite, un noyau diploïde provenant d'une cellule du corps d'un deuxième individu, le donneur, est introduit dans l'ovule. L'œuf est ensuite stimulé pour se diviser afin que le développement se poursuive. Cela semble simple, mais en fait, il faut de nombreuses tentatives avant que chacune des étapes soit terminée avec succès.

    Le premier animal agricole cloné était Dolly, une brebis née en 1996. Le taux de réussite du clonage reproductif à l'époque était très faible. Dolly a vécu six ans et est décédé d'une tumeur pulmonaire (figure 5.22). Il y avait des spéculations que parce que l'ADN cellulaire qui a donné naissance à Dolly provenait d'un individu plus âgé, l'âge de l'ADN peut avoir affecté son espérance de vie. Depuis Dolly, plusieurs espèces d'animaux (comme les chevaux, les taureaux et les chèvres) ont été clonées avec succès.

    Il y a eu des tentatives pour produire des embryons humains clonés comme sources de cellules souches embryonnaires. Dans la procédure, l'ADN d'un humain adulte est introduit dans un ovule humain, qui est ensuite stimulé pour se diviser. La technologie est similaire à celle qui a été utilisée pour produire Dolly, mais l'embryon n'est jamais implanté dans une mère porteuse. Les cellules produites sont appelées cellules souches embryonnaires car elles ont la capacité de se développer en de nombreux types de cellules différentes, telles que des cellules musculaires ou nerveuses. Les cellules souches pourraient être utilisées pour la recherche et finalement fournir des applications thérapeutiques, telles que le remplacement de tissus endommagés. L'avantage du clonage dans ce cas est que les cellules utilisées pour régénérer de nouveaux tissus correspondraient parfaitement au donneur de l'ADN d'origine. Par exemple, un patient atteint de leucémie n'aurait pas besoin d'un frère ou d'une sœur avec un tissu compatible pour une greffe de moelle osseuse.

    Figure 5.22 La brebis Dolly a été le premier animal agricole à être cloné. Pour créer Dolly, le noyau a été retiré d'un ovule d'un donneur. L'œuf énucléé a été placé à côté de l'autre cellule, puis ils ont été choqués pour fusionner. Ils ont de nouveau été choqués de commencer la division. Les cellules ont été laissées se diviser pendant plusieurs jours jusqu'à ce qu'un stade embryonnaire précoce soit atteint, avant d'être implantées dans une mère porteuse.

    Pourquoi Dolly était-elle une Finn-Dorset et non une brebis écossaise Blackface ?

    Parce que même si la cellule d'origine provenait d'un mouton Scottish Blackface et que la mère porteuse était une Scottish Blackface, l'ADN provenait d'un Finn-Dorset.

    Ingénierie génétique

    L'utilisation de la technologie de l'ADN recombinant pour modifier l'ADN d'un organisme afin d'obtenir des traits souhaitables s'appelle le génie génétique. L'ajout d'ADN étranger sous la forme de vecteurs d'ADN recombinant générés par clonage moléculaire est la méthode la plus courante de génie génétique. Un organisme qui reçoit l'ADN recombinant est appelé un organisme génétiquement modifié (OGM). Si l'ADN étranger introduit provient d'une espèce différente, l'organisme hôte est appelé transgénique. Les bactéries, les plantes et les animaux ont été génétiquement modifiés depuis le début des années 1970 à des fins académiques, médicales, agricoles et industrielles.

    Regardez cette courte vidéo expliquant comment les scientifiques créent un animal transgénique.

    Bien que les méthodes classiques d'étude de la fonction des gènes commencent avec un phénotype donné et déterminent la base génétique de ce phénotype, les techniques modernes permettent aux chercheurs de commencer au niveau de la séquence d'ADN et de se demander : « Que fait ce gène ou cet élément d'ADN ? » Cette technique, appelée génétique inverse, a eu pour effet de renverser la méthodologie génétique classique. Un exemple de cette méthode est analogue à endommager une partie du corps pour déterminer sa fonction. Un insecte qui perd une aile ne peut pas voler, ce qui signifie que la fonction de l'aile est le vol. La méthode génétique classique compare des insectes incapables de voler avec des insectes capables de voler et constate que les insectes non volants ont perdu des ailes. De même, dans une approche de génétique inverse, la mutation ou la suppression de gènes fournit aux chercheurs des indices sur la fonction des gènes. Alternativement, la génétique inverse peut être utilisée pour provoquer une surexpression d'un gène afin de déterminer quels effets phénotypiques peuvent se produire.

    Technologie CRISPR

    CRISPR signifie répétitions palindromiques courtes groupées régulièrement espacéeset représente une famille de séquences d'ADN trouvées dans les génomes d'organismes procaryotes tels que les bactéries et les archées. Ces séquences sont dérivées de fragments d'ADN de bactériophages qui ont précédemment infecté le procaryote et sont utilisées pour détecter et détruire l'ADN de phages similaires lors d'infections ultérieures. Ces séquences jouent donc un rôle clé dans le système de défense antivirale des procaryotes.

    5.23 Structure cristalline d'un complexe de surveillance guidée par ARN CRISPR, Cascade, lié à une cible ADNsb. Système CRISPR Sous-unités protéiques en cascade CasA, CasB, CasC, CasD et CasE (cyan) liées à l'ARN CRISPR (vert) et à l'ADN viral (rouge) basées sur PDB 4QYZ et rendues avec PyMOL.

    Cas9 (ou “CRISPR-associated protein 9”) est une enzyme qui utilise les séquences CRISPR comme guide pour reconnaître et cliver des brins spécifiques d'ADN qui sont complémentaires à la séquence CRISPR. Les enzymes Cas9 ainsi que les séquences CRISPR forment la base d'une technologie connue sous le nom de CRISPR-Cas9 qui peut être utilisée pour modifier les gènes au sein des organismes. Ce processus d'édition a une grande variété d'applications, y compris la recherche biologique fondamentale, le développement de produits biotechnologiques et le traitement des maladies.

    Figure 5.24 Schéma du mécanisme de défense antivirale procaryote CRISPR.

    Le système CRISPR-Cas est un système immunitaire procaryote qui confère une résistance aux éléments génétiques étrangers tels que ceux présents dans les plasmides et les phages qui fournit une forme d'immunité acquise. L'ARN hébergeant la séquence d'espacement aide les protéines Cas (associées à CRISPR) à reconnaître et à couper l'ADN pathogène étranger. D'autres protéines Cas guidées par l'ARN coupent l'ARN étranger. Les CRISPR sont présentes dans environ 50 % des génomes bactériens séquencés et près de 90 % des archées séquencées.

    5.4 Puces à ADN

    UNE Puce à ADN(également connu sous le nom de puce à ADN ou biopuce) est une collection de taches d'ADN microscopiques attachées à une surface solide. Les scientifiques utilisent des puces à ADN pour mesurer les niveaux d'expression d'un grand nombre de gènes simultanément ou pour génotyper plusieurs régions d'un génome. Chaque tache d'ADN contient des picomoles (10 -12 moles) d'une séquence d'ADN spécifique, connue sous le nom de sondes (ou journalistes ou oligos). Il peut s'agir d'une courte section d'un gène ou d'un autre élément d'ADN utilisé pour hybrider un échantillon d'ADNc ou d'ARNc (également appelé ARN antisens) (appelé cible) dans des conditions de forte rigueur. L'hybridation sonde-cible est généralement détectée et quantifiée par détection de cibles marquées au fluorophore, à l'argent ou à la chimiluminescence pour déterminer l'abondance relative des séquences d'acide nucléique dans la cible. Les réseaux d'acides nucléiques originaux étaient des macroréseaux d'environ 9 cm × 12 cm et la première analyse basée sur des images informatisées a été publiée en 1981. Elle a été inventée par Patrick O. Brown.

    Figure 5.25 Schéma des puces à ADN. Au sein des organismes, les gènes sont transcrits et épissés pour produire des transcrits d'ARNm matures (rouge). L'ARNm est extrait de l'organisme et la transcriptase inverse est utilisée pour copier l'ARNm dans un ds-ADNc stable (bleu). Dans les puces à ADN, le ds-ADNc est fragmenté et marqué par fluorescence (orange). Les fragments marqués se lient à une matrice ordonnée d'oligonucléotides complémentaires, et la mesure de l'intensité de fluorescence à travers la matrice indique l'abondance d'un ensemble prédéterminé de séquences. Ces séquences sont généralement spécifiquement choisies pour signaler les gènes d'intérêt dans le génome de l'organisme.

    Le principe de base des puces à ADN est l'hybridation entre deux brins d'ADN, la propriété des séquences d'acides nucléiques complémentaires de s'apparier spécifiquement les unes aux autres en formant des liaisons hydrogène entre les paires de bases de nucléotides complémentaires. Un nombre élevé de paires de bases complémentaires dans une séquence nucléotidique signifie une liaison non covalente plus étroite entre les deux brins. Après lavage des séquences de liaison non spécifiques, seuls les brins fortement appariés resteront hybrides. Les séquences cibles marquées par fluorescence qui se lient à une séquence sonde génèrent un signal qui dépend des conditions d'hybridation (telles que la température) et du lavage après hybridation. La force totale du signal, à partir d'un point (caractéristique), dépend de la quantité d'échantillon cible se liant aux sondes présentes sur ce point. Les puces à ADN utilisent la quantification relative dans laquelle l'intensité d'une caractéristique est comparée à l'intensité de la même caractéristique dans des conditions différentes, et l'identité de la caractéristique est connue par sa position.

    Figure 5.26 Hybridation de l'ADN cible avec l'ADN de la sonde au cours de l'analyse des puces à ADN

    De nombreux types de réseaux existent et la distinction la plus large est de savoir s'ils sont disposés spatialement sur une surface ou sur des billes codées :

    • Le réseau en phase solide traditionnel est une collection de « points microscopiques » ordonnés, appelés caractéristiques, chacun avec des milliers de sondes identiques et spécifiques attachées à une surface solide, comme une biopuce en verre, en plastique ou en silicium (communément appelée puce du génome, puce à ADN ou tableau de gènes). Des milliers de ces caractéristiques peuvent être placées dans des emplacements connus sur une seule puce à ADN.
    • Le réseau de billes alternatif est une collection de billes de polystyrène microscopiques, chacune avec une sonde spécifique et un rapport de deux ou plusieurs colorants, qui n'interfèrent pas avec les colorants fluorescents utilisés sur la séquence cible.

    Les puces à ADN peuvent être utilisées pour détecter l'ADN (comme dans l'hybridation génomique comparative) ou détecter l'ARN (le plus souvent sous forme d'ADNc après transcription inverse) qui peut ou non être traduit en protéines. Le processus de mesure de l'expression génique via l'ADNc est appelé analyse d'expression ou profil d'expression.

    Fabrication

    Les puces à ADN peuvent être fabriquées de différentes manières, en fonction du nombre de sondes examinées, des coûts, des exigences de personnalisation et du type de question scientifique posée. Les réseaux de fournisseurs commerciaux peuvent avoir aussi peu que 10 sondes ou jusqu'à 5 millions ou plus de sondes à l'échelle micrométrique.

    Tacheté vs. in situ tableaux synthétisés

    Les microréseaux peuvent être fabriqués à l'aide de diverses technologies, notamment l'impression avec des épingles à pointe fine sur des lames de verre, la photolithographie à l'aide de masques préfabriqués, la photolithographie à l'aide de dispositifs à micromiroir dynamique, l'impression à jet d'encre ou l'électrochimie sur des réseaux de microélectrodes.

    Dans puces à ADN tachetées, les sondes sont des oligonucléotides, des ADNc ou de petits fragments de produits de PCR qui correspondent à des ARNm. Les sondes sont synthétisées avant le dépôt sur la surface de la matrice et sont ensuite « repérées » sur le verre. Une approche courante utilise un réseau de fines broches ou aiguilles contrôlées par un bras robotique qui est plongé dans des puits contenant des sondes d'ADN, puis qui dépose chaque sonde à des emplacements désignés sur la surface du réseau. La grille de sondes résultante représente les profils d'acide nucléique des sondes préparées et est prête à recevoir des cibles d'ADNc ou d'ARNc complémentaires dérivées d'échantillons expérimentaux ou cliniques. Cette technique est utilisée par des chercheurs du monde entier pour produire des puces à ADN imprimées en interne à partir de leurs propres laboratoires. Ces matrices peuvent être facilement personnalisées pour chaque expérience, car les chercheurs peuvent choisir les sondes et les emplacements d'impression sur les matrices, synthétiser les sondes dans leur propre laboratoire (ou installation de collaboration) et repérer les matrices. Ils peuvent ensuite générer leurs propres échantillons marqués pour l'hybridation, hybrider les échantillons à la puce et enfin scanner les puces avec leur propre équipement. Cela fournit une puce à ADN relativement peu coûteuse qui peut être personnalisée pour chaque étude et évite les coûts d'achat de puces commerciales souvent plus chères qui peuvent représenter un grand nombre de gènes qui n'intéressent pas l'investigateur. Il existe des publications indiquant que les puces à puces localisées internes peuvent ne pas fournir le même niveau de sensibilité par rapport aux puces oligonucléotidiques commerciales, peut-être en raison de la petite taille des lots et de l'efficacité d'impression réduite par rapport aux fabrications industrielles de puces oligonucléotidiques.

    Dans puces à oligonucléotides, les sondes sont de courtes séquences conçues pour correspondre à des parties de la séquence de cadres de lecture ouverts connus ou prédits. Bien que les sondes oligonucléotidiques soient souvent utilisées dans les puces à ADN repérées, le terme « puce à oligonucléotides » fait le plus souvent référence à une technique de fabrication spécifique. Les matrices d'oligonucléotides sont produites en imprimant de courtes séquences d'oligonucléotides conçues pour représenter un seul gène ou une seule famille de variants d'épissage de gènes en synthétisant cette séquence directement sur la surface de la matrice au lieu de déposer des séquences intactes. Les séquences peuvent être plus longues (sondes 60-mères telles que la conception Agilent) ou plus courtes (sondes 25-mères produites par Affymetrix) selon l'objectif souhaité. la matrice et sont moins chers à fabriquer. Une technique utilisée pour produire des matrices d'oligonucléotides comprend la synthèse photolithographique (Affymetrix) sur un substrat de silice où la lumière et des agents de masquage sensibles à la lumière sont utilisés pour "construire" une séquence un nucléotide à la fois sur l'ensemble de la matrice. Chaque sonde applicable est sélectivement "démasquée" avant de baigner la matrice dans une solution d'un seul nucléotide, puis une réaction de masquage a lieu et la prochaine série de sondes est démasquée en vue d'une exposition différente aux nucléotides. Après de nombreuses répétitions, les séquences de chaque sonde deviennent entièrement construites. Plus récemment, Maskless Array Synthesis de NimbleGen Systems a combiné la flexibilité avec un grand nombre de sondes.

    Figure 5.27 Schéma d'une expérience typique de microréseau bicolore. Dans une puce à double couleur, l'ADN de la sonde est typiquement hybridé avec de l'ADNc préparé à partir de deux échantillons différents, chacun marqué avec une sonde fluorescente différente. L'analyse produira une fluorescence verte pour un échantillon qui régule à la hausse l'expression génique, tandis que l'autre échantillon marqué avec un marqueur de fluorescence rouge indiquera que l'autre condition provoque l'expression génique à cet endroit. Le jaune indique l'expression des gènes dans les deux échantillons.

    Image A modifiée de Larssono et Image B de Guillaume Paumier

    Microarrays bicolores ou puces à deux canaux sont typiquement hybrides avec de l'ADNc préparé à partir de deux échantillons à comparer (par exemple, un tissu malade par rapport à un tissu sain) et qui sont marqués avec deux fluorophores différents. Les colorants fluorescents couramment utilisés pour le marquage de l'ADNc comprennent Cy3, qui a une longueur d'onde d'émission de fluorescence de 570 nm (correspondant à la partie verte du spectre lumineux) et Cy5 avec une longueur d'onde d'émission de fluorescence de 670 nm (correspondant à la partie rouge de la lumière spectre). Les deux échantillons d'ADNc marqués au Cy sont mélangés et hybrides à un seul microréseau qui est ensuite scanné dans un scanner à microréseau pour visualiser la fluorescence des deux fluorophores après excitation avec un faisceau laser d'une longueur d'onde définie. Les intensités relatives de chaque fluorophore peuvent ensuite être utilisées dans une analyse basée sur le rapport pour identifier les gènes régulés à la hausse et à la baisse.

    Les puces à oligonucléotides portent souvent des sondes de contrôle conçues pour s'hybrider avec des pointes d'ARN. Le degré d'hybridation entre les pointes et les sondes de contrôle est utilisé pour normaliser les mesures d'hybridation pour les sondes cibles. Bien que les niveaux absolus d'expression génique puissent être déterminés dans le tableau bicolore dans de rares cas, les différences relatives d'expression entre les différents points d'un échantillon et entre les échantillons constituent la méthode préférée d'analyse des données pour le système bicolore. Des exemples de fournisseurs de ces puces à ADN comprennent Agilent avec leur plate-forme Dual-Mode, Eppendorf avec leur plate-forme DualChip pour l'étiquetage colorimétrique Silverquant et TeleChem International avec Arrayit.

    Dans puces à ADN monocanal ou puces à une couleur, les réseaux fournissent des données d'intensité pour chaque sonde ou ensemble de sondes indiquant un niveau relatif d'hybridation avec la cible marquée. Cependant, ils n'indiquent pas vraiment les niveaux d'abondance d'un gène, mais plutôt l'abondance relative par rapport à d'autres échantillons ou conditions lorsqu'ils sont traités dans la même expérience. Chaque molécule d'ARN rencontre un protocole et un biais spécifique au lot pendant les phases d'amplification, de marquage et d'hybridation de l'expérience, ce qui rend les comparaisons entre les gènes pour la même puce à ADN non informatives. La comparaison de deux conditions pour le même gène nécessite deux hybridations séparées à un seul colorant. Plusieurs systèmes monocanal populaires sont les puces Affymetrix “Gene Chip”, Illumina “Bead Chip”, les matrices monocanal Agilent, les matrices Applied Microarrays “CodeLink” et les matrices Eppendorf “DualChip & Silverquant” . L'un des points forts du système à colorant unique réside dans le fait qu'un échantillon aberrant ne peut pas affecter les données brutes dérivées d'autres échantillons, car chaque puce de matrice n'est exposée qu'à un seul échantillon (par opposition à un système à deux couleurs dans lequel un seul faible - un échantillon de qualité peut considérablement empiéter sur la précision globale des données, même si l'autre échantillon était de haute qualité). Un autre avantage est que les données sont plus facilement comparées aux tableaux de différentes expériences tant que les effets de lot ont été pris en compte.

    5.5 Hybridation in situ

    In situ hybridation (ISH) est un type d'hybridation qui utilise un brin complémentaire marqué d'ADN, d'ARN ou d'acides nucléiques modifiés (c'est-à-dire une sonde) pour localiser une séquence d'ADN ou d'ARN spécifique dans une partie ou une section de tissu (in situ) ou si le tissu est suffisamment petit (par exemple, graines de plantes, Drosophile embryons), dans l'ensemble du tissu (ensemble de la monture ISH), dans les cellules et dans les cellules tumorales circulantes (CTC). Ceci est distinct de l'immunohistochimie, qui localise généralement les protéines dans les coupes de tissus.

    L'hybridation in situ est utilisée pour révéler l'emplacement de séquences d'acides nucléiques spécifiques sur les chromosomes ou dans les tissus, une étape cruciale pour comprendre l'organisation, la régulation et la fonction des gènes. Les principales techniques actuellement utilisées comprennent in situ hybridation à l'ARNm avec des sondes oligonucléotidiques et ARN (à la fois radiomarquées et marquées à l'haptène), analyse au microscope optique et électronique, montage entier in situ hybridation, double détection d'ARN et d'ARN plus protéine, et fluorescence in situ hybridation pour détecter des séquences chromosomiques. L'ADN ISH peut être utilisé pour déterminer la structure des chromosomes. L'ISH à ADN fluorescent (FISH) peut, par exemple, être utilisé dans des diagnostics médicaux pour évaluer l'intégrité chromosomique. ARN ISH (ARN in situ hybridation) est utilisé pour mesurer et localiser les ARN (ARNm, lncARN et miARN) dans des coupes de tissus, des cellules, des montures entières et des cellules tumorales circulantes (CTC). In situ l'hybridation a été inventée par Mary-Lou Pardue et Joseph G. Gall.

    Figure 5.28 Hybridation in situ de type sauvage Drosophile embryons à différents stades de développement pour l'ARN d'un gène appelé bossu.

    Pour l'histochimie d'hybridation, les échantillons de cellules et de tissus sont généralement traités pour fixer les transcrits cibles en place et pour augmenter l'accès de la sonde. Comme indiqué ci-dessus, la sonde est soit un ADN complémentaire marqué, soit, maintenant le plus souvent, un ARN complémentaire (ribosonde). La sonde s'hybride à la séquence cible à température élevée, puis la sonde en excès est lavée (après hydrolyse préalable à l'aide de RNase dans le cas d'une sonde d'ARN en excès non hybridée). Les paramètres de la solution tels que la température, le sel et/ou la concentration de détergent peuvent être manipulés pour supprimer toutes les interactions non identiques (c'est-à-dire que seules les correspondances de séquence exactes resteront liées). Ensuite, la sonde qui a été marquée avec des bases radio-, fluorescentes ou marquées par un antigène (par exemple, la digoxigénine) est localisée et quantifiée dans le tissu à l'aide d'une autoradiographie, d'une microscopie à fluorescence ou d'une immunohistochimie, respectivement. L'ISH peut également utiliser deux ou plusieurs sondes, marquées avec la radioactivité ou les autres marqueurs non radioactifs, pour détecter simultanément deux ou plusieurs transcrits.

    Une technologie alternative, le test d'ADN ramifié, peut être utilisée pour l'ARN (ARNm, lncRNA et miARN) in situ tests d'hybridation avec sensibilité à une seule molécule sans utilisation de radioactivité. Cette approche (par exemple, les tests ViewRNA) peut être utilisée pour visualiser jusqu'à quatre cibles dans un test, et elle utilise une conception de sonde brevetée et une amplification du signal bDNA pour générer des signaux sensibles et spécifiques. Les échantillons (cellules, tissus et CTC) sont fixés, puis traités pour permettre l'accessibilité des cibles d'ARN (démasquage d'ARN). Les sondes spécifiques à la cible s'hybrident à chaque ARN cible. L'amplification de signal subséquente est fondée sur l'hybridation spécifique de sondes adjacentes (oligonucléotides individuels [oligos] qui se lient côte à côte sur des cibles d'ARN). Une sonde typique spécifique à une cible contiendra 40 oligonucléotides, résultant en 20 paires d'oligos qui se lient côte à côte sur la cible pour la détection d'ARNm et d'ARNlnc, et 2 oligos ou une seule paire pour la détection de miARN. L'amplification du signal est réalisée via une série d'étapes d'hybridation séquentielles. Une molécule de préamplificateur s'hybride à chaque paire d'oligos sur l'ARN spécifique de la cible, puis plusieurs molécules d'amplificateur s'hybrident à chaque préamplificateur. Ensuite, plusieurs oligonucléotides sondes marqueurs (conjugués à la phosphatase alcaline ou directement à des fluorophores) s'hybrident à chaque molécule amplificatrice. Une structure d'amplification de signal entièrement assemblée « Tree » a 400 sites de liaison pour les sondes de marquage. Lorsque toutes les sondes spécifiques à la cible se lient au transcrit d'ARNm cible, une amplification du signal de 8 000 fois se produit pour ce transcrit. Des systèmes d'amplification de signal séparés mais compatibles permettent les dosages multiplex. Le signal peut être visualisé à l'aide d'un microscope à fluorescence ou à fond clair.

    5.6 Références

    Ghannam, M.G. et Varacallo, M. (2018) Biochimie, Réaction en chaîne par polymérase (PCR) StatPearls Publishing. Disponible sur : https://www.ncbi.nlm.nih.gov/books/NBK535453/

    Kahn, T.N. (2018) Le rôle émergent de la bioinformatique en biotechnologie. J. Biotech. et Biomed. Sciences 1(3) ISSN : 2576-6694. Disponible sur : https://openaccesspub.org/jbbs/article/803

    Lee LYY, Izzard L et Hurt AC (2018) Examen des vaccins à ADN contre la grippe. Devant. Immunol. 9:1568. doi: 10.3389/fimmu.2018.01568 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6046547/pdf/fimmu-09-01568.pdf

    Molnar, C. et Gair, J. (2019) 10.1 Clonage et génie génétique. Chapitre dans Concepts de biologie – 1ère édition canadienne. Disponible à : https://opentextbc.ca/biology/

    Nidhi M. Bioinformatique: Une Introduction. Ouvrez Acc Biostat Bioinform. 1(4). OABB.000522. 2018. DOI : 10.31031/OABB.2018.01.0005 22 https://pdfs.semanticscholar.org/f220/86467e2532106c8c616f03fc0a61aff9b3ea.pdf

    Seto, D. (2010) Génomique virale et bioinformatique. Virus 2 : 2587-2593. doi:10.3390/v2122587


    Voir la vidéo: الية تركيب بروتين في الخلية - الاستنساخ و الترجمة (Août 2022).