Informations

Faire face aux bases répétitives dans l'ADN ?

Faire face aux bases répétitives dans l'ADN ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

On m'a confié un projet impliquant un plasmide qui contient de longues étendues d'Adénine (60 ou 120 bases chacune). Ces étirements PolyA sont interrompus par des G ou C occasionnels.

Je comprends qu'il est difficile d'effectuer la PCR, le clonage, la synthèse d'ADN, la mutagenèse et le séquençage sur des séquences répétitives. Quelles techniques et pratiques dois-je suivre pour améliorer la précision lors du traitement de ces séquences PolyA ?


Vous pouvez utiliser des amorces beaucoup plus longues (jusqu'à 70 pb environ), de sorte qu'elles couvrent la région répétitive que vous souhaitez modifier et une séquence plus spécifique pour ancrer l'amorce (en supposant que votre vecteur le permet). Si les multiples sites que vous souhaitez modifier sont à portée les uns des autres, vous pouvez commander des amorces avec 2 sites mutagénisés ou plus - mais attendez-vous à ce que votre efficacité diminue. Votre autre option serait de faire plusieurs tours de mutagenèse, en modifiant une position à la fois.

J'essayerais alors simplement ces amorces sur une PCR en gradient en utilisant une bonne enzyme comme la Q5 de NEB. Essayer de trouver une température pour la bande de taille correcte sera probablement la clé.

Le vrai problème que vous allez avoir n'est probablement pas le clonage, il le prouvera. Les étirements homopolymères sont un réel problème pour le séquençage, et plus ils s'allongent, pire c'est. Les séquenceurs automatisés ont du mal à distinguer, par exemple, 29 adénines et 30 adénines d'affilée. Lorsque vos résultats de séquençage sont renvoyés, si votre séquençage est décalé d'une base ou deux, il sera pratiquement impossible de dire si votre séquençage était erroné ou si votre construction l'était.


D'accord, l'un des principaux problèmes avec les queues polA est avec la PCR, qui est une méthode couramment utilisée dans le clonage moléculaire, la mutagenèse spécifiée, etc.

Un problème avec les queues PolyA et la PCR concerne les amorces. Étant donné que les A n'ont que 2 liaisons hydrogène, au lieu de 3, cela peut rendre difficile la conception de bonnes amorces dans ce domaine. Si vous souhaitez amplifier cette région à l'aide de la PCR, vous pouvez avoir des difficultés à concevoir des amorces car il est recommandé d'avoir beaucoup de G et C (surtout près des extrémités pour la stabilité). Ainsi, créer des extrémités franches, une mutagenèse, etc. sera plus difficile.


Des gènes à la médecine personnalisée

Ronald J Trent PhD, BSc(Med), MBBS (Sydney), DPhil (Oxon), FRACP, FRCPA, FFSc, FTSE , en médecine moléculaire (quatrième édition) , 2012

ADN répétitif

L'ADN répétitif peut être divisé en deux classes : les séquences répétitives en tandem (appelées Satellite ADN) et le entrecoupé répète. Le terme satellite est utilisé pour décrire des séquences d'ADN qui comprennent de courtes répétitions en tandem tête-à-queue incorporant des motifs spécifiques. Ceux-ci constituent un tiers des répétitions d'ADN et sont illustrés par les macrosatellites, les minisatellites et les microsatellites. Ce dernier est le plus pertinent pour la médecine. Un résumé des répétitions d'ADN satellite est donné dans le tableau 1.5, et ils sont illustrés dans la figure 1.6.

Tableau 1.5 . Variations de l'ADN dans le génome.

VariationLa description
MacrosatelliteDe petites unités d'ADN sont répétées en tandem des milliers de fois. D'où appelé VNTR (variable mnombre de tandème rrépéter). Ce grand polymorphisme se trouve principalement dans les centromères et les télomères.
MinisatelliteLes unités de répétition sont plus grandes que les macrosatellites mais elles sont moins nombreuses. Aussi un exemple de VNTR. Ceux - ci sont à nouveau discutés au chapitre 9 .
MicrosatelliteCeux-ci impliquent de petites répétitions en tandem, par ex. 2-6 pb en taille, d'où ils sont appelés RSS (smettre en œuvre sséquence rrépéter) ou STR (scourt tandème rrépéter). Les microsatellites sont utilisés dans la découverte de gènes par analyse de liaison ( chapitre 2 ), à des fins d'identification, p. tests de paternité ou tests ADN médico-légaux ( chapitre 9 ). Ils forment la base de répétitions de triplets instables dans certains troubles neurologiques (chapitre 2).
Polymorphisme nucléotidique simple (SNP – prononcé SNIP)Ce sont des changements de base simples avec un nucléotide remplacé par un autre. Le projet du génome humain a grandement facilité leur découverte, et le nombre augmente à mesure que de plus en plus de génomes sont séquencés (chapitre 4). Des changements de base simples ont été précédemment trouvés en digérant l'ADN avec des enzymes de restriction et ils ont donc été appelés RFLP (rrestriction Fragoût jelongueur polymorphismes). Aujourd'hui, les SNP sont détectés par séquençage d'ADN ou microarrays. Un terme connexe pour un SNP est le SNV (ssimple mnucléotide vair).
Répétitions d'ADN intercaléesLIGNES=éléments longs intercalés. Occupent environ 15% du génome humain et ont été insérés au hasard dans des eucaryotes au cours de l'évolution, c'est-à-dire qu'ils sont des exemples de rétrotransposons. Peuvent fonctionner comme des polymorphismes selon leur présence ou leur absence dans le génome. Les SINES (courts éléments intercalés) sont dérivés de LINES et représentent environ 10 % du génome humain. Ils sont principalement constitués de répétitions Alu (Alu - du nom de l'enzyme de restriction AluI) et ont une taille d'environ 300 pb [4] .
Variations du nombre de copies (CNV)Ce sont des variantes structurelles résultant de délétions et de duplications dans la gamme Kb à Mb et modifient ainsi le nombre de copies pour cette région du génome. Sur la base de la taille, les CNV contribuent plus que les SNP à la variation du génome. En plus de fonctionner comme des polymorphismes, ils provoquent des maladies génétiques en interférant avec la fonction des gènes ou via des effets de dosage (nombre de copies de gènes). Il y a plus de 58 000 CNV signalés [5] et plus sont susceptibles d'être trouvés.

Graphique 1.6. Polymorphismes de l'ADN utiles en médecine moléculaire (voir aussi Figure 3.2 ).

Polymorphismes de l'ADN sont arbitrairement définis comme des variations dans un segment d'ADN qui se trouvent dans &gt1% de la population. Cette variation peut concerner la taille des fragments ou la séquence d'ADN.

Case de gauche : ■ est un RFLP (polymorphisme de longueur de fragment de restriction) présent en un seul locus, et produisant deux bandes polymorphes (grande et petite) de taille fixe. Le nombre de combinaisons générées par ce polymorphisme bi-allélique est limité à : grand/grand petit/petit et grand/petit. Le RFLP moderne est maintenant appelé SNP (polymorphisme nucléotidique unique) car le changement de base unique dans la séquence nucléotidique (T - C) est recherché directement plutôt que de le détecter par une altération d'un site de reconnaissance pour une enzyme de restriction. Case centrale : sont les bandes polymorphes obtenues pour un minisatellite VNTR (répétition en tandem à nombre variable) à locus unique. Ces polymorphismes sont plus informatifs car il y a une plus grande variabilité entre les tailles présentes pour chacune des deux bandes et donc il y a plus de chance que les individus aient des profils différents. ● La combinaison d'un certain nombre de VNTR à locus unique différents produit un ensemble de marqueurs encore plus caractéristique par individu. Case de droite : ○ représentent les microsatellites. Chacun est un locus distinct produisant un profil différent comme le locus unique VNTR. Cependant, la PCR permet le typage simultané de plusieurs microsatellites donnant un profil d'ADN avec une puissance suffisante pour distinguer des échantillons ou des individus. Bien que les microsatellites aient été préférés pour les applications de recherche, ils sont maintenant remplacés par les polymorphismes nucléotidiques simples (SNP) basés sur la séquence d'ADN, sauf pour le typage médico-légal de l'ADN.

Les microsatellites sont des VNTR à locus unique constitués d'unités nucléotidiques simples répétées en tandem d'environ 2 à 6 paires de bases. Les mieux décrites sont les répétitions dinucléotidiques impliquant des bases telles que l'adénine et la cytosine (AC)m, où n (le nombre de répétitions présentes) peut varier de 10 à 60. Chaque STR identifie un segment unique du génome. Les microsatellites, en raison de leur hypervariabilité potentielle, sont plus informatifs que le système RFLP biallélique, mais moins que les minisatellites. Néanmoins, les microsatellites peuvent être dosés par PCR, et leur valeur ou information est augmentée en mesurant un nombre simultanément et en additionnant les informations obtenues. Des polymorphismes d'ADN plus complexes et donc potentiellement plus informatifs ont été décrits en 1985. Ils sont appelés minisatellites et sont discutés au chapitre 9 .

On pense que les répétitions intercalées sont entrées dans les génomes eucaryotes au cours de l'évolution via l'ARN viral, de même que des exemples de rétrotransposons (tableau 1.5). Ils contribuent à la variabilité du génome via leurs sites d'insertion conduisant à la formation de délétions (et donc à des troubles génétiques si la fonction des gènes est perturbée) ou à la production de points chauds de recombinaison ou conduisant à des changements de nombre de copies dans un gène. L'insertion de ces éléments dans les gènes peut également augmenter la variabilité des protéines, comme le suggère la découverte de nombreux SINES dans les ARNm humains.


Discussion

La première technologie de typage ADN introduite au milieu des années 1980 était RFLP. La méthode RFLP de typage de l'ADN impliquait des unités centrales de séquences constituées de 30 à 100 nucléotides qui sont présents dans de nombreuses répétitions (VNTR). La méthode RLFP de typage de l'ADN nécessite un ADN génomique intact en grande quantité (20 à 30 mg). Cependant, les spécimens biologiques reçus dans un laboratoire de médecine légale sont généralement assaillis par l'environnement et, parfois, seules de petites quantités d'ADN peuvent être obtenues. Par conséquent, dans de nombreuses situations, la méthode RFLP n'a pas pu être appliquée.

La méthode de typage ADN actuellement utilisée est le typage STR. Dans cette méthode, de nombreux loci composés d'unités centrales de nucléotides répétés jusqu'à une longueur de 80 à 400 paires de bases peuvent être co-amplifiés et les résultats peuvent être obtenus le même jour par des analyses automatisées de fragments d'ADN. Cette technologie est plus supérieure que la méthode RFLP car elle nécessite des quantités infimes d'ADN (0,5 à 1 ng) et des échantillons dégradés peuvent également être testés.

L'analyse de l'ADN a contribué à obtenir des condamnations dans des centaines de crimes violents, des homicides aux agressions. Elle a également permis d'éliminer des suspects et a conduit à la disculpation et à la libération de personnes précédemment condamnées. L'ADN peut focaliser les enquêtes et raccourcira probablement les procès et conduira à des plaidoyers de culpabilité. Cela pourrait également dissuader certains contrevenants de commettre des infractions graves. L'utilisation accrue des preuves génétiques médico-légales entraînera des économies à long terme pour le système de justice pénale.

En stockant les données ADN dans des banques de données informatiques, l'analyse ADN peut être utilisée pour résoudre des crimes sans suspects. Les médecins légistes peuvent comparer les profils ADN d'échantillons de preuves biologiques avec une banque de données pour aider la police à détecter les suspects. Une banque de données permettrait également d'éclaircir les infractions antérieures non résolues pour lesquelles des preuves ADN ont été trouvées mais non liées au délinquant, si les échantillons d'ADN prélevés sur un suspect dans le cadre d'une infraction ultérieure correspondent aux preuves trouvées sur les lieux du crime antérieur. . Une banque nationale de données génétiques aiderait également la police à identifier les contrevenants en série à l'intérieur et à travers le pays.

L'analyse médico-légale de l'ADN est effectuée dans le monde entier. Par conséquent, il est impératif de la part des pays en développement, y compris la Malaisie, de développer et de compiler une base de données ADN nationale comprenant l'index de profil ADN de scène de crime ”, l'indice de profil ADN de délinquant condamné ” et un index contenant les profils ADN de corps et parties du corps non identifiés. Cet effort justifiera à son tour des modifications appropriées des lois pénales pour aider les organismes d'application de la loi à identifier les personnes soupçonnées d'avoir commis des infractions graves et violentes et autoriser la collecte d'échantillons pour la base de données de profilage ADN. À ce jour, il existe déjà des données publiées pour 9 STR pour trois groupes de population ethnique de Malaisie (Malais, Chinois et Indiens) (21, 22) et des efforts sont actuellement en cours pour typer des sous-populations de Malais et pour commencer le profilage de 15 STR nouvellement validé. kit dans diverses populations en Malaisie. Une base de données étendue et le profilage ADN des criminels et leur indexation contribueront à accélérer la détection des crimes.


Quelle est la différence entre similitude et identité ?

L'identité est le degré de corrélation entre 2 séquences sans espace et indique que les acides aminés ou les nucléotides à une position particulière correspondent exactement. En général, une identité de 25 % ou plus suggère un potentiel de similitude de fonction, une identité de 18 à 25 % implique une similitude de structure ou de fonction. Il est important de noter que 2 séquences totalement indépendantes ou plus peuvent avoir une identité de 20 % ou plus, ce n'est donc pas une règle absolue. La similarité est le degré de ressemblance entre deux séquences lorsqu'elles sont comparées, et indique que les acides aminés ou les nucléotides à une position particulière ont certaines propriétés en commun (par exemple, la charge ou l'hydrophobie), mais ne sont pas identiques. Un pourcentage élevé de résidus similaires peut également suggérer une fonction ou une structure conservée.


Historique des modifications

Weigel, D. & Mott, R. Le projet 1001 génomes pour Arabidopsis thaliana. Génome Biol. 10, 107 (2009).

Le Consurtium du Projet 1000 Génomes. Une carte de la variation du génome humain à partir du séquençage à l'échelle de la population. La nature 467, 1061–1073 (2010).

Communauté de scientifiques du génome 10K. Génome 10K : une proposition pour obtenir la séquence du génome entier de 10 000 espèces de vertébrés. J. Héréd. 100, 659–674 (2009).

Nagalakshmi, U. et al. Le paysage transcriptionnel du génome de la levure défini par le séquençage d'ARN. Science 320, 1344–1349 (2008).

Mortazavi, A., Williams, B. A., McCue, K., Schaeffer, L. & Wold, B. Cartographie et quantification des transcriptomes de mammifères par RNA-seq. Méthodes naturelles 5, 621–628 (2008).

Lister, R. et al. Cartes de résolution à base unique hautement intégrées de l'épigénome dans Arabidopsis. Cellule 133, 523–536 (2008).

Cloonan, N. et al. Profilage du transcriptome des cellules souches via un séquençage d'ARNm à grande échelle. Méthodes naturelles 5, 613–619 (2008).

Park, P. J. ChIP–seq : avantages et défis d'une technologie en pleine maturation. Nature Rév. Genet. 10, 669–680 (2009).

Schmidt, D. et al. ChIP–seq à cinq vertébrés révèle la dynamique évolutive de la liaison au facteur de transcription. Science 328, 1036–1040 (2010).

Johnson, D. S., Mortazavi, A., Myers, R. M. & Wold, B. Cartographie à l'échelle du génome de in vivo interactions protéine-ADN. Science 316, 1497–1502 (2007).

Garber, M., Grabherr, M. G., Guttman, M. & Trapnell, C. Méthodes de calcul pour l'annotation et la quantification du transcriptome à l'aide de RNA-seq. Méthodes naturelles 8, 469–477 (2011).

Brunner, A.L. et al. Des modèles distincts de méthylation de l'ADN caractérisent les cellules souches embryonnaires humaines différenciées et le foie fœtal humain en développement. Génome Res. 19, 1044–1056 (2009).

Hormozdiari, F., Alkan, C., Eichler, E. E. & Sahinalp, S. C. Algorithmes combinatoires pour la détection des variations structurelles dans les génomes séquencés à haut débit. Génome Res. 19, 1270–1278 (2009).

Meyerson, M., Gabriel, S. & Getz, G. Avancées dans la compréhension des génomes du cancer grâce au séquençage de deuxième génération. Nature Rév. Genet. 11, 685–696 (2010).

Medvedev, P., Stanciu, M. & Brudno, M. Méthodes computationnelles pour découvrir la variation structurelle avec le séquençage de nouvelle génération. Méthodes naturelles 6, S13–S20 (2009).

Langmead, B., Trapnell, C., Pop, M. & Salzberg, S. L. Alignement ultrarapide et efficace en mémoire de courtes séquences d'ADN sur le génome humain. Génome Biol. 10, R25 (2009).

Li, Y., Hu, Y., Bolund, L. & Wang, J. État de l'art de novo assemblage de génomes humains à partir de données de séquençage massivement parallèles. Hum. Génomique 4, 271–277 (2010).

Roberts, A., Pimentel, H., Trapnell, C. & Pachter, L. Identification de nouveaux transcrits dans des génomes annotés à l'aide d'ARN-seq. Bioinformatique 27, 2325–2329 (2011).

Trapnell, C. et al. L'assemblage et la quantification des transcriptions par RNA-seq révèlent des transcriptions non annotées et une commutation d'isoformes au cours de la différenciation cellulaire. Nature Biotech. 28, 511–515 (2010). Cet article décrit l'assemblage de la transcription et l'estimation de l'abondance à partir des données RNA-seq, y compris les corrections statistiques pour les lectures multiples.

Gnerre, S. et al. Projets d'assemblages de haute qualité de génomes de mammifères à partir de données de séquence massivement parallèles. Proc. Natl Acad. Sci. Etats-Unis 108, 1513–1518 (2011). Cet article présente un assembleur de génome NGS très efficace qui intègre plusieurs stratégies efficaces pour gérer les répétitions.

Grabherr, M.G. et al. Assemblage de transcriptome pleine longueur à partir de données RNA-seq sans génome de référence. Nature Biotech. 29, 644–652 (2011).

Lunter, G. & Goodson, M. Stampy : un algorithme statistique pour une cartographie sensible et rapide des lectures de séquences Illumina. Génome Res. 21, 936–939 (2011).

Alkan, C., Coe, B. P. & Eichler, E. E. Découverte et génotypage de la variation structurelle du génome. Nature Rév. Genet. 12, 363–376 (2011).

Schmid, C. W. & Deininger, P. L. Organisation des séquences du génome humain. Cellule 6, 345–358 (1975).

Batzer, M.A. & Deininger, P.L. Alu répétitions et diversité génomique humaine. Nature Rév. Genet. 3, 370–379 (2002).

Jurka, J., Kapitonov, V. V., Kohany, O. & Jurka, M. V. Séquences répétitives dans les génomes complexes : structure et évolution. Annu. Rév. Genomics Hum. Genet. 8, 241–259 (2007).

Britten, R. J. Les insertions d'éléments transposables ont fortement affecté l'évolution humaine. Proc. Natl Acad. Sci. Etats-Unis 107, 19945–19948 (2010).

Hua-Van, A., Le Rouzic, A., Boutin, T. S., Filee, J. & Capy, P. La lutte pour la vie des architectes égoïstes du génome. Biol. Direct 6, 19 (2011).

Kim, P.M. et al. Analyse des variantes du nombre de copies et des duplications segmentaires dans le génome humain : preuve d'un changement dans le processus de formation dans l'histoire de l'évolution récente. Génome Res. 18, 1865–1874 (2008).

Zhang, L., Lu, H. H., Chung, W. Y., Yang, J. & Li, W. H. Modèles de duplication segmentaire dans le génome humain. Mol. Biol. Évol. 22, 135–141 (2005).

Analyse de la séquence du génome de la plante à fleurs Arabidopsis thaliana. La nature 408, 796–815 (2000).

Schnable, P.S. et al. Le génome du maïs B73 : complexité, diversité et dynamique. Science 326, 1112–1115 (2009).

Reichwald, K. et al. Teneur élevée en répétitions en tandem dans le génome du poisson annuel à vie courte Nothobranchius furzeri: un nouveau modèle vertébré pour la recherche sur le vieillissement. Biologie du génome 10, R16 (2009).

Cho, N.H. et al. Les Orientia tsutsugamushi Le génome révèle une prolifération massive du système de sécrétion conjugatif de type IV et des gènes d'interaction hôte-cellule. Proc. Natl Acad. Sci. Etats-Unis 104, 7981–7986 (2007).

Shen, Y. et al. Une méthode de découverte de SNP pour évaluer la probabilité d'allèles variants à partir de données de reséquençage de nouvelle génération. Génome Res. 20, 273–280 (2010).

Mu, X. J., Lu, Z. J., Kong, Y., Lam, H. Y. & Gerstein, M. B. Analyse de la variation génomique des éléments non codants à l'aide des données de séquençage à l'échelle de la population du projet 1000 génomes. Acides nucléiques Res. 39, 7058–7076 (2011).

Gravel, S. et al. Histoire démographique et partage d'allèles rares parmi les populations humaines. Proc. Natl Acad. Sci. Etats-Unis 108, 11983–11988 (2011).

Simola, D. F. & Kim, J. Sniper : amélioration de la découverte de SNP en multipliant la cartographie des lectures séquencées en profondeur. Génome Biol. 12, R55 (2011).

Tucker, B.A. et al. Le séquençage de l'exome et l'analyse des cellules souches pluripotentes induites identifient la kinase associée aux cellules germinales mâles (MAK) du gène lié aux cils comme cause de la rétinite pigmentaire. Proc. Natl Acad. Sci. Etats-Unis 108, E569–E576 (2011). Cette étude montre un exemple frappant de la raison pour laquelle les lectures multiples ne devraient pas être rejetées.

Robinson, J.T. et al. Visionneuse de génomique intégrative. Nature Biotech. 29, 24–26 (2011).

Li, H. et al. Le format Sequence Alignment/Map et SAMtools. Bioinformatique 25, 2078–2079 (2009).

DePristo, M.A. et al. Un cadre pour la découverte de variations et le génotypage à l'aide de données de séquençage d'ADN de nouvelle génération. Genêt nature. 43, 491–498 (2011).

Li, H., Ruan, J. & Durbin, R. Mapping de courtes lectures de séquençage d'ADN et appel de variantes à l'aide de scores de qualité de cartographie. Génome Res. 18, 1851–1858 (2008).

Li, R. et al. Détection de SNP pour le reséquençage massivement parallèle du génome entier. Génome Res. 19, 1124–1132 (2009).

Koboldt, D.C. et al. VarScan : détection de variants dans le séquençage massivement parallèle d'échantillons individuels et groupés. Bioinformatique 25, 2283–2285 (2009).

Hormozdiari, F. et al. VariationHunter de nouvelle génération : algorithmes combinatoires pour la découverte d'insertions de transposons. Bioinformatique 26, i350–i357 (2010). Les auteurs de cet article présentent un logiciel de détection de variation qui recherche explicitement des séquences de transposons répétitives.

He, D., Hormozdiari, F., Furlotte, N. & Eskin, E. Algorithmes efficaces pour la reconstruction de la variation du nombre de copies en tandem dans les régions riches en répétitions. Bioinformatique 27, 1513–1520 (2011).

Ye, L. et al. Une étude de cas de vertébrés sur la qualité des assemblages issus de séquences de nouvelle génération. Génome Biol. 12, R31 (2011).

Schatz, M. C., Delcher, A. L. & Salzberg, S. L. Assemblage de grands génomes par séquençage de deuxième génération. Génome Res. 20, 1165–1173 (2010).

Pop, M. & Salzberg, S. L. Défis bioinformatiques de la nouvelle technologie de séquençage. Tendances Genet. 24, 142–149 (2008).

Phillippy, A. M., Schatz, M. C. & Pop, M. Genome Assembly Forensics : trouver le mauvais assemblage insaisissable. Génome Biol. 9, R55 (2008).

Alkan, C., Sajjadian, S. & Eichler, E. E. Limitations de l'assemblage de séquences génomiques de nouvelle génération. Méthodes naturelles 8, 61–65 (2011). Il s'agit d'une excellente revue qui met en évidence les difficultés que les répétitions posent aux assembleurs NGS.

Read, T.D. et al. Séquençage comparatif du génome pour la découverte de nouveaux polymorphismes dans Bacillus anthracis. Science 296, 2028–2033 (2002).

Rasko, D.A. et al. Bacillus anthracis analyse comparative du génome à l'appui de l'enquête Amerithrax. Proc. Natl Acad. Sci. Etats-Unis 108, 5027–5032 (2011). Cet article fournit une description de la façon dont les scientifiques ont utilisé le séquençage de l'ADN pour découvrir quelques rares variantes de la bactérie responsable de l'anthrax, ce qui a conduit les enquêteurs du Federal Bureau of Investigation (FBI) des États-Unis à la source d'origine de l'anthrax envoyé par la poste lors des attentats de 2001.

Pevzner, P. A., Tang, H. & Waterman, M. S. Une approche de la voie eulérienne pour l'assemblage de fragments d'ADN. Proc. Natl Acad. Sci. Etats-Unis 98, 9748–9753 (2001).

Xu, X. et al. Séquence du génome et analyse de la pomme de terre tuberculée. La nature 475, 189–195 (2011).

Wetzel, J., Kingsford, C. & Pop, M. Évaluation des avantages de l'utilisation de paires de partenaires pour résoudre les répétitions dans les assemblages procaryotes à lecture courte de novo. BMC Bioinformatique 12, 95 (2011).

Trapnell, C., Pachter, L. & Salzberg, S. L. TopHat : découverte de jonctions d'épissage avec RNA-seq. Bioinformatique 25, 1105–1111 (2009).

Wang, K. et al. MapSplice : cartographie précise des lectures d'ARN-seq pour la découverte de jonctions d'épissage. Acides nucléiques Res. 38, e178 (2010).

Lesniewska, A. & Okoniewski, M. J. rnaSeqMap : un package Bioconducteur pour l'exploration de données de séquençage d'ARN. BMC Bioinformatique 12, 200 (2011).

Grant, G.R. et al. Analyse comparative des algorithmes d'alignement RNA-seq et du mappeur unifié RNA-seq (RUM). Bioinformatique 27, 2518–2528 (2011).

Au, K. F., Jiang, H., Lin, L., Xing, Y. & Wong, W. H. Détection des jonctions d'épissage à partir de données RNA-seq appariées par SpliceMap. Acides nucléiques Res. 38, 4570–4578 (2010).

Kim, D. & Salzberg, S. L. TopHat-Fusion : un algorithme pour la découverte de nouveaux transcrits de fusion. Génome Biol. 12, R72 (2011).

Sboner, A. et al. FusionSeq : un cadre modulaire pour trouver des fusions de gènes en analysant les données de séquençage d'ARN appariées. Génome Biol. 11, R104 (2010).

Kinsella, M., Harismendy, O., Nakano, M., Frazer, K. A. & Bafna, V. Détection de fusion de gènes sensibles à l'aide de paires de lecture ARN-seq mappant de manière ambiguë. Bioinformatique 27, 1068–1075 (2011).

Jiang, H. & Wong, W. H. Inférences statistiques pour l'expression des isoformes dans l'ARN-seq. Bioinformatique 25, 1026–1032 (2009).

Chung, D. et al. Découverte des sites de liaison des facteurs de transcription dans les régions hautement répétitives des génomes grâce à l'analyse multi-lecture des données ChIP–seq. Calcul PLoS. Biol. 7, e1002111 (2011).

Li, B., Ruotti, V., Stewart, R. M., Thomson, J. A. & Dewey, C. N. Estimation de l'expression des gènes RNA-seq avec incertitude de mappage de lecture. Bioinformatique 26, 493–500 (2010).

Homer, N., Merriman, B. & Nelson, S. F. BFAST : un outil d'alignement pour le reséquençage du génome à grande échelle. PLoS UN 4, e7767 (2009).

Li, H. & Durbin, R. Alignement rapide et précis en lecture longue avec la transformation de Burrows-Wheeler. Bioinformatique 26, 589–595 (2010).

Alkan, C. et al. Numéro de copie personnalisé et cartes de duplication segmentaire utilisant le séquençage de nouvelle génération. Genêt nature. 41, 1061–1067 (2009).

Li, R. et al. SOAP2 : un outil ultrarapide amélioré pour un alignement de lecture courte. Bioinformatique 25, 1966–1967 (2009).

Miller, J.R. et al. Assemblage agressif de lectures de pyroséquençage avec des partenaires. Bioinformatique 24, 2818–2824 (2008).

Zerbino, D. R. & Birney, E. Velvet : algorithmes pour de novo assemblage à lecture courte utilisant les graphes de de Bruijn. Génome Res. 18, 821–829 (2008).

Zerbino, D. R., McEwen, G. K., Margulies, E. H. & Birney, E. Pebble and rock band: heuristic resolution of repeats and scaffolding in the Velvet short-read de novo assembleur. PLoS UN 4, e8407 (2009).

Robertson, G. et al. De novo assemblage et analyse des données RNA-seq. Méthodes naturelles 7, 909–912 (2010).

Garg, R., Patel, R.K., Tyagi, A.K. & Jain, M. De novo assemblage de transcriptome de pois chiche à l'aide de lectures courtes pour la découverte de gènes et l'identification de marqueurs. ADN Res. 18, 53–63 (2011).


Identification des gènes associés aux répétitions d'ADN chez les procaryotes

En utilisant l'analyse in silico, nous avons étudié une nouvelle famille de séquences d'ADN répétitives qui est présente parmi les deux domaines des procaryotes (archées et bactéries), mais absente des eucaryotes ou des virus. Cette famille est caractérisée par des répétitions directes, variant en taille de 21 à 37 pb, espacées par des séquences non répétitives de taille similaire. Pour apprécier leur structure caractéristique, nous appellerons cette famille les répétitions palindromes courtes régulièrement espacées en cluster (CRISPR). Chez la plupart des espèces avec deux ou plusieurs loci CRISPR, ces loci étaient flanqués d'un côté par une séquence leader commune de 300-500 b. Les répétitions directes et les séquences de tête étaient conservées au sein d'une espèce, mais dissemblables entre les espèces. La présence de plusieurs loci CRISPR chromosomiques suggère que les CRISPR sont des éléments mobiles. Quatre gènes (cas) associés à CRISPR ont été identifiés dans des procaryotes contenant CRISPR qui étaient absents des procaryotes CRISPR-négatifs. Les gènes cas étaient invariablement situés à côté d'un locus CRISPR, ce qui indique que les gènes cas et les loci CRISPR ont une relation fonctionnelle. Le gène cas3 présentait des motifs caractéristiques des hélicases de la superfamille 2, et le gène cas4 présentait des motifs de la famille RecB des exonucléases, suggérant que ces gènes sont impliqués dans le métabolisme de l'ADN ou l'expression des gènes. La cohérence spatiale des gènes CRISPR et cas pourrait stimuler de nouvelles recherches sur la genèse et le rôle biologique de ces répétitions et gènes.


Méthodes

Matériel végétal et extraction d'ADN génomique

Le matériel (Fichier supplémentaire 6) a été fourni par le National Citrus Germplasm Repository à Chongqing, en Chine. Les pointes des racines ont été récoltées à partir de graines germées obtenues à partir de plantes mères à pollinisation libre. Pour augmenter les chances de travailler avec des embryons nucellaires plutôt que zygotiques, cinq pointes de racines de semis de chaque espèce ont été préférentiellement analysées individuellement, et seules celles qui présentaient un caryotype identique dans au moins trois pointes de racines ont été acceptées pour analyse en tant qu'embryons nucellaires [23, 29]. Si le caryotype était répété dans au moins trois plantules, il représentait probablement le caryotype nucellaire et maternel. L'ADN génomique de clémentine a été extrait par le protocole CTAB à partir de jeunes feuilles. Les informations sur le génome de la clémentine étaient accessibles au public sur le site Web https://www.citrusgenomedb.org/species/clementina.

Répétez l'analyse de la composition de C. clémentine

RepeatExplorer, qui possède un algorithme de regroupement de séquences basé sur des graphes, a été utilisé pour identifier les éléments répétitifs de novo et explorer plus en détail leur composition proportionnelle dans le génome de la clémentine [36]. L'analyse de clustering a été réalisée en utilisant un seuil de taille de cluster de 0,005% [35, 36]. Les données de séquençage ont d'abord été prétraitées pour supprimer les lectures de mauvaise qualité à l'aide du « filtre par qualité » (disponible dans RepeatExplorer), puis les lectures non appariées ont été supprimées à l'aide de l'entrelaceur FASTO (également disponible dans Repeat Explorer). À partir des données filtrées, 99 500 lectures (100 495 000 pb) ont été sélectionnées au hasard. Les répétitions ont été identifiées de novo à l'aide d'une méthode de regroupement des lectures basée sur la similarité. Les lectures au sein de groupes individuels ont également été assemblées en contigs représentant des variantes de séquences de répétitions correspondantes. La classification de base des répétitions a été effectuée à l'aide d'une approche combinée comprenant l'examen de la forme du graphique en grappes, des recherches de similarité dans les bases de données d'ADN et de protéines et la détection de sous-répétitions dans des contigs assemblés. Typiquement, les amas avec l'ADN satellite avaient une représentation graphique en forme d'étoile et circulaire. La topologie du graphe de cluster et l'occurrence de sous-répétitions dans les contigs étaient également des critères principaux pour l'identification des répétitions en tandem. Pour classer les monomères satellites putatifs dans les clusters individuels, les contigs assemblés ont été soumis au logiciel Tandem Repeat Finder [52].

Préparation chromosomique, marquage des sondes et FISH

La préparation des chromosomes, le marquage des sondes et les procédures FISH ont suivi les protocoles décrits par Cai et al. [17] avec des modifications mineures. Les racines ont été récoltées et immédiatement exposées au protoxyde d'azote sous une pression d'environ 150 PSI pendant 2 h, fixées dans la solution de Carnoy et de l'éthanol-acide acétique (v/v, 3:1) pendant 2 à 24 h à température ambiante, et conservé à - 20 °C jusqu'à utilisation. Les pointes des racines ont été coupées en une longueur fine après lavage à l'eau distillée pour éliminer la solution de fixation ci-dessus et macérées dans une solution de mélange d'enzymes contenant 3% (w/v) Cellulase et 0,3 % (p/v) de pectolyase à 37 °C pendant 1,5 h. Ensuite, la solution enzymatique a été retirée et une goutte d'eau distillée a été ajoutée pour un traitement hypotonique de 10 min, après quoi l'eau a été retirée et une solution fraîche de Carnoy a été ajoutée. Enfin, les échantillons ont été écrasés sur des lames glacées et séchés à la flamme.

Les sondes d'ADN pour les répétitions satellites et l'ADNr ont été amplifiées par PCR à partir de C. clémentine ADN génomique. Le clonage des répétitions satellites et de l'ADNr a été réalisé à l'aide d'amorces conçues à partir de grappes de répétitions extraites. Les plasmides ont été marqués par une réaction de translation de coupure en utilisant de la biotine-16-dUTP, de la digoxigénine-11-dUTP, de la diéthylaminocoumarine-5-dUTP et du CY5-DUTP. Un oligonucléotide de (TTTAGGG)3 a été marqué à l'extrémité 5' avec de la digoxigénine pour détecter les emplacements de répétition des télomères. Les chromosomes ont été contre-colorés avec du DAPI dans une solution antifade Vectashield.

La procédure FISH successive a été modifiée par rapport à un protocole précédemment publié avec des modifications mineures [17]. Après le premier tour de FISH et de capture d'image, les lames ont été lavées deux fois avec Clearing Agent (SIGMA), un ensemble de tampon PBS (phosphate buffer saline) et une série d'éthanol (70, 95 et 100%), puis fixées dans la solution de Carnoy, éthanol-acide acétique (v/v,3:1) et 4% (w/v) de paraformaldéhyde avant hybridation avec le jeu de sondes.

Analyses de caryotype

La mesure cytologique des chromosomes et l'analyse du caryotype ont suivi la procédure décrite dans les études précédentes [17, 18, 20]. Une caméra CCD Sensys (QIMAGING, RETIGA-SRV, FAST 1394) attachée à un microscope à épifluorescence Olympus BX61 (Tokyo, Japon) a été utilisée pour l'acquisition d'images FISH. Les chromosomes et le statut d'hybridation des sondes utilisées ont été capturés sous différents canaux fluorochromes. Les images de métaphase mitotique ont été superposées, pseudocolorées et fusionnées dans le logiciel Image-Pro plus 6.5 (Media Cybernetics). Les images fusionnées automatiquement ont été mesurées à l'aide du logiciel ImageJ (National Institutes of Health, Wayne Rasband, MD, USA). La taille globale des chromosomes a été estimée en mesurant les longueurs des bras courts et longs des chromosomes, à l'exclusion des satellites et des régions organisatrices nucléolaires. Les chromosomes homologues ont été identifiés sur la base des longueurs des chromosomes, des caractéristiques morphologiques et des signaux FISH d'ADN répétitifs. Les images finales ont été ajustées et les chromosomes ont été organisés par ordre décroissant par le logiciel Adobe Photoshop CS6. Des idéogrammes ont été dessinés sur la base des mesures et des signaux FISH.


Découvertes dans l'ADN : quoi de neuf depuis que tu es au lycée ?

Joel Eissenberg, Ph.D., doyen associé à la recherche et professeur de biochimie et de biologie moléculaire à la faculté de médecine de l'Université de Saint Louis, partage les faits saillants des dernières décennies dans le domaine de la génétique.

Les avancées scientifiques et technologiques des 50 dernières années ont conduit à des progrès extraordinaires dans le domaine de la génétique, le séquençage du génome humain étant à la fois un point culminant et un point de départ pour d'autres percées à venir.

Joel Eissenberg, Ph.D., doyen associé à la recherche et professeur de biochimie et de biologie moléculaire à la faculté de médecine de l'Université Saint Louis

Les progrès de la génétique moléculaire ont propulsé les progrès dans les domaines qui traitent des maladies héréditaires, du cancer, de la médecine personnalisée, du conseil génétique, du microbiome, du diagnostic et de la découverte de virus, de la taxonomie des espèces, de la généalogie, de la médecine légale, de l'épigénétique, de l'ADN indésirable, de la thérapie génique et des gènes édition.

Pour de nombreux non-scientifiques, un récapitulatif peut être de mise. Avec des progrès aussi rapides, le domaine est allé bien au-delà des connaissances couvertes dans de nombreux cours de biologie au fil des ans.

Si vous avez suivi des cours de biologie au années 1960, vous avez probablement entendu parler de l'ADN en tant que matériel génétique et de la structure de la double hélice de l'ADN (publié en 1953 par Watson et Crick). Vous avez peut-être également entendu parler du code génétique, par lequel les séquences d'ADN codent pour les acides aminés (élaboré par Nirenberg, Khorana et leurs collègues en 1961).

Si vous avez suivi des cours de biologie au années 1970, vous avez probablement aussi appris le clonage (élaboré par Herb Boyer, Stanley Cohen et Paul Berg en 1972) et le potentiel de la technologie de l'ADN recombinant pour fournir une thérapie génique, créer de nouveaux médicaments et améliorer l'agriculture.

Si vous avez suivi des cours de biologie au secondaire dans le années 1980, vous avez peut-être entendu parler de l'utilisation clinique de l'insuline humaine recombinante pour le traitement du diabète (approuvée pour les produits Eli Lilly aux États-Unis par la FDA en 1982). En agriculture, l'utilisation d'Agrobacterium tumefacians en tant que système d'administration à médiation bactérienne pour transférer l'ADN recombinant aux cultures (développé par Mary-Dell Chilton et ses collègues dans les années 1970) a marqué l'avènement des aliments OGM et d'autres produits végétaux commerciaux.

Image reproduite avec l'aimable autorisation des National Institutes of Health, adaptée par Ellen Hutti.

Si vous avez suivi des cours de biologie au années 90, vous avez probablement appris la base moléculaire des troubles génétiques humains tels que la fibrose kystique (1989), Huntingtons (1993), la dystrophie musculaire de Duchenne et Becker (1987), et une liste rapidement croissante de troubles monogéniques, et la croissance rapide correspondante en technologie de diagnostic clinique basée sur des informations sur les séquences d'ADN, permettant un diagnostic certain, parfois avant l'apparition de symptômes manifestes.

Si vous avez suivi des cours de biologie au '00s, vous avez probablement entendu parler de l'achèvement de la séquence du génome humain. L'achèvement d'un « brouillon » a été annoncé par le président Bill Clinton et le Premier ministre britannique Tony Blair en 2000, bien qu'une séquence plus ou moins complète n'ait été finalisée qu'en 2006. Vous avez peut-être également appris que cette réalisation annonçait l'arrivée de l'ère de la médecine personnalisée.

La grande percée dans le décodage du génome humain a été l'invention de la technologie pour obtenir de grandes quantités de séquence d'ADN, qui a commencé dans les années 1970 avec les travaux de Ray Wu, Walter Gilbert, Fred Sanger et leurs collègues pour établir les stratégies de base pour obtenir une séquence continue. informations pour les chaînes d'ADN. Cela comprenait les progrès de la technologie de l'ADN recombinant - par exemple, la création de chromosomes artificiels recombinants - combinés à un séquençage semi-automatisé (inventé dans le laboratoire Leroy Hood en 1986) et plus tard automatisé. Aujourd'hui, l'objectif d'obtenir la séquence complète d'un génome individuel pour 1 000 $ est presque à portée de main.

Bien qu'il ne s'agisse pas de biologie, il faut reconnaître que le projet de séquençage du génome humain a également nécessité des progrès parallèles en termes de vitesse et de stockage des ordinateurs pour acquérir, stocker et manipuler des milliards de nucléotides de séquence d'ADN. L'assemblage et l'analyse de génomes de cellules tumorales humaines, dont beaucoup contiennent des délétions, des duplications et des insertions chromosomiques, ainsi que des modifications de nucléotides uniques, nécessitent une immense capacité de stockage de données et un calcul à grande vitesse.

L'invention de la technologie de réaction en chaîne par polymérase (PCR) par Kary Mullis et ses collègues en 1985 a transformé la génétique moléculaire. Cela a eu une application immédiate pour les diagnostics ADN, car une fois qu'un gène impliqué dans une maladie héréditaire a été identifié et séquencé dans sa forme normale, la PCR pourrait être utilisée pour amplifier les séquences correspondantes de l'ADN du patient en quelques heures, avec séquençage de la PCR produits pour identifier la mutation moléculaire exacte en quelques jours à l'époque, et aujourd'hui en quelques heures. La PCR a également été appliquée à l'identification d'agents pathogènes émergents.

Les découvertes faites par les scientifiques au cours de ces décennies ont conduit à des avancées dans de nombreux domaines différents. Explorez les sujets suivants pour en savoir plus sur la façon dont les percées en génétique moléculaire sont appliquées dans le monde.

Jusqu'à présent, l'impact de la génétique moléculaire sur les maladies humaines a été principalement d'identifier spécifiquement les gènes impliqués dans des maladies spécifiques. Pour les troubles monogéniques, des mutations ont été découvertes dans des centaines de gènes. Le défi actuel est d'identifier les gènes qui contribuent aux maladies multifactorielles comme l'obésité, les maladies cardiaques, la dépendance à l'alcool, la schizophrénie et l'autisme. Jusqu'à présent, des « études d'association à l'échelle du génome » ont identifié des séquences d'ADN variantes montrant une association statistique avec ces maladies et d'autres maladies complexes, mais la démonstration d'un rôle mécaniste pour ces variantes s'est avérée insaisissable.

Le séquençage rapide et peu coûteux du génome, associé à une informatique à grande vitesse et à une base de données importante et en expansion de variantes de séquences d'ADN humaines annotées associées au risque de maladie, a rendu possible une médecine personnalisée et un conseil génétique personnalisé. Dans un cas particulièrement célèbre, l'actrice Angelina Jolie a choisi de subir une double mastectomie et l'ablation chirurgicale de ses ovaires et trompes de Fallope lorsqu'elle a appris qu'elle était porteuse d'une mutation du gène BRCA1 qui prédisait un risque de cancer du sein de 87 pour cent et un risque de 50 pour cent de cancer du sein. cancer des ovaires. Malheureusement, pour la grande majorité des associations génétiques de cancer, l'élimination des tissus non essentiels n'est pas une option. Cependant, la connaissance préalable d'un risque accru peut entraîner une surveillance accrue, et le cancer est plus curable lorsqu'il est détecté tôt. Par exemple, les personnes à risque accru de cancer colorectal héréditaire sans polypose devraient subir des coloscopies fréquentes pour identifier et éliminer les polypes précancéreux du côlon avant qu'ils ne se transforment en cancer du côlon à part entière. Depuis que 23andMe a commencé à proposer une commercialisation directe du séquençage génomique auprès des consommateurs, plus d'une douzaine d'entreprises proposent désormais diverses formes de séquençage et d'analyse du génome.

Un intestin sain contient environ 10 fois plus de micro-organismes que le nombre de cellules dans l'ensemble du corps. L'activité métabolique de ces micro-organismes peut avoir un impact significatif sur la santé.Par exemple, leur activité métabolique est une source importante de biotine (vitamine B7), et la composition de la microflore intestinale peut façonner la réponse immunitaire, entraînant une sensibilité ou une résistance aux allergies et à l'auto-immunité. La disponibilité d'un grand nombre de génomes microbiens complets et la technologie de séquençage d'ADN à haut volume ont permis le génotypage des microbiomes intestinaux dans différentes conditions alimentaires et sanitaires, conduisant à une nouvelle compréhension détaillée des différences entre la microflore intestinale saine et malsaine. Des services de séquençage de la microflore intestinale directement destinés aux consommateurs sont actuellement disponibles, bien que les avantages de ces connaissances pour les personnes par ailleurs en bonne santé soient actuellement limités.

La plupart des étudiants en biologie du secondaire apprennent quelques notions de taxonomie animale et végétale de base. Le fondement de la taxonomie classique est la morphologie. Avec la disponibilité de séquences génomiques d'espèces représentatives dans des phylums entiers, des mesures quantitatives rigoureuses de la distance génétique basées sur la divergence des séquences d'ADN ont été utilisées pour tester les arbres évolutifs existants et pour reclasser les organismes dans tous les règnes. Par exemple, des comparaisons de séquences d'ADN taxonomiques à grande échelle ont établi des arbres de relations et des distances taxonomiques plus rigoureux pour la grande et diversifiée classe Aves (oiseaux) et le phylum Arthropoda.

Le séquençage du génome humain fournit des informations généalogiques beaucoup plus détaillées et spécifiques. Plusieurs services commerciaux fourniront des informations sur l'ascendance probable sur la base de combinaisons de variantes de séquences d'ADN connues pour être rares ou répandues parmi les personnes originaires de différentes régions du monde. Cependant, il convient de noter qu'un résultat parfois indésirable des séquences génomiques à des fins généalogiques ou généalogiques est la découverte de la non-paternité. Bien que les taux varient considérablement entre les différentes populations, ils ont varié entre 2 et 30 pour cent dans des études spécifiques.

La science médico-légale se tourne de plus en plus vers le séquençage de l'ADN pour impliquer ou disculper les coupables potentiels et pour identifier les restes. Dans de tels cas, il suffit généralement de séquencer uniquement un sous-ensemble d'ADN génomique représentant des régions qui se révèlent être les plus variables parmi les individus. Cette approche évite le coût beaucoup plus élevé du séquençage et de la gestion des données pour le séquençage du génome entier, tout en offrant une spécificité suffisante à des fins médico-légales.

Les étudiants en biologie du secondaire apprennent les lois de Mendel sur l'héritage génétique. La première loi stipule qu'un trait génétique est transmis d'une génération à l'autre sans modification, même lorsqu'il est récessif et non évident chez les porteurs. L'idée qu'un trait génétique puisse être modifié par l'expérience de vie de son porteur est une violation de cette loi et est généralement rejetée comme un sophisme lamarckien dans les classes de lycée.

Les biochimistes savent que l'ADN humain (ainsi que l'ADN de nombreux microbes, plantes et animaux) contient d'autres bases que l'adénine, la cytosine, la guanine et la thymine canoniques (ACGT). Dans les chromosomes humains, 3 à 5 pour cent des bases de cytosine sont en fait une forme modifiée de cytosine appelée 5-méthyl cytosine. Cette modification est généralement associée à la répression des gènes chez l'homme. Il est important de noter que l'étendue des modifications peut différer au niveau du même gène dans le sperme et l'ovule, de sorte que l'expression de la copie de papa sera différente de celle de la copie de maman chez l'enfant qui les hérite. Ce phénomène est appelé « empreinte ». L'empreinte parentale est importante pour la santé génétique, car l'échec de cette empreinte sous-tend des syndromes tels que les syndromes de Prader-Willi, Angelmans, Beckwith-Weidemann et Silver-Russell.

La transmission de différents états d'expression génique à travers de multiples divisions cellulaires et à travers les générations a été qualifiée d'« épigénétique », car la séquence d'ADN sous-jacente est identique dans les deux états. Alors que les quatre bases de l'ADN – l'adénine, la cytosine, la guanine et la thymine – ne peuvent pas être altérées par les expériences de vie d'un parent, les scientifiques ont découvert qu'une forme de l'une des paires de bases, la cytosine, peut être exprimée sous différentes formes en raison de l'environnement les facteurs. Des techniques ont été développées au cours de la dernière décennie pour permettre l'« épigénomique », la caractérisation à l'échelle du génome des modèles de méthylation. L'épigénomique est actuellement utilisée pour identifier une prédisposition héréditaire à l'obésité, au diabète, aux maladies cardiovasculaires, à la toxicomanie et aux troubles psychiatriques, ainsi que des marqueurs du vieillissement et de la progression du cancer.

Des médicaments qui inhibent ou stabilisent les marques épigénétiques sont utilisés en clinique pour le cancer et sont testés pour d'autres indications comme la drépanocytose.

Depuis plus de 50 ans, on sait que parmi les animaux et les plantes multicellulaires, la taille des génomes peut varier sur des ordres de grandeur qui ne s'expliquent pas par la complexité apparente des organismes spécifiés par ces génomes. Avec la disponibilité du séquençage du génome entier, il est devenu évident que, par exemple, le nombre de gènes chez l'homme n'est pas beaucoup plus grand que celui de la mouche des fruits. Une grande partie de notre génome se compose de séquences d'ADN répétitives, d'éléments transposables et de reliques non fonctionnelles de gènes et de transposons sans fonction discernable. Cet ADN a été appelé « ADN indésirable » pour exprimer ce manque apparent de fonction.

Au cours des 15 dernières années, cependant, une analyse détaillée des régions d'ADN transcrites en copies d'ARN a permis de découvrir une quantité importante d'ARN non codants pour les protéines qui remplissent des fonctions de régulation. Il a été démontré que les microARN ciblent des ARN codant pour des protéines spécifiques pour la destruction ou l'inhibition de la synthèse des protéines. D'autres ARN, appelés ARN longs non codants, semblent également réguler l'expression des ARN codant pour des protéines, mais les mécanismes sont à l'étude. Cela dit, cela laisse encore une majorité de notre génome sans fonction apparente. Il semble probable que les mécanismes par lesquels l'ADN s'accumule dans les génomes par saut de transposon et duplications de génomes ne soient pas équilibrés avec un taux similaire d'élimination des séquences, et que la charge de cet ADN non purgé a peu ou pas de coût évolutif.

Un objectif majeur du séquençage génique a toujours été de servir de plate-forme pour la conception et la mise en œuvre de la thérapie génique. La première thérapie génique était la greffe de moelle osseuse pour le traitement de la leucémie et d'autres cancers du sang. La première greffe de moelle osseuse humaine a été réalisée en 1956 par E. Donnall Thomas. Dans ces thérapies, les propres cellules de moelle osseuse productrices de sang du patient sont traitées par radiothérapie et chimiothérapie, et le sang d'un donneur jumeau ou d'un donneur étroitement apparié est instillé. L'idée est que l'ablation détruira tout vestige du cancer ainsi que les cellules souches hématopoïétiques saines, et que les cellules souches sanguines du donneur peupleront la moelle du patient et régénéreront l'ensemble du répertoire de globules rouges et blancs à partir de cellules saines. En effet, il s'agit d'une thérapie génique, puisque les gènes du donneur remplacent les gènes des patients dans les lignées de cellules sanguines.

Les thérapies géniques ciblées, cependant, ont dû attendre (1) l'identification des gènes à cibler, (2) le clonage et/ou le séquençage des gènes concernés et, dans certains cas, la variante spécifique à l'origine de la maladie, (3) une une compréhension complète de la fonction et de la régulation normales des gènes, et (4) le développement de moyens efficaces pour délivrer des gènes aux tissus pertinents à des niveaux thérapeutiques. L'avènement du clonage moléculaire, du séquençage de l'ADN et des nombreux outils de la génétique moléculaire et de la biologie cellulaire nous ont donné une connaissance suffisante de la base de la maladie et des gènes à cibler, mais ce qui a limité l'application de la thérapie génique, ce sont des systèmes de délivrance de gènes efficaces.

Les scientifiques ont réalisé que les virus pourraient être l'outil parfait pour effectuer le travail d'édition de gènes. Ils sont déjà conçus par nature pour s'insérer dans notre ADN. La première thérapie génique humaine ciblée réussie a été signalée en 2000. Il s'agissait d'un gène thérapeutique à médiation virale pour traiter l'immunodéficience combinée sévère liée à l'X. Le paquet a été empilé en faveur du succès dans le choix de cette maladie particulière puisqu'il était connu que le gène thérapeutique devait juste être exprimé dans un nombre modeste de cellules sanguines pour obtenir un bénéfice thérapeutique. Le gène thérapeutique était porté par un rétrovirus modifié qui a été utilisé pour infecter les cellules sanguines du patient avant qu'elles ne soient réinjectées au patient.

Jusqu'à présent, les succès de la thérapie génique ciblée ont été très limités. D'autres troubles sanguins qui ont montré un bénéfice significatif de la thérapie génique ciblée dans de petits essais incluent l'hémophilie (en particulier, le déficit en facteur IX), la bêta-thalassémie sévère (déficit pour le gène de la bêta-globine adulte) et la leucémie, où les cellules immunitaires du patient ont été traitées pour leur permettre de reconnaître les cellules cancéreuses et de les détruire. La thérapie génique ciblée pour la cécité dégénérative causée par l'amaurose congénitale de Leber a amélioré la vision pendant quelques années, mais n'a pas réussi à arrêter le processus de dégénérescence.

La première thérapie génique commerciale ciblée approuvée est l'Alipogène tiparovovec (nom commercial Glybera), une administration thérapeutique à médiation virale de lipoprotéine lipase humaine aux cellules musculaires de patients présentant un déficit en lipoprotéine lipase. Il a été approuvé pour une utilisation clinique en Europe en 2012.

Pour de nombreux troubles génétiques, la maladie résulte de l'expression d'un produit génique défectueux, et non de l'absence totale du produit. Par exemple, la drépanocytose et la principale forme de mucoviscidose sont toutes deux associées à des protéines anormales. Dans de tels cas, la modification du gène d'un patient sous sa forme normale devrait être plus bénéfique que la simple expression de la protéine normale en présence de la protéine anormale.

Pour que l'édition de gènes fonctionne, il est essentiel de cibler de manière unique un site unique parmi les 3 milliards de nucléotides du génome humain haploïde (ensemble unique de chromosomes non appariés). En d'autres termes, la thérapie d'édition génique thérapeutique doit être capable d'éditer efficacement la cible visée sans introduire d'édition hors cible sur des sites qui ressemblent fortuitement à la cible visée.

Deux stratégies de ciblage sont actuellement en cours de développement : le ciblage basé sur les protéines et le ciblage basé sur l'ARN. Dans les deux cas, l'idée est de cibler une enzyme qui coupe les deux brins de la double hélice en un site précis. Si l'objectif est d'inactiver le gène cible, la création de la cassure est suffisante pour déclencher des mécanismes cellulaires qui conduisent à une réparation sujette aux erreurs et à des mutations inactivantes. La véritable édition - le remplacement d'une mauvaise séquence par une bonne séquence - nécessite l'introduction simultanée de fragments d'ADN contenant une bonne séquence dans les mêmes cellules.

Les stratégies de ciblage basées sur les protéines reposent sur des protéines modulaires conçues sur mesure qui reconnaissent et se lient à des séquences d'ADN spécifiques. Une approche s'appuie sur ce que l'on appelle le repliement de la protéine à doigt de zinc décrit pour la première fois dans les facteurs de transcription spécifiques à la séquence. La société de biotechnologie cotée en bourse Sangamo BioSciences a été fondée en 1995 pour exploiter l'ingénierie des protéines à doigts de zinc pour la thérapie génique et l'ingénierie génétique agricole. Dans cette approche, une série de modules à doigts de zinc, chacun choisi pour reconnaître un motif à 3 nucléotides spécifique, sont fusionnés en tandem les uns avec les autres et avec une sous-unité de nucléase.

Une autre stratégie de ciblage à base de protéines, TALENs, est basée sur l'effecteur de type activateur de transcription (protéines sécrétées par la bactérie Xanthomonas). Dans ce cas, des modules répétés de 33 à 34 acides aminés avec une spécificité pour chacune des quatre bases de l'ADN sont fusionnés en tandem pour créer le peptide de ciblage.

Plus récemment, le mécanisme d'immunité procaryote des répétitions palindromes courtes régulièrement espacées (CRISPR) a été exploité pour l'édition de gènes. Dans ce cas, des séquences d'ADN spécifiques sont ciblées par l'hybridation ARN-ADN, qui dirige l'enzyme Cas9 pour cliver l'ADN sur le site cible. Ce mécanisme n'a été mis au point qu'en 2007, mais s'est déjà imposé comme la technologie de pointe pour l'édition de gènes, en raison de sa relative simplicité et de sa grande efficacité. Dans les cellules humaines, l'efficacité de l'édition au doigt de zinc et à l'aide de TALE atteint des efficacités de 1 à 50 %, tandis que l'édition CRISPR-Cas9 a été signalée comme ayant une efficacité allant jusqu'à 78 % dans les embryons de souris unicellulaires. Les applications cliniques passionnantes de l'édition de gènes comprennent la correction de la mutation dans les cellules souches de la moelle osseuse des patients atteints de drépanocytose ou d'hémophilie.

L'une des applications les plus exotiques du génie génétique à proposer est la résurrection des mammouths laineux. Un projet en cours à l'Université de Harvard, sous la direction du généticien Dr. George Church, cherche à modifier le génome de l'éléphant pour créer une chimère ressemblant à un mammouth résistante au froid à l'aide de la technologie CRISPR/Cas9. Cette stratégie est rendue possible par le séquençage complet des génomes des mammouths et des éléphants, et basée sur des annotations génétiques qui suggèrent les gènes cibles les plus susceptibles de programmer les adaptations des mammouths au froid extrême dans l'ADN des éléphants. L'objectif affiché est de repeupler la toundra et la forêt boréale en Eurasie et en Amérique du Nord, de protéger les éléphants d'Asie en voie de disparition et de faire revivre une ancienne prairie de la toundra, dans l'espoir de prévenir la fonte du pergélisol sibérien.


Possibilités d'accès

Obtenez un accès complet au journal pendant 1 an

Tous les prix sont des prix NET.
La TVA sera ajoutée plus tard dans la caisse.
Le calcul des taxes sera finalisé lors du paiement.

Obtenez un accès limité ou complet aux articles sur ReadCube.

Tous les prix sont des prix NET.


Génétique actuelle

L'ADN eucaryote et aussi humain contient une grande partie de séquences non codantes. Comme pour l'ADN codant, l'ADN non codant peut être unique ou en copies plus identiques ou similaires. Les séquences d'ADN avec un nombre élevé de copies sont alors appelées séquences répétitives. Si les copies d'un motif de séquence sont adjacentes les unes aux autres dans un bloc ou un tableau, nous parlons de répétitions en tandem, les séquences répétitives dispersées dans tout le génome en tant qu'unités uniques flanquées d'une séquence unique sont des répétitions intercalées.

La nature des répétitions intercalées - éléments transposables

La plupart des répétitions intercalées proviennent d'un processus de transposition, qui consiste à « sauter » d'un segment d'ADN à un autre endroit du génome. Il existe essentiellement deux types d'éléments d'ADN transposables, ou transposons : les transposons d'ADN et les rétrotransposons. Les principales classes de répétitions intercalées avec capacité de transposition sont représentées sur la fig. 1.

Transposons d'ADN

Les transposons d'ADN sont considérés comme inactifs dans le génome humain en raison de l'accumulation de mutations au cours de la phylogenèse des vertébrés, nous ne pouvons donc trouver que leurs anciens restes ou "fossiles". Cependant, le transposon actif dérivé des éléments fossiles humains peut être modifié avec les informations recueillies à partir des génomes humains et autres vertébrés. Un exemple est le transposon de la Belle au bois dormant, qui est un composant prometteur de la thérapie génique de nouvelle génération, en raison de son site d'intégration plus spécifique (que celui observé par exemple pour les rétrovirus). Comment fonctionne un transposon d'ADN typique ? Le noyau de l'élément transposable code pour une enzyme transposase. Cette enzyme se lie aux extrémités de l'élément. Les extrémités du transposon sont formées de répétitions inversées, qui peuvent donc échanger des brins d'ADN et stabiliser la structure tige-boucle nécessaire à l'action de la transposase. La transposase coupe ensuite le transposon et ligature les extrémités d'ADN chromosomique libres résultantes. [Un mécanisme presque identique est utilisé pendant la maturation des gènes d'immunoglobuline (recombinaison V-D-J) et de TCR (récepteur des cellules T) pour l'excision des séquences intermédiaires. Il est intéressant de noter que l'enzyme qui catalyse cette réaction (constituée de deux composants RAG1 et RAG2) a probablement évolué à partir d'une transposase.] Le complexe libre transposon-transposase se lie à un motif de séquence spécifique ailleurs dans le génome, la transposase clive l'ADN de l'hôte et ligature le transposon dans le nouveau lieu. Ainsi, le transposon se déplace par un mécanisme de copier-coller et le nombre de copies reste stable.

Rétrotransposons

Les rétrotransposons sont les éléments transposables les plus importants du génome humain. Premièrement, ils sont beaucoup plus abondants, formant directement au moins 45% du génome humain (les estimations varient, mais la plupart des chercheurs pensent qu'il doit l'être encore plus, puisque d'anciens rétrotransposons qui ont été inactivés, ont divergé par mutation au point où ils ne sont pas identifiables). Deuxièmement, les rétrotransposons sont toujours actifs dans le génome humain.

Pour sauter, ils ont besoin d'ARN polymérases cellulaires (II ou III) par lesquelles ils sont transcrits en ARN, tandis que la copie d'ADN d'origine est conservée au même endroit. La copie d'ARN est rétro-transcrite en ADN, et l'ADN est inséré dans le génome à un nouvel emplacement. Ainsi, ces éléments se multiplient par un mécanisme de duplication (copier-coller). Comme décrit pour le rétrotransposon L1, le processus de rétrotransposition est sujet à diverses erreurs, de sorte que les nouvelles copies d'un rétrotransposon seraient largement inactivées, en raison d'une troncature ou d'une mutation ponctuelle. Comme la plupart des copies de transposons sont inactives, l'expansion future de la famille des rétrotransposons est régie par les quelques éléments actifs de pleine longueur. Cependant, même si tous les éléments actifs étaient perdus plus tard au cours de l'évolution, le génome pourrait être littéralement envahi par les membres fossiles de la famille des séquences.

Les rétrotransposons peuvent en outre être classés comme autonomes et non autonomes. Les rétrotransposons autonomes codent pour les protéines nécessaires à leur transposition, bien qu'ils dépendent également des ARN polymérases de l'hôte et des enzymes de réparation de l'ADN pour un saut réussi. Les rétrotransposons non autonomes ne codent pour aucune protéine et doivent détourner d'autres enzymes du transposon pour pouvoir être transposés.

Rétrotransposons LTR - Rétrovirus endogènes

Les rétrovirus endogènes, également appelés rétrotransposons LTR, ressemblent aux provirus des vrais rétrovirus dans la composition - ils contiennent des répétitions terminales longues (LTR), des gènes gag, pol, env et prt, mais au moins une des protéines nécessaires à l'assemblage de particules virales infectieuses est muté ou manquant - env ​​en particulier. Ainsi, les rétrovirus endogènes ne peuvent se déplacer qu'à l'intérieur des cellules, sinon leur cycle de vie est similaire à celui des rétrovirus infectieux, par ex. virus VIH. Bien que les rétrovirus endogènes soient actifs chez de nombreux mammifères, dont le chimpanzé, l'homme ne contient actuellement que des fossiles (mutés et incapables de transposition), qui remplissent environ 8 % du génome. Les rétrovirus endogènes complets ont généralement une longueur de 7 à 9 kb, mais comme dans le cas de L1 (voir ci-dessous), beaucoup sont tronqués, en particulier à l'extrémité 5'. Fréquemment, nous ne pouvons trouver que des LTR autonomes, à la suite d'une insertion rétrovirale et d'une recombinaison intrachromosomique ultérieure entre les LTR ou d'une recombinaison inégale des chromosomes homologues, conduisant à la délétion de la partie codante du rétrovirus (fig. 5).

Rétrotransposons non LTR

Les LINEs (long interspersed Nuclear Elements) sont des rétrotransposons autonomes. Ils représentent environ 21 % du génome humain. Les éléments actifs appartiennent à la famille LINE-1 ou L-1 la plus abondante, qui constitue à elle seule 17 % du génome. Sur environ un demi-million de L1 dans notre génome, près de 10 000 sont de pleine longueur et environ 100 sont encore capables de rétrotransposition. L'élément L1 actif a une longueur d'environ 6 ko et contient deux cadres de lecture ouverts, ORF1 et ORF2. 5 UTR (région non traduite) fonctionne également comme un promoteur, 3 UTR contient un signal polyA.La fonction d'ORF1 n'est pas claire, il est seulement connu pour se lier à l'ARNm L1, ORF2 contient la transcriptase inverse et le domaine endonucléase et est l'enzyme responsable de l'intégration. Le cycle de vie de L1 commence par la transcription de l'ADN de L1 par l'ARN polymérase II cellulaire et la maturation standard en molécule d'ARNm. L'ARNm L1 est transporté dans le cytoplasme et ORF1 traduit. Ensuite, la traduction est réinitialisée sur un site d'entrée ribosomique interne (IRES) pour traduire ORF2 (processus non canonique et inefficace chez les eucaryotes, de sorte que seule une partie des ARNm L1 obtient leur protéine ORF2). Les deux protéines se lient immédiatement à l'ARNm L1. Ce complexe protéine-ARNm est transporté dans le noyau. ORF2 coupe l'ADN chromosomique au niveau du site cible (le site cible n'est pas absolument spécifique comme c'est le cas pour les endonucléases de restriction, mais il existe une certaine préférence pour les séquences riches en AT, le site de clivage est approximativement TT/AAAA). La coupe d'ADN est inégale (créant des extrémités collantes). Groupe 3 OH libre d'un côté, la molécule d'ADN clivée est utilisée par la transcriptase inverse d'ORF2 pour amorcer la synthèse du premier brin d'ADNc (transcription inverse amorcée par la cible). Le mécanisme détaillé de la synthèse du second brin d'ADNc est encore sujet à discussion, mais le processus se termine par une intégration stable de l'ADN L1 double brin à un nouvel endroit dans le génome. En raison de la rupture échelonnée de l'ADN réalisée par l'endonucléase du transposon, l'élément L1 intégré est flanqué d'une duplication du site cible de 7 à 20 pb (fig. 2). La transcriptase inverse est souvent incapable de terminer la synthèse du premier brin, ce qui entraîne la troncature 5 de la copie nouvellement formée (Fig. 3A). La transcriptase inverse manque également d'activité de relecture (endonucléase 3 à 5), introduisant souvent une mutation dans la nouvelle copie. Fait intéressant, l'ARNm L1 est exprimé principalement dans les spermatocytes méiotiques et post-méiotiques, augmentant ainsi le potentiel de L1 pour l'expansion des copies (les copies introduites dans la lignée germinale peuvent être héritées, par opposition aux événements de transposition somatique).

Rétrotransposons non autonomes - SINE

Les éléments nucléaires intercalés courts SINE ont généralement moins de 500 pb de long et n'ont aucun potentiel de codage de protéine. La principale famille SINE chez l'homme est formée d'éléments Alu (le nom est dérivé de leur découverte basée sur une paire de sites de restriction AluI conservés). Les plus d'un million d'éléments Alu dans le génome humain représentent environ 11% de sa masse.

Les éléments Alu partagent un consensus de 282 pb, qui est lié à, et a probablement été dérivé de la sous-unité d'ARN SRP (particule de reconnaissance de signal) (appelée ARN 7SL). La SRP est un complexe ribonucléo-protéique qui reconnaît le peptide signal, s'y lie et transloque le complexe ribosome-ARNm-peptide naissant vers le canal du réticulum endoplasmique (RE), à travers lequel la protéine naissante est transloquée dans la lumière du RE ou intégrée dans la membrane . Les alus sont, comme le gène de l'ARN 7SL, transcrits par l'ARN polymérase III. L'ARN Alu peut se lier à deux protéines SRP (9 et 14). Vraisemblablement, Alu peut ainsi se lier aux ribosomes et par sa queue polyA, il peut se lier (si le ribosome se trouve à traduire l'ARNm LINE-1) la protéine ORF2 naissante, et forcer la protéine ORF2 à transcrire et à intégrer son ARN et non la LINE-1 ARNm (fig. 4).

Fonction des éléments transposables

Du point de vue immédiat, les transposons n'ont pas de fonction nécessaire dans la cellule - appelée « ADN indésirable » ou « ADN égoïste », car les transposons se propagent au nom des ressources cellulaires. À plus grande échelle, la motilité des éléments rétrotransposables peut être important pour la plasticité du génome. L'insertion occasionnelle dans les gènes peut perturber la fonction du gène et provoquer une maladie héréditaire (Fig. 3C). Les éléments LTR et LINE peuvent également modifier l'expression des gènes, s'ils sont insérés à proximité d'un gène, car les LTR et LINE 5 UTR ont une forte l'activité du promoteur dans les deux sens (Fig. 3F).

Étant donné que le rétrotransposon LINE-1 a un signal de polyadénylation relativement faible, il arrive que l'ARN polymérase II le traverse, attachant la séquence d'ADN flanquante à l'ARNm L1, qui est ensuite rétrotranscrit et déplacé dans une nouvelle position. Ainsi, LINE-1 peut être un vecteur de brassage d'ADN. Comme les copies rétrotransposées de L1 sont souvent tronquées en 5, l'ADN mobilisé peut se déplacer vers une nouvelle position même sans aucune séquence du vecteur L1. Cela pourrait être important pour le brassage de fragments d'ADN plus petits - comme pour l'échange d'exons entre les gènes (Fig. 3D).

La rétrotransposition L1 peut même conduire à des délétions et des inversions, comme illustré sur la fig. 3E.

Très rarement, un ARNm cellulaire est soumis à une transcription inverse et à une transposition par une enzyme de L1 ou d'autres rétrotransposons. Dans ce cas, le gène est dupliqué. La nouvelle copie est appelée pseudogène traité, car elle est dérivée d'un ARNm traité dépourvu d'introns et n'est généralement pas fonctionnelle en raison d'un promoteur manquant (Fig. 3B). Rarement un pseudogène traité peut adopter une fonction sous pression sélective. Un exemple bien connu est le gène de la pyruvate déshydrogénase, sous-unité E1alpha. Ce gène (PDHA1) se trouve sur le chromosome X chez les mammifères eutheriens. Mais l'expression de nombreux gènes résidant sur le chromosome X est interrompue au cours de la spermatogenèse, y compris PDHA1, bien qu'elle soit essentielle au fonctionnement de toutes les cellules. Cette fonction manquante a apparemment été sauvée par la rétrotransposition - il existe un gène étroitement apparenté PDHA2 sur le chromosome 4 - et ce gène est sans intron - une caractéristique typique des pseudogènes transformés. Les gènes domestiques hautement exprimés ont bien sûr une probabilité plus élevée de rétrotransposition. Nous trouvons ainsi de nombreux pseudogènes transformés pour les protéines ribosomiques, les enzymes glycolytiques, la bêta-actine, etc. Les pseudogènes transformés ne doivent pas être confondus avec des pseudogènes « ordinaires », qui sont issus de duplications d'ADN génomique (par exemple, des pseudogènes dans le cluster d'hémoglobine) et conservent donc le gène d'origine. structure (exons, introns, promoteur, . bien qu'avec une fonction altérée). Plusieurs gènes directement dérivés d'un rétrotransposon ont été découverts. Le dernier ajout est le gène Peg10 (exprimé paternellement 10) est dérivé d'un rétrotransposon LTR de la famille Ty3/gypsy (le rétrotransposon le plus similaire a été trouvé sous forme active dans le poisson fugu ). Le Peg10 est nécessaire au développement placentaire chez la souris, il en serait probablement de même pour l'homme. D'autres exemples comprennent des gènes de syncytine dérivés de rétrovirus endogènes de la famille HERV-W. Ceux-ci sont importants dans la formation de syncytia à partir de cellules trophoblastiques, le mécanisme de fusion membranaire ressemble en effet à l'entrée rétrovirale dans la cellule.

Même les éléments répétés inactifs augmentent la plasticité du génome en favorisant les croisements inégaux interchromosomiques ou la recombinaison intrachromosomique, conduisant à des délétions/duplications ou des inversions (fig. 5).

Last but not least, les transposons sont supposés avoir une fonction physiologique réelle, puisque par ex. leur expression est régulée à la hausse pendant la réponse au stress. Mais les diverses hypothèses que l'on peut tirer de ce constat sont loin d'être élucidées.

Répétitions en tandem

Les répétitions en tandem sont constituées d'unités répétées successives identiques ou presque identiques (dégénérées). Ils varient beaucoup en longueur d'unité de répétition ainsi qu'en longueur de répétition entière, de sorte que chaque classification n'est pas satisfaisante et doit être prise "cum grano salis". Les plus grandes répétitions, qui ont tendance à être composées de grandes unités de répétition, sont appelées satellites. Le nom satellites vient de la centrifugation de l'ADN en gradients de densité. Premièrement, au cours des méthodes conventionnelles d'isolement de l'ADN, l'ADN est soumis à une contrainte de cisaillement, ce qui entraîne une fragmentation de l'ADN (notez qu'in vivo, un chromosome en phase G1 contient 1 molécule d'ADN). Ces fragments peuvent ensuite être centrifugés dans des gradients de densité afin que les molécules d'ADN occupent des places dans le gradient avec la même densité que la molécule d'ADN. Le gros de l'ADN formera une bande. Mais des fragments d'ADN avec un contenu CG/AT significativement différent, ont causé e. g. par de grandes répétitions monotones formeront des bandes "satellites" mineures. La dénomination de l'ADN satellite a ensuite été élargie pour incorporer des séquences répétitives similaires qui ne forment pas ces bandes satellites. Les unités de répétition primaires du satellite sont diverses, allant de GGAAT trouvé dans les satellites 2 et 3 à 171 pb dans le satellite alpha. Mais ces unités primaires sont souvent dégénérées, contenant certaines irrégularités. Ces irrégularités peuvent être périodiques, formant ainsi des unités répétées secondaires. L'ADN satellite est abondant au niveau des centromères et de l'hétérochromatine constitutive. Bien que le génome humain soit considéré comme complètement assemblé, les régions centromères et les séquences satellites contenant l'hétérochromatine ne sont pas incluses, car le séquençage de ces régions est difficile pour diverses raisons (absence de sites de restriction, séquençage difficile, assemblage contig presque impossible). À partir des différents satellites trouvés au niveau ou à proximité du centromère, une famille de répétitions alpha-satellites (avec une unité primaire de 171 pb) forme probablement le noyau fonctionnel des centromères, car elles sont importantes pour l'assemblage des kinétochores au cours de la division cellulaire (certaines protéines kinétochores se lient à l'alpha -satellite au centromère, et donc assemblage du kinétochore nucléé). La fonction des autres satellites est inconnue, considérée principalement comme de l'ADN indésirable.

Minisatellites sont des répétitions en tandem plus courtes, de l'ordre du kb, qui sont enrichies en régions subtélomériques des chromosomes. Ils sont souvent très polymorphes quant au nombre d'unités répétées dans une répétition (nombreux allèles dans la population) et peuvent être utilisés comme marqueurs génétiques - VNTR, nombre variable de répétitions en tandem. Les VNTR sont souvent trop grands pour être amplifiés par PCR et sont donc généralement dosés par Southern blot. Parfois, certains minisatellites sont supposés avoir des fonctions de régulation, comme par ex. un VNTR dans le promoteur de l'insuline, où la longueur différente de la répétition était associée à différents types de diabète. Un allèle de l'insuline VNTR est montré sur fig. 7. Les télomères des chromosomes humains, formés de plusieurs kilobases de la répétition hexamère TTAGGG, appartiennent également à la gamme des minisatellites des répétitions en tandem, bien qu'ils surviennent par un mécanisme spécifique - par l'enzyme télomérase. La télomérase est composée d'une sous-unité protéique à activité transcriptase inverse et d'une sous-unité ARN avec une séquence complémentaire de TTAGGG, qui sert de matrice pour l'élongation des télomères (la sous-unité protéique télomérase est liée à la transcriptase inverse des rétrotransposons non LTR). Cependant, les télomères peuvent s'allonger même par le mécanisme général passif de croisement inégal (voir fig. 5D), par ex. dans les cellules cancéreuses.

Peut-être faut-il noter ici encore une fois que la séquence du génome humain comprend les régions euchromatiques, délimitées proximalement, mais n'incluant pas les centromères et l'hétérochromatine péricentromérique, et distalement par les télomères, qui sont également, avec les régions subtélomériques, non incluses.

Microsatellites ont des unités de répétition généralement de 1 à 5 pb, avec une longueur de répétition dépassant rarement des centaines de répétitions dans l'ordre. La famille la plus courante de ces répétitions est celle des répétitions de 2 pb, parmi lesquelles (CA)n répétitions prédominent. Les microsatellites sont très communs dans le génome, très polymorphes et sont très souvent utilisés comme marqueurs génétiques. Des exemples de tels marqueurs génétiques se trouvent dans le chapitre traitant de la liaison.

Maladies de l'expansion des trinucléotides

Si dans ou près des gènes, la longueur des microsatellites peut avoir des conséquences profondes - par ex. dans les maladies dites d'expansion des trinucléotides, un groupe de syndromes mendéliens héréditaires hétérogènes. L'exemple le plus connu est la chorée de Huntington, maladie neurologique mortelle d'apparition à l'âge adulte se présentant sous la forme d'une démence et d'un trouble du contrôle des mouvements extrapyramidal. Dans le gène de la huntingtine, il existe une séquence répétée CAG, codant pour un tronçon de résidus glutamine (tractus polyglutamine) dans la protéine huntingtine. Normalement, les gens ont moins de 20 trinucléotides CAG et par conséquent des glutamines dans la huntingtine, où elle sert de domaine important pour l'interaction protéine-protéine. Cependant, si par mutation ce nombre augmente à plus de 30 glutamines, la protéine ne fonctionne pas correctement, entraînant la mort progressive des neurones du noyau caudatus. Dans d'autres maladies d'expansion des trinucléotides, la dystrophie myotonique (dystrophie musculaire avec faiblesse musculaire accompagnée paradoxalement d'une augmentation du tonus musculaire), l'expansion pathologique du trinucléotide CTG a lieu dans la région 3 non traduite de la DMPK (dystrophia myotonica protein kinase). L'ARNm mutant lui-même a donc le potentiel pathologique, et fait probablement des ravages par séquestration de divers facteurs de transcription. Pour d'autres exemples de maladies "d'expansion", reportez-vous au chapitre Hérédité non mendélienne.

Mécanismes d'expansion/rétrécissement de répétition en tandem

Le premier mécanisme qui contribue au polymorphisme de la longueur de répétition en tandem est le croisement inégal. C'est typique en particulier pour les répétitions plus grandes (Fig. 5D). Les petites répétitions microsatellites changent souvent de longueur par des erreurs de synthèse d'ADN, par ex. g. un mécanisme appelé glissement de la polymérase (Fig. 8). Au front de la réplication, la double hélice d'ADN n'est pas encore extrêmement stable et est soumise à des fluctuations thermiques importantes. S'il se trouve que la polymérase se réplique au niveau du microsatellite, les brins d'ADN pourraient ne pas (pendant les fluctuations) se réassocier exactement, mais avec un décalage de plusieurs unités de répétition. Ce mécanisme est amélioré dans certains types de répétitions qui peuvent stabiliser les états de transition en formant des boucles double brin, par ex. le trinucléotide CAG/CTG.

Liens

Les séquences répétitives sont stockées dans une base de données centrale, Repbase (malheureusement, l'utilisation directe de RepBase n'est possible que pour les établissements universitaires). http://www.girinst.org/

Il existe également des bases de données spécialisées, ne couvrant que certains aspects, comme la base de données des rétrovirus endogènes humains. http://herv.img.cas.cz/

RepeatMasker est un programme informatique effectuant l'identification de séquences répétitives à l'aide de Repbase et éventuellement leur masquage dans la séquence (par exemple pour faciliter la découverte de gènes). http://www.repeatmasker.org/cgi-bin/WEBReatMasker

SRPDB (base de données de particules de reconnaissance de signal) fournit des séquences et des structures liées aux fonctions de SRP. http://psyche.uthct.edu/SRPDB/SRPDB.html

AluGene est une base de données d'éléments Alu incorporés dans des gènes codant pour des protéines http://alugene.tau.ac.il/

L1Xplorer est une base de données dédiée à la détection et à l'annotation d'éléments L1 intacts de pleine longueur http://l1xplorer.molgen.mpg.de

Liens

Fig. 1 : Différentes classes de transposons présentes dans le génome humain
A : Rétrotransposons non LTR. Les LIGNES (longues répétitions intercalées) sont représentées par LIGNE-1 (L1). L'élément de 6 ko contient deux cadres de lecture ouverts. L'ORF2 contient un domaine d'endonucléase (en), de transcriptase inverse (rvt) ainsi qu'un domaine riche en cystéine (riche en C). La région 5 non traduite (5 UTR) contient également un promoteur interne pour l'ARN polymérase II (dans un gène habituel, le promoteur est en amont de 5 UTR). 3 région non traduite (3 UTR) contient un signal de polyadénylation canonique (AATAAA) et une queue polyA (qui est également normalement absente des gènes ordinaires et n'est ajoutée à l'ARNm que par l'action de la polyA polymérase). L1 est flanqué d'une duplication du site cible (TSD) qui survient pendant la transcription inverse amorcée par la cible.
B : LTR-rétrotransposon - rétrovirus endogène. Est représentée une structure typique d'un rétrovirus, ou plus précisément d'un provirus, la forme intégrée dans l'ADN. Les rétrovirus endogènes ne peuvent être distingués des infectieux que par des mutations ponctuelles ou des délétions dans les gènes nécessaires à l'assemblage des particules infectieuses - dans la plupart des cas, il s'agit du gène env (enveloppe). gag (antigène spécifique de groupe) est la protéine de la nucléocapside. pol (polymérase) a l'activité de transcriptase inverse (rvt) pour la synthèse d'ADN des premier et deuxième brins, l'activité RnaseH pour le clivage de l'ARN dans l'hybride ARN/ADN après la synthèse du premier brin et l'activité d'intégrase (int) (clive l'ADN cible et ligature le rétrovirus dans le site clivé). prt (protéase) est indispensable pour l'assemblage du virus par des précurseurs de protéines de clivage traduits à partir de l'ARNm de rétrovirus (par exemple, gag et pol sont souvent traduits comme une seule grande polyprotéine). Les LTR (long terminal repeats) sont des séquences identiques aux extrémités des rétrovirus. Chaque LTR est composée de U3 (3 région non traduite), R (région de recombinaison) et U5 (5 région non traduite). Ceci est dérivé de la structure de l'ARNm du rétrovirus, qui s'étend uniquement du R en amont au R en aval. La manière dont l'ADNc complet est dérivé de cet ARNm dépasse le cadre du chapitre. Bien que les rétrovirus endogènes soient rétrotranscrits dans le cytoplasme, les mécanismes d'intégration ne nécessitent donc pas en théorie de duplications de sites cibles, ceux-ci sont souvent formés, bien que plus courts que dans L1.
C : Le transposon d'ADN est représenté par la famille mariner de 1,2 kb. Le transposon d'ADN synthétique La Belle au bois dormant appartient également à cette famille. La région centrale de la transposase est flanquée de répétitions inversées. Lors de l'intégration, une duplication du site cible est formée à partir de l'ADN hôte. La duplication du site cible est laissée dans le génome en tant que signature du transposon, lorsque le transposon saute à un autre endroit.
D : les rétrotransposons non LTR non autonomes appartiennent au SINE (short interspersed repeat). La sous-famille active chez l'homme est représentée par un élément Alu typique de 282 pb. Alu est un variateur composé de deux monomères presque identiques (gris clair et gris intermédiaire). Le monomère de gauche a une suppression de la case gris foncé. Le monomère est dérivé du gène d'ARN 7SL, codant pour la sous-unité d'ARN de SRP (particule de reconnaissance de signal). La SRP est un peptide signal de reconnaissance complexe des sprotéines qui doivent être transportées dans la lumière ou la membrane du réticulum endoplasmique. Notez que le gène 7SL est dessiné à l'échelle de 50% ! La région PolyA d'Alu ne fait pas partie du gène 7SL, mais est importante pour le succès d'Alu dans la rétrotransposition.

Figure 2. Transcription inverse amorcée par la cible (TPRT)
La protéine ORF2 clive le premier brin d'ADN au niveau de la cible (la séquence cible est riche en A+T et la séquence est généralement similaire au consensus TTAAAA, le clivage se produit entre T et A sur le brin complémentaire). Le brin clivé se dissocie et se lie à la queue polyA de l'ARNm L1 (ligne orange pointillée). Le groupe 3 OH libre du brin d'ADN amorce la synthèse du premier brin d'ADNc. Le clivage du second brin d'ADN se produit 7 à 20 nt en aval de la première coupure et le groupe 3 OH libre généré par cet événement est utilisé pour amorcer la synthèse du second brin d'ADNc L1. Le mécanisme de la synthèse du second brin n'est pas complètement élucidé. L'ensemble du processus se termine par la formation d'une nouvelle copie d'ADN de L1, flanquée d'une duplication du site cible.

Figure 3. LINE-1 modifie le génome de diverses manières
UNE: Rétrotransposition en cis. L1 fait des copies rétrotransposées de lui-même. Les copies peuvent être complètes, ou plus souvent tronquées 5° ou tronquées 5° avec inversion. B : La protéine ORF2 de L1 peut rétrotransposer des éléments SINE (comme Alu) ou d'autres ARNm cellulaires, créant des pseudogènes transformés (rétrotransposition en trans). Les exons codants sont représentés par des cases brunes, les 5 et 3 UTR (régions non traduites) sont de couleur plus claire, l'épissage des exons en ARNm indiqué par des lignes brisées. C : Le rétrotransposon peut s'insérer dans le gène. L'insertion dans l'exon entraîne généralement une perturbation du cadre de lecture ouvert et une troncature de la protéine (l'astérisque représente la place d'un nouveau codon d'arrêt). Mais même l'insertion dans un intron peut avoir des conséquences délétères - par ex. le saut d'exon ou la création d'un nouvel exon, qui perturbent aussi souvent la protéine.L'insertion de rétrotransposon est une cause bien documentée de diverses maladies héréditaires. Les éléments les plus fréquemment insérés sont les éléments Alu, suivis de L1. RÉ: 3 transduction. L1 a un signal de polyadénylation relativement faible. Par conséquent, l'ARN polymérase peut lire et transcrire également un segment d'ADN chromosomique flanquant. Cet ARNm hybride est ensuite rétrotransposé, entraînant le déplacement à la fois de L1 (qui est cependant généralement partiellement tronqué en 5 ou même complètement supprimé) et de l'ADN flanquant. Cela peut être un mécanisme de brassage d'exons entre les gènes. E : L'insertion d'un rétrotransposon s'accompagne souvent d'un réarrangement - ici suppression du segment vert et inversion du segment rouge incluant un exon, avec saut ultérieur de cet exon lors de l'épissage. F: Le promoteur L1 peut promouvoir la transcription non seulement de son propre élément, mais également des gènes voisins, à la fois en amont et en aval.

Figure 4 Les séquences Alu sont des hyperparasites
A : Structure du gène de l'ARN 7SL et de l'élément Alu (à gauche) et structure secondaire des molécules d'ARN respectives (à droite). La transcription du gène de l'ARN 7SL est dirigée par le promoteur interne de l'ARN polymérase III (A) et l'amplificateur (EN). Le gène Alu a un promoteur interne composite (A+B). Le terminateur naturel de l'ARN polymérase III est le tétranucléotide TTTT. La transcription est interrompue après les trois premiers ARN de T. 7SL est composé du domaine Alu (bleu) et du domaine S (jaune). Les protéines SRP 9 et 14 se lient au domaine Alu, qui sert à l'ancrage au ribosome. D'autres protéines se lient au domaine S, y compris la protéine 54, qui collabore à la reconnaissance du peptide signal (ligne rouge). L'ARN Alu est formé essentiellement de deux domaines Alu de l'ARN 7SL, avec une addition d'une séquence polyA.
B : L'ARN Alu se lie au ribosome. Si le ribosome ne fait que traduire l'ORF2 de l'ARNm LINE-1 (ligne verte), la queue polyA de l'élément Alu entre en compétition avec la queue polyA de L1 pour la liaison de l'ORF2 naissant. Les protéines de liaison PolyA assurent la médiation de l'interaction. Si ORF2 se lie à Alu, ORF2 va inverser et transposer Alu au lieu de L1 et donc parasite sur L1. Si l'on considère L1 comme un parasite génomique, Alu est un hyperparasite - i. e. parasite du parasite. D'autres ARNm cellulaires (ligne bleue) peuvent également rivaliser avec l'ARNm L1 pour la liaison ORF2, bien qu'avec une efficacité beaucoup plus faible (on estime que sur 3000 rétrotranspositions L1, 300 seraient détournées par des éléments Alu et seulement cca 1 par un autre ARNm.

Figure 5. Les répétitions favorisent les réarrangements génomiques.
A+B : région génomique contenant des répétitions directes (dans le même sens, la même séquence sur le même brin d'ADN). Les deux répétitions peuvent s'apparier et se recombiner. La recombinaison intrachromosomique (A) conduit à la délétion. Un fragment circulaire hypothétique est perdu - il ne possède pas de centromère. Le croisement inégal avec la recombinaison interchromosomique résultante (B) provoque la délétion et la duplication.
C : La recombinaison intrachromosomique entre deux répétitions inversées (dans le sens opposé, la même séquence est sur le brin d'ADN opposé) conduit à l'inversion de la séquence d'ADN intermédiaire. Les conséquences fonctionnelles de tels réarrangements dépendent du contexte, de silencieuses à mortelles, comme on peut s'y attendre.
D : Des polymorphismes répétés en tandem peuvent survenir par croisement inégal.

Figure 6. Satellites
A : unités primaires et unités d'ordre supérieur (secondaires) de répétition en tandem. "Histoire évolutive" probable des répétitions, comme illustré par la séquence GGAAT. Cette séquence se multiplie et forme ainsi une répétition monotone parfaite. Certaines positions subissent plus tard une mutation (rouge) créant une répétition imparfaite (dégénérée). Puis la séquence se multiplie à nouveau, mais maintenant plusieurs unités dégénérées se multiplient ensemble en une seule unité, créant ainsi une répétition parfaite de cette unité secondaire plus grande (flèche). La séquence GGAAT est à la base des satellites humains 2 et 3. Ces satellites diffèrent par l'unité secondaire.
B : Structure du chromosome mitotique humain par rapport aux séquences satellites. L'alpha-satellite forme de l'hétérochromatine au cœur du centromère. Outre les protéines associées à l'hétérochromatine, les protéines de liaison alpha-satellite s'assemblent sur les séquences satellites alpha pour former la plaque interne du kinétochore. Certaines de ces protéines sont associées au centromère tout au long du cycle cellulaire. Sur la plaque interne du kinétochore s'assemble une plaque externe du kinétochore qui interagit avec les microtubules du fuseau mitotique. Le centromère est généralement flanqué d'hétérochromatine péricentrique formée par d'autres types de séquences satellites. Les extrémités du chromosome (télomères) sont formées par la répétition télomérique TTAGGG, les régions subtélomériques adjacentes sont également très répétitives.

Figure 7. VNTR dans le gène de l'insuline
UNE: Segment d'ADN (brin codant, direction 5 à 3 ) contenant le gène de l'insuline. Le gène de l'insuline contient trois exons (en majuscule) qui forment l'ARNm mature. Les motifs de séquences régulatrices importants sont en rouge - boîte TATA en amont du site d'initiation de la transcription, ATG comme début de traduction (transcrit en AUG dans l'ARNm, qui sert de codon d'initiation, insérant la première méthionine du brin polypeptidique), les dinucléotides conservés GT et AG aux sites d'épissage des introns, codon d'arrêt TAG et signal de polyadénylation AATAAA. Les sites de polymorphismes d'un seul nucléotide sont en gras (cela signifie que de nombreux sujets ont un nucléotide différent à cette position, pas celui montré). Le minisatelite est en bleu, bien sûr, un seul allèle est représenté, les autres allèles diffèrent par le nombre de répétitions. B : Cet allèle du VNTR est constitué de 29 répétitions du motif de séquence GGGGTGTGGGGACA, bien que toutes les unités répétées ne correspondent pas parfaitement au consensus (les bases non correspondantes sont en noir). A noter que la répétition contient un palindrome TGTnnnnACA, qui peut stabiliser les structures « tige-boucle » et favoriser ainsi l'instabilité du nombre de répétitions (cf. fig. 8). La longueur variable du minisatelite juste en amont du gène de l'insuline dans la région du promoteur peut interagir différemment avec le promoteur de liaison au facteur de transcription et provoquer ainsi une expression différentielle du gène de l'insuline. En effet, certains allèles ont été associés au développement du diabète (cependant, il est très difficile de différencier l'effet direct d'une liaison « seulement » - voir le chapitre traitant de la liaison.

Fig. 8. Le polymorphisme dans les microsatellites peut provenir du glissement de la polymérase
Pendant la polymérisation, la fluctuation thermique peut dissocier les brins d'ADN. La réassociation est généralement parfaite, ce qui n'entraîne aucun changement. Cependant, occasionnellement, l'ADN peut s'aligner de manière inégale, en raison de la répétition. Soit le brin polymérisant se replie, ce qui peut entraîner une expansion de la répétition (ce qui est plus fréquent), soit le brin allongé se lie plus distalement au gabarit (le gabarit se replie) avec un rétrécissement ultérieur de la répétition. Encart : Certaines répétitions peuvent favoriser cette procédure en raison de la stabilisation de l'état de transition en formant une structure tige-boucle à partir de la double hélice imparfaite, en particulier la répétition CAG/CTG, qui est impliquée dans la pathogenèse de plusieurs maladies d'expansion des trinucléotides. Plus le microsatellite est long, plus la probabilité de glissement de la polymérase est élevée, ce qui crée, en combinaison avec la tendance plus prononcée à l'allongement de la répétition, une boucle de rétroaction positive (renforçante).



Commentaires:

  1. Digar

    Tu as tout à fait raison. Quelque chose y est et c'est une excellente idée. Je t'encourage.

  2. Kaganos

    Super article! Abonné à RSS, je suivrai =)

  3. Odero

    Je vous suggère de venir sur le site, sur lequel il y a beaucoup d'informations sur cette question.

  4. Ricker

    Je trouve que vous vous êtes trompé.

  5. Geldersman

    Je crois que vous vous trompez. Je suis sûr. Je propose d'en discuter. Envoyez-moi un e-mail en MP, nous parlerons.

  6. Sall

    Je suis bien versé dans ce domaine. Je peux aider à résoudre le problème. Ensemble, nous pouvons trouver la bonne réponse.



Écrire un message