Informations

Équilibrer sélection vs introgression ?

Équilibrer sélection vs introgression ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

L'équilibrage de la sélection peut maintenir des polymorphismes dans les populations naturelles pendant de longues périodes d'évolution. Cependant, dans cet article, Dannemann et al. 2016 identifie trois haplotypes archaïques dans le génome humain moderne qui sont dus à l'introgression adaptative. Pourquoi pouvons-nous exclure que les haplotypes III, IV et VII (les haplotypes introgressés) soient restés dans le pool génétique humain depuis la scission entre les humains modernes et les Néandertaliens en raison d'une sélection équilibrée ?


La sélection équilibrée et la sélection positive ne s'excluent pas mutuellement. La sélection et la sélection négative ne sont pas non plus équilibrées. La drépanocytose est un exemple classique où il y a sélection négative contre l'homozygote pour la mutation falciforme, et sélection positive pour l'hétérozygote. Le résultat est que les deux allèles sont maintenus dans la population sous sélection équilibrée.


Introgression vs flux génétique

J'ai entendu ce matin un correspondant de longue date concernant l'introgression de microcéphaline provenant d'humains archaïques. Je ne partage pas tout le message, mais j'ai pensé qu'il vaudrait la peine de paraphraser un point clé pour une réflexion.

Le point fondamental est le suivant : pourquoi parlons-nous d'« introgression » ? Pourquoi n'est-ce pas juste un flux génétique ?

Il répond lucidement, mais j'aimerais proposer quelque chose qui me semble important, et c'est pourquoi je n'utilise pas le terme « flux de gènes », et préfère « introgression » même s'il est plus jargonistique. Le flux de gènes est un terme générique et peut caractériser correctement toute une série de dynamiques, tandis que l'introgression est très spécifique et précise, un sous-ensemble du flux de gènes plutôt qu'un synonyme. Voici une définition de l'introgression :

Rétrocroisement d'hybrides de deux populations végétales pour introduire de nouveaux gènes dans une population sauvage.

Comme vous pouvez le voir il y a une fixation sur les populations végétales en raison du contexte présumé d'introgression : le mouvement des allèles de l'autre côté limites des espèces. Je ne veux pas entrer dans le débat sur les concepts d'espèces, il suffit de dire que j'ai une vision plutôt instrumentale des "espèces", et je ne pense pas que le terme ou le niveau taxonomique soit qualitativement si spécial d'un point de vue génétique architectural point de vue (les experts pourraient vouloir intervenir). Le point important pour moi concernant l'introgression est que je crois qu'il aide à découpler l'histoire des dèmes des gènes. Quand on parle de la phylogénie de MCPH1 nous ne pouvons pas simplement l'utiliser comme un proxy pour l'histoire de notre propre espèce. Quand on dit que MCPH1 existe au sein de la population humaine à une fréquence de 0,70 et que son origine est probablement archaïque/néandertalienne, cela n'implique pas que 0,70 de notre ascendance humaine est archaïque/néandertalienne. L'introgression implique que les gènes doivent être considérés comme quelque peu indépendant des dèmes, des populations et des espèces dans lesquelles ils résident. Tout comme équilibrer la sélection peut être déroutant pour ceux qui confondent l'histoire des dèmes et des gènes, de même l'introgression peut aussi être déroutante si l'on ne garde pas à l'esprit que la « vue du gène » n'est pas toujours la « vue de la population ». En dernière analyse, on peut convenir ontologiquement que toute science est réductible à la physique, mais la réalité est que la dynamique de la génétique, de la démographie, de la sociologie, etc. des modèles explicatifs. De même que la conversion au christianisme orthodoxe grec n'implique pas que l'on devienne génétiquement et ancestralement un Grec, de même « ramasser » des allèles néandertaliens ne signifie pas que l'on devient un Néandertal. Un gène de Néandertal peut être absorbé même si les dèmes ne s'assimilent pas dans une large mesure, et inversement, un dème peut être absorbé même si son patrimoine génétique est principalement perdu dans le temps et la dérive génétique (comme cela peut arriver à les lignées Y et ADNmt que les Néandertaliens pourraient avoir contribué à la tu es-population humaine).

Addenum: Remarque, si vous avez deux populations à des ratios de 4:1 pour la population A contre B, et A est fixé pour l'allèle x sur le locus 1, et B pour l'allèle y sur le locus 1, alors il y a 80% de chances que l'allèle y va disparaître, et l'on s'attend à ce que cela se produise dans les 4Ne générations. Néanmoins, la contribution génomique de la population B restera présente dans d'autres régions du génome, vous ne pouvez pas utiliser un locus pour vérifier l'ascendance. Malheureusement, c'est ce qu'ont fait les dernières décennies d'études sur la coalescence de marqueurs neutres (ADNmt, Y).

En revanche, si l'allèle y avait un avantage de fitness de 10 % sur l'allèle x, alors même si à t = 0, l'allèle z ne serait présent qu'à une proportion de 0,20, il est presque inévitable que y remplace x dans la population descendante. Néanmoins, on s'attend à ce qu'en moyenne la population A contribue encore à environ

80 % de l'information génomique dans la future population fille issue de la fusion.


Dérive génétique vs sélection naturelle dans une petite population isolée à long terme : variation de classe II du complexe majeur d'histocompatibilité chez le marsouin endémique du golfe de Californie (Phocoena sinus)

Programa Nacional de Mamíferos Marinos, Instituto Nacional de Ecología/Centro de Investigación Científica y Educación Superior de Ensenada, Km. 107, Carretera Ensenada–Tijuana, Ensenada, Basse-Californie, Mexique 22860,

Centro de Investigaciones Biológicas del Noroeste, SC Mar Bermejo 195, Playa Palo Santa Rita. La Paz, Baja California Sur, Mexique 23090,

Centro de Investigación Científica y Educación Superior de Ensenada, Km. 107, Carretera Ensenada-Tijuana. Ensenada, Basse Californie, Mexique 22860

Laboratorio de Ecología Molecular y Genetica de la Conservación, Universidad Autónoma de Baja California Sur, Km. 4.5 Carretera La Paz–Los Cabos, La Paz, Basse-Californie du Sud, Mexique 23080,

Centro de Investigaciones Biológicas del Noroeste, SC Mar Bermejo 195, Playa Palo Santa Rita. La Paz, Baja California Sur, Mexique 23090,

Centro de Investigaciones Biológicas del Noroeste, SC Mar Bermejo 195, Playa Palo Santa Rita. La Paz, Baja California Sur, Mexique 23090,

Programa Nacional de Mamíferos Marinos, Instituto Nacional de Ecología/Centro de Investigación Científica y Educación Superior de Ensenada, Km. 107, Carretera Ensenada–Tijuana, Ensenada, Basse-Californie, Mexique 22860,

Centro de Investigaciones Biológicas del Noroeste, SC Mar Bermejo 195, Playa Palo Santa Rita. La Paz, Baja California Sur, Mexique 23090,

Centro de Investigación Científica y Educación Superior de Ensenada, Km. 107, Carretera Ensenada-Tijuana. Ensenada, Basse Californie, Mexique 22860

Laboratorio de Ecología Molecular y Genetica de la Conservación, Universidad Autónoma de Baja California Sur, Km. 4.5 Carretera La Paz–Los Cabos, La Paz, Basse-Californie du Sud, Mexique 23080,


Qu'est-ce que la sélection d'équilibrage ?

L'équilibrage de la sélection est le maintien de deux ou plusieurs allèles dans une population. Il maintient une diversité génétique avantageuse au sein des populations. Il existe deux mécanismes clés pour équilibrer la sélection. Ce sont l'avantage hétérozygote et la sélection dépendante de la fréquence. Les deux conduisent à un état d'équilibre polymorphe stable. Les hétérozygotes présentent une fitness relative plus élevée que les deux homozygotes, conduisant à un polymorphisme équilibré. Par conséquent, l'organisme aura les deux allèles du gène plutôt que d'avoir deux copies de l'une ou l'autre version seule. Cela entraîne un avantage hétérozygote.

Dans la sélection dépendante de la fréquence, le succès reproducteur d'un phénotype dépend de la fréquence, en particulier lorsqu'il a une fréquence plus faible. Diminuez la fréquence, augmentez la forme physique, conduisant à un polymorphisme équilibré. La forme physique d'un phénotype diminue à mesure qu'il devient plus commun. Par conséquent, les phénotypes rares présentent une meilleure fitness et sont favorisés par la sélection. Cette sélection dépendant de la fréquence négative conduit à un polymorphisme équilibré.


Résultats

Séquences obtenues

Selon le regroupement phylogénétique avec des séquences publiées dans A. lyrata, les séquences obtenues correspondaient à vingt nouvelles A. halleri allèles S et à six loci distincts appartenant à la famille des gènes Brassicaceae S, à savoir Aly7, Aly8, Aly9, Aly10.1, Aly13-2 et Aly13-7 (Fig. ​ (Fig.1A 1A et Tableau ​ Tableau1 1 [28]). La liaison à un domaine kinase a été démontrée pour les allèles AhSRK03, 04, 06, 07, 10 et 18 (Tableau ​ (Tableau 2). 2 ). Pour 12 des 22 allèles S putatifs dans A. halleri, nous avons trouvé une séquence d'appariement avec une forte similarité au locus S dans A. lyrata (Tableau ​ (Tableau 2). 2 ). Les séquences de cette étude ont des numéros d'accession GenBank <"type":"entrez-nucleotide","attrs":<"text":"EU075124","term_id":"156627968","term_text":"EU075124">> EU075124& #x02013 <"type":"entrez-nucleotide","attrs":<"text":"EU075143","term_id":"156628007","term_text":"EU075143">> EU075143, voir fiche complémentaire 1.

Tableau 1

Emplacements d'échantillonnage des individus analysés dans cette étude et inventaire des séquences identifiées à partir du locus S et de loci distincts appartenant à la famille des gènes Brassicaceae S.

PopulationlatitudeLongitudeNombre de plantes analyséesSéquences de locus SAutres séquences de la famille des gènes S
La France
𠀺uby03뀃'50뀥'17AhSRK01, 02, 03, 04, 12Aly13-2, Aly13-7, Aly7, Aly8, Aly9, Aly10.1
Allemagne
12뀉'8849뀐'641AhSRK05, 06Aly9
12뀉'5249뀑'311AhSRK07Aly13-2, Aly9
12끉'7849뀗'421AhSRK05,09Aly8, aly9
10뀩'0451끓'792AhSRK01, 05, 11Aly9
10뀥'1651끓'461AhSRK03, 10Aly9
10뀡'9551끑'271AhSRK01, 02
la Belgique
06끀'50뀩'631AhSRK13Aly9
Pologne
 PL0218끖'6750뀩'681AhSRK03, 14Aly9
 PL0418끕'7950뀩'981AhSRK15
 PL0619뀁'5250뀖'951AhSRK14, 16Aly9
Slovaquie
 SK0221뀇'8148끆'171AhSRK08
République Tchèque
𠀼Z0413끅'84149뀂'871AhSRK18
𠀼Z0513끆'3948끙'252AhSRK18, 19Aly8, Aly9
𠀼Z0813끈'48끗'1AhSRK05Aly9
𠀼Z1412끂'9249뀨'371AhSRK17, 21Aly9

Remarque : étant donné que différentes combinaisons d'amorces amplifiant différents ensembles d'allèles ont été utilisées pour différents individus, les données de ce tableau ne peuvent pas être utilisées pour comparer les fréquences alléliques entre les populations.

Tableau 2

Caractéristiques du A. halleri allèles.

allèlePrésence démontrée d'un domaine kinase (longueur de l'intron 1)Existence d'une relation étroitement liée A. lyrata allèlePreuve d'un lien avec le phénotype d'incompatibilité (P)Groupe (d'après Prigoda, Nassuth et Mable 2005)
AhSRK01 AlSRK01OuiA1
AhSRK02 AlSRK17 A3
AhSRK03Oui (504 pb)AlSRK03 B
AhSRK04Oui (255 pb)AlSRK37OuiA3
AhSRK05 AlSRK34 -
AhSRK06Oui (588 pb) A3
AhSRK07Oui (678 pb) -
AhSRK08 B
AhSRK09 AlSRK14 B
AhSRK10Oui (411 pb)AlSRK16 A3
AhSRK11 AlSRK11 A2
AhSRK12 OuiA2
AhSRK13 -
AhSRK14 A3
AhSRK15 Oui-
AhSRK16 AlSRK31 -
AhSRK17 A3
AhSRK18Oui (788 pb)AlSRK39 -
AhSRK19 AlSRK08 B
AhSRK20 A2
AhSRK21 AlSRK15OuiA2
AhSRK22 A2

Phylogénie de SRK allèles dans A. halleri, A. lyrata et Brassica. A : phylogénie consensuelle de la règle majoritaire à 50 % obtenue indépendamment pour chaque taxon à l'aide de MrBayes. B : phylogénie combinée du maximum de vraisemblance, utilisée pour simuler l'évolution des séquences dans le programme Evolver. Notez la différence d'échelle entre les arbres à une seule espèce et les arbres combinés. Les noms des allèles ont été abrégés pour plus de clarté.

Co-ségrégation de quatre putatifs SRK allèles et lien avec le phénotype d'incompatibilité

Progéniture issue d'un croisement interspécifique contrôlé entre un A. lyrata plante avec génotype AlSRK14/AlSRK21 Et un A. halleri donneur de pollen avec génotype AhSRK15/AhSRK21 a démontré une stricte co-ségrégation des deux paires de putatifs SRK allèles, bien qu'avec des rapports de ségrégation sensiblement différents du rapport 1:1 attendu : AlSRK14/AlSRK21 avec un rapport 39:14 et AhSRK15/AhSRK21 avec un rapport 43:17. Un biais de ségrégation parmi les allèles S a déjà été rapporté dans [29].

Les réactions d'incompatibilité ont été testées pour dix plantes descendantes du croisement interspécifique, dont 2 ou plus de chacun des quatre SRK génotypes. 108 pollinisations impliquaient des plantes dont les génotypes putatifs prédisent la compatibilité (pas de SRK séquences), et pour ces nouaisons était de 90,7 %. 104 pollinisations impliquaient des plantes dont les génotypes putatifs prédisent une incompatibilité croisée, et la nouaison moyenne était de 3,8 %. Ces résultats ont fourni une preuve directe que AhSRK15 et AhSRK21 sont fonctionnels SRK allèles dans A. halleri, et a confirmé que AlSRK14 et AlSRK21 sont fonctionnels SRK allèles dans A. lyrata.

Polymorphisme de séquence

La région séquencée couvre trois des quatre régions hypervariables différentes (HV2, HV3 et CVR) définies dans Brassica [30]. Les séquences de protéines alignées étaient de longueur variable, différant jusqu'à 6 résidus d'acides aminés (180 résidus pour AhSRK12 et 186 pour AhSRK03, 07, 09, 16 et 19). Il n'y avait aucun codon stop dans aucune des séquences. Seuls 29 des 186 sites d'acides aminés ont été conservés sur toutes les séquences, 28 étant identiques en état avec la séquence de Brassica BoSRK60. Douze de ces résidus conservés étaient des résidus de cystéine à des emplacements identiques à ceux décrits dans Brassica par [30]. Les 22 séquences contenaient en moyenne 3,36 sites de glycosylation N-liés par séquence. Parmi ceux-ci, deux sites (N246 et N391) étaient hautement conservés, étant partagés par les 22 séquences avec une seule exception pour cette dernière (absente dans AhSRK14). Un troisième site (N316) a été partiellement conservé, étant partagé par 6 séquences. L'analyse de la fenêtre glissante a révélé que les trois régions hypervariables définies dans Brassica présentaient également une diversité élevée dans A. halleri et A. lyrata (Fig. ​ (Fig.2). 2 ). Cependant, étant donné que la diversité nucléotidique de base en dehors des régions hypervariables était également étonnamment plus élevée dans A. halleri et A. lyrata qu'à Brassica, les pics de diversité dans les régions hypervariables avaient tendance à être moins prononcés.

Analyses en fenêtre glissante de la diversité des acides aminés pour A. halleri, A. lyrata et Brassica. La fenêtre avait une largeur de 5 acides aminés et s'étendait sur un pas de 1 acide aminé. Les barres noires horizontales représentent les trois régions hypervariables HV2, HV3 et CVR.

La diversité variait également le long des différents exons du gène. La diversité non-synonyme était plus élevée dans le domaine S (en A. halleri, πN= 0,310 dans l'exon 1 Tableau ​ Tableau3) 3 ) que dans le reste du gène, et avait tendance à diminuer avec l'augmentation de la distance physique du domaine S, atteignant une valeur aussi faible que πN= 0,054 dans l'exon 6. En revanche, bien que la diversité synonyme soit plus élevée dans le domaine S (πS= 0,819, Tableau ​ Tableau3) 3 ) que dans le domaine kinase (moyenne πS= 0,529), la diversité est restée élevée dans tout le domaine de la kinase (par ex. πS= 0,732 dans l'exon 5), de sorte qu'aucune diminution n'était apparente avec l'augmentation de la distance physique du domaine S. Nous n'avons trouvé aucune preuve chez aucune des trois espèces d'une corrélation significative entre le déséquilibre de liaison (LD) et la distance entre les sites variables (p > 0,05), indiquant aucun effet important de recombinaison entre SRK haplotypes.

Tableau 3

Estimations de la diversité pour la séquence codante de SRK dans A. halleri

domaine SDomaine transmembranaireDomaine Kinase
exon 1exon 2exon 3exon 4exon 5exon 6
Nb séquences2266632
S107.524.735.928.713.034.1
N399.683.3123.1103.347.0115.9
π0.3880.3120.3590.2370.3000.107
πS0.8190.4320.4370.6250.7320.325
πN0.3100.2710.2190.1680.1700.054

S et N sont, respectivement, le nombre moyen de sites potentiellement synonymes et non-synonymes analysés. π, π Set π Nsont respectivement des diversités totales, synonymes et non-synonymes. Toutes les estimations de diversité ont été corrigées par Jukes & Cantor.

Sites en sélection positive

Dans les trois taxons, le modèle M8 a fourni un ajustement significativement meilleur aux données que le modèle M7 ou le modèle M8a (p < 0,00001 pour tous les taxons pour les deux comparaisons), révélant ainsi la présence de codons sélectionnés positivement le long du domaine S de SRK. Dans A. halleri, après avoir exclu les sites avec une lacune dans l'une des séquences, les séquences couvraient plus de 168 codons, dont 33 codons de HV2, 11 de HV3 et 5 de CVR. Dans l'ensemble, 12 codons ont montré des preuves de sélection positive dans A. halleri (Ϡ.95 probabilité postérieure BEB d'appartenir au ω > 1 catégorie Fig. ​ Fig.3). 3 ). Parmi ceux-ci, 8 étaient dans HV2 (273S, 274D, 276Y, 286S, 287I, 294S, 299I, 306V), aucun dans HV3 et un dans CVR (415E), les 3 codons restants (353S, 359R, 388S) étant en dehors de HV Régions. Compte tenu de la proportion relative de régions HV le long des séquences, cela représente un regroupement très significatif de sites dans les régions HV et CVR (p = 0,0009 distribution hypergéométrique). Dans A. lyrata, 177 sites de codons ne contenaient aucune lacune dans aucune des séquences, et 13 sites avaient une probabilité élevée (Ϡ.95) d'appartenir à la ω > 1 catégorie (Fig. ​ (Fig.3). 3 ). Encore une fois, il y avait un regroupement significatif de ces sites dans les régions HV et CVR (p = 0,0198). À Brassica, nous avons réanalysé les données dans [26] mais restreint l'ensemble de données aux positions de codon séquencées dans A. halleri et exclu deux A. lyrata séquences utilisées dans cette étude. Après alignement, 195 sites de codons ne contenaient aucune lacune dans aucune des séquences, et 12 sites avaient une probabilité élevée (Ϡ.95) d'appartenir à la ω > 1 catégorie (Fig. ​ (Fig.3). 3 ). Tous ces sites, à l'exception de 413E, ont été inclus dans les résultats de [26], et seuls trois des 14 sites identifiés par [26] n'ont pas été détectés par la présente analyse (291L, 303V, 306V). Ainsi, bien que basé sur un tronçon de séquence plus restreint dans le domaine S (195 vs. 423 codons), nos résultats étaient très cohérents avec ceux de [26]. Fait intéressant, l'un des sites discordants (306V) a été identifié dans A. halleri et A. lyrata, suggérant qu'une partie des différences observées peut être due à l'inclusion des deux A. lyrata séquences dans l'analyse [26]. Encore une fois, il y avait à Brassica un regroupement significatif de ces sites en régions HV et CVR (p = 0,0002). De manière frappante, cependant, une grande proportion de ces sites à Brassica (5/12) se trouvaient dans HV3, tandis que HV3 contenait un seul site sélectionné positivement dans A. lyrata et aucun dans A. halleri. Au total, 25 sites sélectionnés positivement ont été détectés dans au moins un des trois taxons (238L, 259R, 273S, 274D, 276Y, 286S, 287I, 288L, 294S, 299I, 305K, 306V, 320L, 330W, 332M, 339E, 340A , 341A, 353S, 359R, 388S, 405T, 413E, 415E et 422D voir Fig. ​ Fig.3). 3 ). Le modèle « sites fixes » mis en œuvre dans HYPHY a en outre confirmé que la sélection était plus forte dans les régions HV et CVR que dans le reste de la protéine (plus ω), car autorisant ω varier entre les régions HV et le reste de la protéine a considérablement amélioré la probabilité du modèle (p < 0,001 dans les trois espèces). Cette différence n'était pas due à une variation de taux synonyme, puisque permettre dS seul à varier entre les régions HV et le reste de la protéine n'a pas significativement amélioré la probabilité du modèle (LRT avec un d.f., p = 0.416, p = 0,597 et p = 0,103 pour Brassica, A. halleri et A. lyrata, respectivement).

Structure intron-exon de SRK et sites identifiés comme évoluant sous sélection positive à Brassica, A. halleri et A. lyrata. Les sites 270�, 328� et 413� correspondent respectivement aux régions hypervariables HV2, HV3 et CVR. Les codons identifiés par plus d'une espèce sont en gras.

Analyse du sous-ensemble de séquences plus longues dans A. halleri incluant à la fois les domaines S- et kinase en utilisant le modèle M8 a révélé que huit des 323 codons analysés (273S, 274D, 276Y, 287I, 299I, 345I, 415E, 421Y) appartenaient à la catégorie de vraisemblance maximale « sélectionnée positivement ». Conformément à [26], tous ces codons provenaient du domaine S et aucun d'entre eux ne provenait du domaine kinase. Étant donné que seules six séquences de domaine kinase étaient disponibles dans A. halleri, l'analyse avait une faible puissance et aucun de ces sites n'avait de probabilité postérieure BEB d'appartenir à la ω > 1 catégorie au-dessus de 0,95.

Ces résultats étaient robustes à la fois aux spécifications du modèle (nombre de catégories autorisées pour les sites non sélectionnés positivement) et aux incertitudes dans la reconstruction phylogénétique. Un, 7 et 8 sites ont été récupérés par M8 (10 catégories pour les sites non sélectionnés positivement) mais n'ont pas été récupérés par M2a (une seule catégorie) à Brassica, A. halleri et A. lyrata, respectivement, tandis que les sites récupérés par M2a appartenaient aux trois sous-ensembles de taxons de ceux récupérés par M8. Ainsi, dans les trois taxons, les deux modèles ont renvoyé des ensembles de sites très similaires, sauf que M2a a renvoyé un nombre inférieur de sites, probablement en raison d'une puissance plus faible. Les résultats étaient également robustes aux incertitudes dans la reconstruction phylogénétique. L'ensemble d'arbres crédible à 95% était de taille différente dans les trois taxons, avec 5, 93 et ​​903 arbres dans A. halleri, Brassica et A. lyrata, respectivement. Dans A. halleri, la catégorie de probabilité maximale « sélectionnée positivement » était très similaire dans les cinq topologies crédibles, avec seulement des différences mineures apparentes dans les probabilités BEB postérieures (une topologie a identifié 13 sites et deux ont identifié 14 sites contre 12 sites dans l'arbre ML). À Brassica, l'analyse de dix arbres choisis au hasard parmi les 93 ensembles crédibles a permis de récupérer systématiquement 11 des douze sites identifiés par la procédure BEB en utilisant l'arbre ML. La plus grande incertitude dans la reconstruction phylogénétique dans A. lyrata (903 arbres dans l'ensemble d'arbres crédible à 95 %) a apparemment conduit à un niveau d'incertitude plus élevé dans l'identification des sites, puisque seuls huit des 13 sites ont été systématiquement identifiés à l'aide de dix arbres choisis au hasard dans l'ensemble crédible.

Comme le montre la figure ​ Fig.3, 3, un seul site (274D) a été systématiquement identifié comme évoluant sous sélection positive chez les trois espèces, alors que la plupart des sites n'ont été identifiés que chez une seule espèce ou chez deux espèces différentes. Sur les 12 sites identifiés dans A. halleri, seulement 2 (16,7%) ont également été identifiés à Brassica. De même, sur les 13 sites identifiés dans A. lyrata, seulement 3 (23,1%) ont également été identifiés à Brassica. Bien que la concordance entre A. halleri et A. lyrata était plus élevé (64,1 %), cela peut encore être considéré comme très faible compte tenu de la proximité phylogénétique étroite de ces deux espèces. Fait intéressant, postérieur ω les estimations pour ces sites différaient également grandement d'un taxon à l'autre. Sites de codons à Brassica avec une forte probabilité (Ϡ.95) d'appartenir à la ω > 1 catégorie avait un postérieur BEB ω de 2.985 (moyenne sur les 12 sites). À l'opposé, le postérieur BEB ωs étaient 1,444 et 1,486 dans A. halleri et A. lyrata, respectivement, soit environ deux fois plus petit (2,038 fois plus petit en moyenne).

Simulation

Les simulations dans EVOLVER ont révélé que ce faible niveau de concordance était bien attendu étant donné la faible puissance de la méthode et la grande divergence entre les SRK séquences. Toutes les séquences des trois espèces (65 séquences au total) ont été utilisées pour obtenir la phylogénie montrée sur la figure ​ Fig.1B. 1B. L'analyse du maximum de vraisemblance avec CODEML a identifié que 11,8% des 161 sites (c'est-à-dire 19 codons) évoluaient sous ω = 1,754 ϡ. Ces valeurs, ainsi que la fréquence d'équilibre des codons estimée, ω Distribution (p = 0.530, q = 0,758 pour le β distribution), la longueur de l'arbre (23,47 substitutions par site de codon) et le rapport transition/transversion (κ = 1,9375), ont été utilisés pour simuler 100 réplicats de l'évolution de 65 séquences. Ces simulations ont d'abord confirmé que la méthode était très précise à ce niveau élevé de divergence. Analyse des simulations exécutées sans site dans le ω > 1 catégorie (modèle M7), nous avons constaté que la précision était en effet constamment élevée (0,97, 0,93 et ​​0,95 dans Brassica, A. halleri et A. lyrata, respectivement), suggérant que les sites classés avec une forte probabilité (Ϡ.95) dans le ω > 1 catégorie étaient peu susceptibles d'être des faux positifs. Cependant, la puissance de l'analyse était apparemment faible lors de l'analyse d'un seul taxon à la fois, puisque seulement 14,8%, 34,2 et 38,5% des sites simulés comme positivement sélectionnés ont été effectivement détectés à Brassica, A. halleri, et A. lyrata respectivement. En revanche, l'écran multi-espèces avait une puissance sensiblement plus élevée. En moyenne, la prise en compte collective de tous les sites détectés par au moins un des trois taxons nous a permis d'identifier efficacement 59,2 % de tous les sites sélectionnés positivement. Cette augmentation de la puissance de l'écran multi-espèces s'est accompagnée d'une légère diminution de la précision à 0,86, suggérant toujours que l'identification des sites dans le ω > 1 catégorie était fiable.

Bien que les contraintes sélectives soient identiques pour les trois taxons dans les simulations (c'est à dire. les mêmes codons ont été simulés comme évoluant sous sélection positive), la correspondance entre les sites identifiés dans les trois taxons était étonnamment faible et comparable à la correspondance observée. Ainsi, dans les simulations, une moyenne de 47,0% des sites détectés dans A. halleri ont également été identifiés dans A. lyrata, 16,1 % des sites détectés dans A. halleri ont également été identifiés à Brassica et 17,1 % des sites détectés dans A. lyrata ont également été identifiés à Brassica. Aucun de ces niveaux de concordance simulés ne différait significativement des niveaux observés (p = 0,77, 0,57 et 0,67, respectivement). Ainsi, l'analyse séparée de ces séquences divergentes de trois taxons qui ont évolué sous des contraintes évolutives identiques a effectivement conduit à l'identification de sites de codons différents dans les différents taxons, et la faible concordance observée était dans la plage attendue. Comme le montre la figure ​ Fig.4, 4, il n'y avait également aucune preuve que la divergence de séquence à elle seule pourrait être responsable de la variation observée dans la partie postérieure ω parmi les trois taxons. Dans les simulations, les ratios entre les valeurs postérieures estimées ωs dans les trois taxons n'a même jamais approché la valeur observée de 2,038 (p < 0,01).

Effet de la divergence de séquence sur le postérieur ω. Postérieur ω les valeurs ont été calculées pour les cas où au moins un site avait une probabilité élevée (Ϡ.95) d'appartenir à la ω Catégorie ϡ. Les résultats sont des moyennes sur 5 répétitions indépendantes. Les cercles vides représentent des situations où aucun site n'a été identifié dans aucune des cinq répétitions. Malgré une légère sous-estimation du postérieur ω valeurs (valeur paramétrique = 1,754 ligne pointillée horizontale), il n'y a aucune preuve que la saturation de la divergence seule aurait pu causer la baisse ω trouvé dans A. halleri et A. lyrata qu'à Brassica.

Des simulations de l'évolution des séquences avec différentes longueurs d'arbres ont confirmé que le faible niveau de concordance était en partie dû à une faible puissance statistique globale. Le nombre de sites détectés est resté dans tous les cas bien inférieur (maximum = 9 sites à Brassica et A. halleri, 11 sites en A. lyrata) que le nombre réel de sites simulés comme évoluant sous sélection positive (en attente, les mêmes 19 sites pour toutes les espèces), confirmant ainsi que la méthode avait une faible puissance (Fig. ​ (Fig.5). 5). Conformément à [27], nos simulations ont montré que la puissance était initialement faible lorsque les séquences n'étaient que légèrement divergentes (zéro sites détectés avec divergence de séquence υ substitutions par codon), puis augmentait à des niveaux intermédiaires de divergence, puis commençait à diminuer à nouveau lorsque la séquence divergence atteint la saturation. Fait intéressant, le niveau observé de divergence de séquence dans A. halleri et A. lyrata était presque coïncidant avec le pic de puissance maximale, tandis que pour Brassica, la puissance maximale a été atteinte à une divergence de séquence plus élevée que celle réellement observée. La longueur de l'arbre n'avait pas non plus d'effet détectable sur la précision, car il n'y avait pas d'augmentation du taux de faux positifs avec divergence de séquence (données non présentées). Ces résultats suggèrent qu'une divergence de séquence élevée entraînerait une puissance inférieure, mais sans augmenter le taux de faux positifs.

Effet de la divergence de séquence sur le pouvoir de détecter les sites évoluant sous sélection positive. Dans les simulations, une moyenne de 19 sites ont été assignés à évoluer sous sélection positive (voir texte pour les paramètres de simulation). Le niveau de divergence de séquence estimé à partir de la combinaison A. halleri, A. lyrata et les séquences de Brassica est de 23,47 substitutions par codon. Les résultats sont des moyennes sur 5 répétitions indépendantes. La ligne verticale en pointillés représente le niveau de divergence observé estimé à partir de l'analyse des 3 taxons combinés.


Conclusion

Nous présentons deux nouvelles statistiques récapitulatives, NCD1 et NCD2, qui sont à la fois simples et rapides à mettre en œuvre sur de grands ensembles de données pour identifier les régions génomiques avec des signatures de LTBS. Ils ont un haut degré de sensibilité pour différentes fréquences d'équilibre du polymorphisme équilibré et, contrairement aux statistiques classiques telles que celle de Tajima ou le Mann-Whitney U ( Andrés et al. 2009 Nielsen et al. 2009), permettent une exploration des fréquences les plus probables auxquelles la sélection d'équilibrage maintient les polymorphismes. Cette propriété est partagée avec le et le basé sur la vraisemblance T2 tests ( DeGiorgio et al. 2014 Siewert et Voight 2017). Nous montrons que MNT est bien puissant pour détecter le LTBS dans un scénario démographique complexe, tel que celui des populations humaines. MNT peut être appliqué à un seul loci ou au génome entier, chez des espèces avec ou sans informations démographiques détaillées, et à la fois en présence et en l'absence d'un groupe externe approprié (NCD2 et NCD1, respectivement).

Plus de 85% de nos fenêtres aberrantes sont partagées entre les populations, ce qui soulève la possibilité que des pressions sélectives à long terme aient été maintenues après que les populations humaines aient colonisé de nouvelles régions du globe. Pourtant, ∼15% des fenêtres aberrantes montrent des signatures exclusivement dans une population échantillonnée, et 16 d'entre elles montrent des signatures opposées (OAS1, C15orf48, OR11A1, GSTO1, DHRS4, PABPC1, MYOZ3, OR6K5, KRTAP10-7, GRTP1, MINOS1, GANC, FBXO15, TIMM21, ZNF780A, MAPT, tableau supplémentaire S4 , Supplementary Material online) des régimes sélectifs entre les groupes humains. Ils sont particulièrement pertinents pour comprendre comment la démographie humaine récente pourrait avoir un impact sur les loci évoluant sous LTBS pendant des millions d'années ou les adaptations locales ultérieures par le biais de changements de pression sélectifs ( de Filippo et al. 2016).

Nos analyses indiquent que le LTBS chez l'homme peut façonner la variation dans <2% des positions génomiques variables, mais que celles-ci se chevauchent en moyenne avec ∼8% de tous les gènes codant pour les protéines. Il est important de noter que près de 70% des gènes candidats partagés par au moins les populations du même continent ne peuvent pas être attribués à des fonctions immunitaires, ce qui suggère que diverses fonctions biologiques et les phénotypes correspondants contiennent une diversité génétique avantageuse.


Espèce et spéciation

La théorie coalescente standard nous dit que l'histoire généalogique d'un locus à évolution neutre donné remonte à un seul ancêtre commun 4Ne il y a des générations, en moyenne, et que nous nous attendons à ce que les allèles neutres pour 㺕% des loci aient des ancêtres communs uniques au cours des 6 derniers Ne générations (Hein et al. 2004 p. 24). Une paire d'espèces sera réciproquement monophylétique à 95% des loci généralement seulement après ϩNe générations (Hudson & Coyne 2002). Pour les espèces hyperdiverses avec un grand Ne, ces profondeurs de temps seront il y a très longtemps. Par conséquent, les espèces sœurs hyperdiverses vont soit (1) partager des ancêtres communs très anciens les plus récents, si la plupart des loci sont réciproquement monophylétiques, ce qui implique de faibles taux de spéciation, ou (2) partager entre elles une grande partie du polymorphisme ancestral. Le polymorphisme ancestral parmi les espèces étroitement apparentées créera une discordance étendue de l'arbre génétique, ce qui rend essentiel l'application de types d'approches d'isolement avec migration pour étudier la différenciation (Hey 2006 mais voir Becquet & Przeworski 2009 Strasbourg & Rieseberg 2010 Hey & x00026 Pinho 2012) et offrant une perspective intéressante au débat sur la divergence avec le flux génétique (Porter & Johnson 2002 Nosil 2008 Pinho & Hey 2010).

Il est difficile de discerner si l'hyperdiversité pourrait entraver ou faciliter la spéciation. D'une part, les espèces hyperdiverses peuvent tolérer plus facilement l'introgression de matériel génétique divergent par hybridation entre populations ou espèces naissantes. Ecological and life-history characteristics that promote hyperdiversity – such as having large ranges with high dispersal – also may counteract extrinsic barriers to reproductive isolation. On the other hand, haplotypes with extremely dense differences might hinder recombination and DNA repair, which could counteract species cohesion (Harfe & Jinks-Robertson 2000). When coupled with local adaptation, population structure across a broad geographic range can accelerate speciation (Gavrilets 2003). Hyperdiverse taxa will harbor an abundance of raw material for divergent local adaptation, the crux of ecological speciation scenarios (Rundle & Nosil 2005), but divergent selection may be impotent to yield complete reproductive isolation unless it is sufficiently strong to offset gene flow. These features likely contribute to the observed high overall polymorphism within Mimule (Sweigart & Willis 2003), Paramecium (Catania et al. 2009), and other species complexes.

Does high Ne or high μ affect species diversification rates? Using Hey’s (2009) heuristic population genetic criteria for identifying species (separated for at least 1Ne generations with migration rate Nem less than 1), it is clear that the maximum rate of speciation must inevitably be slower for lineages with larger population sizes (see also Nei et al. 1983 Gavrilets 2003). However, this genealogical species concept differs from the more broadly useful biological species concept in genetic work on reproductive isolation (Coyne & Orr 2004). ‘Ubiquitous dispersal’ of superabundant, very small organisms – which likely are predisposed to hyperdiversity – also is proposed to limit both species diversification and extinction (Fenchel 1993 Finlay 2002). Based on different logic (Gavrilets 2003 Pagel et al. 2006 Venditti & Pagel 2010) – namely, bottlenecks or extreme subdivision causing accelerated fixation of genetic differences and that induce reproductive isolation – a similar negative effect of population size on net diversification rates has been predicted. Note that we presume that time is measured in units of generations as we expect hyperdiverse taxa typically to have short generation times (Box 2), this must be appropriately accounted in contrasts of net speciation rates. Because large Ne also can retard extinction (Wright 1983 Gaston 2000), it is a challenge to disentangle speciation from extinction when evaluating net diversification rates (Coyne & Orr 2004).

Lanfear et al. (2010) recently concluded that bird taxa with higher mutation rates tend to have higher net speciation rates. In a related example, Venditti and Pagel (2010) similarly reported a positive correlation between rate of diversification and synonymous-site substitution. If positive associations between speciation and mutation rates prove general, and provided that taxa with higher mutation rates will exhibit higher estimates of θneu, then we might expect taxa with more polymorphism to show greater net diversification rates – contrary to the above predictions based on Ne. Sexual selection also can potentially drive faster speciation rates when population sizes are larger (Gavrilets 2000). Further work is required to understand the balance of factors important for diversification in the context of hyperdiversity, including a species’ propensity for local adaptation, mutation, and extinction, as well as its susceptibility to geographic or other barriers to gene flow.


New method could reveal what genes we might have inherited from Neanderthals

Using neural networks, researchers from the University of Copenhagen have developed a new method to search the human genome for beneficial mutations from Neanderthals and other archaic humans. These humans are known to have interbred with modern humans, but the overall fate of the genetic material inherited from them is still largely unknown. Among others, the researchers found previously unreported mutations involved in core pathways in metabolism, blood-related diseases and immunity.

Thousands of years ago, archaic humans such as Neanderthals and Denisovans went extinct. But before that, they interbred with the ancestors of present-day humans, who still to this day carry genetic mutations from the extinct species.

Over 40 percent of the Neanderthal genome is thought to have survived in different present-day humans of non-African descent, but spread out so that any individual genome is only composed of up to two percent Neanderthal material. Some human populations also carry genetic material from Denisovans -- a mysterious group of archaic humans that may have lived in Eastern Eurasia and Oceania thousands of years ago.

The introduction of beneficial genetic material into our gene pool, a process known as adaptive introgression, often happened because it was advantageous to humans after they expanded across the globe. To name a few examples, scientists believe some of the mutations affected skin development and metabolism. But many mutations are yet still undiscovered.

Now, researchers from GLOBE Institute at the University of Copenhagen have developed a new method using deep learning techniques to search the human genome for undiscovered mutations.

"We developed a deep learning method called 'genomatnn' that jointly models introgression, which is the transfer of genetic information between species, and natural selection. The model was developed in order to identify regions in the human genome where this introgression could have happened," says Associate Professor Fernando Racimo, GLOBE Institute, corresponding author of the new study.

"Our method is highly accurate and outcompetes previous approaches in power. We applied it to various human genomic datasets and found several candidate beneficial gene variants that were introduced into the human gene pool," he says.

The new method is based on a so-called convolutional neural network (CNN), which is a type of deep learning framework commonly used in image and video recognition.

Using hundreds of thousands of simulations, the researchers at the University of Copenhagen trained the CNN to identify patterns in images of the genome that would be produced by adaptive introgression with archaic humans.

Besides confirming already suggested genetic mutations from adaptive introgression, the researchers also discovered possible mutations that were not known to be introgressed.

"We recovered previously identified candidates for adaptive introgression in modern humans, as well as several candidates which have not previously been described," says postdoc Graham Gower, first author of the new study.

Some of the previously undescribed mutations are involved in core pathways in human metabolism and immunity.

"In European genomes, we found two strong candidates for adaptive introgression from Neanderthals in regions of the genome that affect phenotypes related to blood, including blood cell counts. In Melanesian genomes, we found candidate variants introgressed from Denisovans that potentially affected a wide range of traits, such as blood-related diseases, tumor suppression, skin development, metabolism, and various neurological diseases. It's not clear how such traits are affected in present-day carriers of the archaic variants, e.g. neutrally, positively or negatively, although historically the introgressed genetic material is assumed to have had a positive effect on those individuals carrying them," he explains.

The next stage for the research team is to adapt the method to more complex demographic and selection scenarios to understand the overall fate of Neanderthal genetic material. Graham Gower points out that the team aims to follow up on the function of the candidate variants in the genome that they found in this study.

Looking forward, it remains a challenge to search the human genome for genetic material from as yet unsampled populations, so-called ghost populations. However, the researchers are hopeful that they can further train the neural network to recognize mutations from these unsampled populations.

"Future work could also involve developing a CNN that can detect adaptive introgression from a ghost population, for cases in which genomic data from the source is unavailable," says Graham Gower.


Meaning and Causes of Stabilizing Selection

The stabilizing process is one that results statistically in an over-represented norm. In other words, this happens when the selection process—in which certain members of a species survive to reproduce while others do not—winnows out all the behavioral or physical choices down to a single set. In technical terms, stabilizing selection discards the extreme phenotypes and instead favors the majority of the population that is well adapted to their local environment. Stabilizing selection is often shown on a graph as a modified bell curve where the central portion is narrower and taller than the normal bell shape.

Diversity in a population is decreased due to stabilizing selection—genotypes which are not selected are reduced and can disappear. However, this does not mean that all individuals are exactly the same. Often, mutation rates in DNA within a stabilized population are actually a bit higher statistically than those in other types of populations. This and other kinds of microevolution keep the "stabilized" population from becoming too homogeneous and allow the population the ability to adapt to future environmental changes.

Stabilizing selection works mostly on traits that are polygenic. This means that more than one gene controls the phenotype and so there is a wide range of possible outcomes. Over time, some of the genes that control the characteristic can be turned off or masked by other genes, depending on where the favorable adaptations are coded. Since stabilizing selection favors the middle of the road, a blend of the genes is often what is seen.


Informations sur l'auteur

Present address: Tamagawa University, 6-1-1 Tamagawa-Gakuen, Machida, Tokyo, Japan

Affiliations

Department of Biology, Kyushu University, 6-10-1 Hakozaki, Higashi-ku, 812-8581, Fukuoka, Japan

Makiko Mimura & Tetsukazu Yahara

The Kyushu University Museum, 6-10-1 Hakozaki, Higashi-ku, 812-8581, Fukuoka, Japan

Department of Ecology and Genetics, Uppsala University, Norbyvägen 18D, Uppsala, 75236, Sweden

Centre for Computational Systems Biology, Fudan University, 220 Handan Road, Shanghai, 200433, PRC, China

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Auteur correspondant



Commentaires:

  1. Agnimukha

    Je sympathise avec vous.

  2. Deaglan

    Je veux dire, vous autorisez l'erreur. Entrez, nous en discuterons.

  3. Sheedy

    Je n'ai pas encore entendu parler de ça

  4. Milrajas

    La réponse idéale



Écrire un message