Informations

Tracer des réseaux métaboliques ?

Tracer des réseaux métaboliques ?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je dois dessiner une carte du métabolisme central d'E.coli. Associé à chaque réaction de la carte, j'ai un nombre qui indique le flux à travers cette réaction. Je veux que la carte reflète ces flux à travers la couleur de chaque réaction sur la carte.

J'ai essayé d'utiliser des outils comme Mathematica et Cytoscape, mais il est très difficile d'obtenir une belle présentation du réseau métabolique. J'ai vu des cartes du métabolisme d'E.coli qui sont très jolies sur papier. Ce dont j'ai besoin, c'est d'une carte comme celle-ci, mais où je peux définir les couleurs des réactions.

Par exemple, voir l'image ci-dessous pour un exemple. Oubliez les cadres jaunes délimitant les compartiments. Je peux les épargner.


Je ne sais pas s'ils seront utiles pour votre application, mais vous devriez vous pencher sur les logiciels utilisés pour visualiser les réseaux écologiques (et peut-être aussi les logiciels utilisés pour dessiner des cartes électriques). Le type de données utilisées est très similaire à ce que vous voulez tracer, avec des nœuds et des liens ainsi que des métadonnées pour les liens sur, par exemple. les taux ou les forces de connexion.

je peux vous indiquer manga par l'écologiste Tim Poisot (article de blog sur le mangal ici), SBGN (Systems Biology Graphical Notation), et il y a aussi le R-package diagramme. Cependant, je ne les ai pas beaucoup utilisés donc je ne peux pas dire à quel point ils seront utiles.


Le problème de base est celui des connaissances préalables. Les informations dont vous disposez sur le métabolisme d'E. coli se présentent sous la forme d'un simple réseau, c'est-à-dire une liste de nœuds et des arêtes (avec leurs poids) qui les relient. À partir de ces seules informations, il est impossible de savoir, par exemple, que les réactions dans le cycle TCA doivent être tracées sous la forme d'un cercle parfait (c'est le cercle au milieu de votre exemple de graphique).

La seule source d'informations susceptible d'être compatible avec tous les noms de métabolites/réactions dans votre fichier SBML est la base de données BiGG. Vous pouvez télécharger des cartes qui contiennent, entre autres, des coordonnées x-y pour tous les nœuds d'un réseau métabolique afin que lorsque vous les tracez, elles ne soient pas disposées dans un grand désordre bâclé. Vous pouvez ensuite utiliser un outil comme COBRA pour créer les tracés réels (consultez la documentation pourlireCbMapetdessinerFlux).

Même cela ne sera pas aussi joli que vous le souhaiteriez. La meilleure réponse, malheureusement, est un logiciel appelé Simpheny, qui est un logiciel commercial qui coûte environ un milliard de dollars et qui n'est pas disponible gratuitement.


C'est une vieille question, mais Escher est une application Web qui a été développée et qui permet désormais de dessiner ces cartes à l'aide d'un outil Web. Une personnalisation supplémentaire (comme les couleurs de réaction) pourrait être manipulée manuellement dans le fichier SVG téléchargeable.

À partir de la page principale liée ci-dessus, vous pouvez charger dans le E. coli modèle de base et regardez (et manipulez) la carte :

Escher est décrit dans cette publication en Biologie computationnelle PLOS.


L'analyse intégrée des réseaux d'interaction métaboliques et protéiques révèle de nouveaux principes d'organisation moléculaire

L'étude des réseaux d'interactions biologiques est un thème central de la biologie des systèmes. Ici, nous étudions les relations entre deux types distincts de réseaux d'interaction : la carte des voies métaboliques et le réseau d'interaction protéine-protéine (PIN). Il est établi depuis longtemps que les étapes enzymatiques successives sont souvent catalysées par des protéines interagissant physiquement formant des complexes multi-enzymes permanents ou transitoires. En inspectant les données PIN à haut débit, il a été montré récemment qu'en effet, les enzymes impliquées dans les réactions successives sont généralement plus susceptibles d'interagir que d'autres paires de protéines. Dans notre étude, nous avons élargi cette ligne de recherche pour inclure des comparaisons des topologies de réseau respectives sous-jacentes ainsi que pour déterminer si l'organisation spatiale des interactions enzymatiques est en corrélation avec l'efficacité métabolique.

Résultats

En analysant les données de levure, nous avons détecté des corrélations à longue distance entre les chemins les plus courts entre les protéines dans les deux types de réseaux, suggérant une correspondance mutuelle des deux architectures de réseau. Nous avons découvert que les principes d'organisation des interactions physiques entre les enzymes métaboliques diffèrent du PIN général de toutes les protéines. Alors que les interactions physiques entre les protéines sont généralement dissortatives, les interactions enzymatiques ont été observées comme étant assortatives. Ainsi, les enzymes interagissent fréquemment avec d'autres enzymes de degré similaire plutôt que différent. Les enzymes transportant des charges de flux élevées sont plus susceptibles d'interagir physiquement que les enzymes ayant un débit métabolique plus faible. En particulier, les enzymes associées aux voies cataboliques ainsi que les enzymes impliquées dans la biosynthèse de molécules complexes se sont avérées présenter des degrés élevés de regroupement physique. Des protéines uniques ont été identifiées qui relient les principaux composants du métabolisme cellulaire et peuvent donc être essentielles pour l'intégrité structurelle de plusieurs systèmes biosynthétiques.

Conclusion

Nos résultats révèlent des équivalences topologiques entre le réseau d'interaction protéique et le réseau de voies métaboliques. Les interactions protéiques évoluées peuvent contribuer de manière significative à augmenter l'efficacité des processus métaboliques en permettant des flux métaboliques plus élevés. Ainsi, nos résultats éclairent davantage les principes unificateurs qui façonnent l'évolution à la fois du réseau d'interaction fonctionnel (métabolique) et physique.


(14 septembre 2009 - 18 septembre 2009 )

Alors que les approches en réseau sont devenues un outil important pour étudier un large éventail de systèmes complexes pour lesquels les approches réductionnistes traditionnelles ont connu un succès limité, le plus grand enthousiasme et les plus grands triomphes ont peut-être été notés en biologie. En particulier au sein de la cellule, la variété des interactions entre gènes, protéines et métabolites est bien capturée par des représentations en réseau. La disponibilité spectaculaire de données quantitatives issues d'expériences génomiques à grande échelle a demandé des approches systémiques capables d'intégrer simultanément des informations provenant de sources multiples. En réponse, l'avènement des méthodes de « biologie des systèmes » a été fortement influencé par les méthodes de réseau. Bien que les récentes analyses de réseau aient mis en lumière les principes d'organisation du protéome ainsi que du métabolome, il existe cependant un besoin croissant de développer des approches intégratives encore plus sophistiquées à mesure que des données de meilleure qualité deviennent disponibles. Ces défis incluent le développement de méthodes systématiques pour intégrer les informations protéomiques et métaboliques, couplant ainsi leurs analyses pour la plupart séparées incorporant la localisation spatiale des constituants cellulaires, et le développement de nouveaux outils pour inclure des mesures stochastiques et variables dans le temps. Il convient de noter que la plupart des ateliers et conférences axés sur le réseau ont une portée interdisciplinaire et large, car les approches de réseau fleurissent dans de nombreux domaines. Cependant, il est nécessaire de réunir des biologistes et des scientifiques du réseau pour discuter de sujets bien définis au sein de la biologie des réseaux. L'objectif de cet atelier est de faciliter l'échange d'informations entre les biologistes (expérimentaux comme théoriques) et les scientifiques du réseau, en les sensibilisant aux capacités et méthodologies de chacun, ainsi qu'en favorisant les interactions collaboratives. L'analyse et la modélisation des réseaux d'interactions métaboliques et protéiques impliquent généralement la théorie des graphes, l'optimisation et les statistiques.

Conférenciers acceptés

Les progrès des technologies à haut débit ont transformé la microbiologie d'un domaine scientifique principalement « réductionniste » axé sur un processus cellulaire spécifique, en un domaine qui analyse le comportement d'un système entier. À cette fin, la modélisation informatique des processus biochimiques est essentielle à l'assimilation réussie de l'information biologique dans des descriptions à l'échelle du système. Le manque de mesures cinétiques a été un obstacle considérable au développement de modèles entièrement dynamiques. Cependant, cet obstacle peut être partiellement surmonté grâce à l'utilisation de la modélisation basée sur les contraintes, où la méthode la plus largement utilisée est celle de l'analyse du bilan de flux (FBA). Ce tutoriel couvrira brièvement les principes fondamentaux du développement de modèles FBA à l'échelle du génome ainsi que les différentes utilisations de ces outils pour élucider le comportement phénotypique d'une cellule. Nous aborderons également différents principes d'optimisation ainsi que certains des efforts récents tels que le développement de modèles multicellulaires et l'analyse des flux métaboliques basée sur la thermodynamique.

Mon exposé portera sur la compréhension de la fonction des protéines à l'échelle génomique. Mon laboratoire aborde cela à travers la prédiction et l'analyse de réseaux biologiques, en se concentrant sur l'interaction protéine-protéine et les facteurs de transcription-cible. Je décrirai comment ces réseaux peuvent être déterminés grâce à l'intégration de nombreuses caractéristiques génomiques et comment ils peuvent être analysés en termes de diverses statistiques topologiques. En particulier, je discuterai d'un certain nombre d'analyses récentes : (1) Améliorer la prédiction des réseaux moléculaires grâce à l'expansion systématique des ensembles d'apprentissage (2) Montrer comment l'analyse des voies à travers les environnements leur permet potentiellement d'agir comme des biocapteurs (3) Montrer comment l'intégration des données d'expression génique avec les réseaux de régulation identifie les hubs transitoires pour la caractérisation des protéines de fonction inconnue (4) L'analyse de la structure du réseau de régulation montre qu'il a une disposition hiérarchique avec les « gestionnaires intermédiaires » agissant comme des goulots d'étranglement de l'information (5) Montrant que la plupart des variations humaines se produisent à la périphérie du réseau d'interaction protéique et (6) Développer des outils Web utiles pour l'analyse des réseaux (TopNet et tYNA).


  1. La plate-forme tYNA pour l'interactomique comparative : un outil Web pour gérer, comparer et exploiter plusieurs réseaux. KY Yip, H Yu, PM Kim, M Schultz, M Gerstein (2006) Bioinformatics 22 : 2968-70.
  2. Analyse génomique de la structure hiérarchique des réseaux de régulation. H Yu, M Gerstein (2006) Proc Natl Acad Sci U S A 103 : 14724-31.
  3. Sélection positive à la périphérie du réseau protéique : évaluation en termes de contraintes structurelles et de contexte cellulaire. PM Kim, JO Korbel, MB Gerstein (2007) Proc Natl Acad Sci U S A 104 : 20274-9.
  4. Expansion de l'ensemble de formation : une approche pour améliorer la reconstruction des réseaux biologiques à partir d'interactions fiables limitées et inégales. KY Yip, M Gerstein (2008) Bioinformatique (sous presse)
  5. Quantification de l'adaptation environnementale des voies métaboliques en métagénomique T Gianoulisa, J Raes, P Patel, R Bjornson, J Korbel, I Letunic, T Yamada, A Paccanaro, L Jensen, M Snyder, P Bork, M Gerstein (2009) PNAS (sous presse )
  6. L'analyse génomique de la dynamique des réseaux de régulation révèle d'importants changements topologiques. NM Luscombe, MM Babu, H Yu, M Snyder, SA Teichmann, M Gerstein (2004) Nature 431 : 308-12.

Dans cet exposé, je présenterai l'approche théorique des graphes pour l'analyse de l'univers des replis protéiques et montrerai que les graphes de l'univers des domaines protéiques (PDUG) où les nœuds représentent les domaines structurels et les bords représentent le degré de similitude structurelle entre eux présentent une -sans échelle- inhabituelle. propriétés : la probabilité de trouver un nœud connecté à d'autres nœuds par k arêtes s'échelonne comme la loi de puissance de k avec un exposant -1,6. Cela contraste fortement avec un « modèle nul » de graphique aléatoire où une telle dépendance est censée suivre la distribution de Poisson. La recherche de l'origine de ces propriétés globales inhabituelles du PDUG révèle un scénario de « Big Bang » où tout l'univers des protéines a évolué à partir d'un petit nombre de gènes d'origine via la duplication et la divergence. Une analyse plus poussée a révélé un lien profond entre les propriétés des familles de gènes (leur taille et leur relation avec d'autres familles) et les propriétés structurelles qu'elles codent. L'approche PDUG offre la possibilité d'une construction robuste basée sur la structure des arbres phylogénétiques. En outre, nous présentons un modèle microscopique basé sur la physique de la découverte et de l'évolution des plis qui permet de visualiser et d'expliquer quantitativement le processus du Big Bang, y compris l'explication des exposants du PDUG sans échelle.

Les réseaux de transduction du signal intègrent les interactions protéine-protéine et les réactions biochimiques d'une manière qui ne se prête actuellement pas aux tests d'interaction expérimentale à haut débit. De nouvelles méthodes théoriques et informatiques sont donc nécessaires pour intégrer des informations disparates souvent indirectes dans un réseau cohérent et pour mieux comprendre les processus dynamiques pris en charge par ce réseau. Cet exposé présentera des méthodes pour synthétiser des réseaux de transduction de signaux à partir de preuves causales indirectes obtenues à partir d'expériences de knock-out ou de surexpression, et d'étendre l'analyse théorique des graphes pour incorporer la régulation négative et la régulation synergique par plusieurs composants.

Les processus cellulaires sont généralement contrôlés par des circuits de régulation des gènes qui sont constitués d'interactions entre les gènes et les protéines. Cependant, l'importance fonctionnelle d'un modèle particulier d'interactions (architecture) qui constitue un circuit génétique reste mal comprise. Pour étudier ce problème, nous avons comparé le circuit qui contrôle la différenciation des cellules de Bacillus subtilis dans l'état de compétence à un homologue modifié apparemment équivalent avec une architecture alternative. Les architectures des circuits natifs et synthétiques différaient principalement dans l'ordre des réactions successives d'activation et de répression, mais conservaient la même structure globale de rétroaction. L'analyse comparative a montré que l'ordre inversé des réactions positives et négatives entre les circuits naturels et synthétiques donne lieu à des niveaux distincts de variabilité temporelle dans la dynamique cellulaire unique (bruit). Cette différence de bruit contrôlait à son tour la plage de réponse physiologique de compétence à diverses concentrations d'ADN extracellulaire. Ces résultats démontrent un compromis induit par le bruit entre la précision temporelle et la fiabilité physiologique qui est codé dans l'architecture d'un circuit de différenciation cellulaire.

Un domaine dans lequel des progrès considérables ont été réalisés dans le développement de modèles de réseaux à l'échelle du génome est le métabolisme, un élément central de la vie. Cet exposé commencera par une brève introduction à la modélisation du métabolisme basée sur les contraintes. Je décrirai ensuite le modèle métabolique humain qui a été publié par le laboratoire Palsson en 2007, et présenterai deux études récemment publiées par mon laboratoire : (1) Développer et tester des descriptions du métabolisme de tissus humains spécifiques, y compris le cerveau, cœur, foie et rein, et étudier le rôle de la régulation post-transcriptionnelle dans la détermination du métabolisme tissulaire (NBT08), et (2) Une enquête in silico des troubles métaboliques d'erreur innée, générant des prédictions de profils métaboliques dans les biofluides pour des centaines de ces maladies ( MSB09). Enfin, je décrirai certains de nos projets en cours, en développant une approche générique pour la construction de modèles métaboliques spécifiques aux tissus et en fournissant un compte rendu informatique des altérations métaboliques dans le cancer.

Le séquençage du génome a considérablement augmenté notre capacité à comprendre la réponse cellulaire aux perturbations et a facilité le développement de mesures à l'échelle cellulaire des biomolécules cellulaires. L'intégration de telles mesures (transcriptionnelles, protéomiques, métaboliques et autres) avec des réseaux d'interactions protéine-protéine et des données de liaison aux facteurs de transcription a révélé des informations essentielles sur le comportement cellulaire. Le potentiel de ces approches de biologie des systèmes peut être considérablement amélioré en complétant les mesures ci-dessus avec des données de flux métaboliques. Les flux sont un indicateur très informatif de l'état physiologique cellulaire car ils décrivent ce que la cellule fait à un moment donné. En combinaison avec les métabolites et les données transcriptionnelles, ils forment un ensemble puissant qui peut être utilisé pour générer une image beaucoup plus complète de la physiologie cellulaire.

Dans cet exposé, je résumerai les méthodes de détermination à haute résolution des flux métaboliques à l'aide de méthodes de marquage isotopique stable. Je montrerai ensuite comment les flux métaboliques peuvent être appliqués pour identifier les étapes de contrôle du taux dans les réseaux métaboliques et ainsi diriger la modulation du métabolisme au niveau génétique afin d'amplifier les flux pour la surproduction de carburants et de produits chimiques. Dans un autre exemple, des flux seront utilisés, ainsi que des données de transcription et de métabolites provenant de cultures de levure à l'état d'équilibre pour élucider les fonctions du régulateur global de levure Gcn4p. Bien que l'expression de l'ARNm à elle seule ne prédise pas directement la réponse métabolique, cette corrélation s'est améliorée en incorporant un modèle de biosynthèse des acides aminés basé sur un réseau (de r = 0,07 à 0,80 pour l'accord ARNm-flux). Le modèle a également révélé certains principes biologiques généraux : le recâblage du flux métabolique par régulation transcriptionnelle et la densité d'interaction métabolite-enzyme en tant que déterminant clé du contrôle biosynthétique. Ces résultats soulignent l'importance des flux en tant qu'indicateur critique de l'état du métabolisme cellulaire et guide irremplaçable pour l'ingénierie métabolique.

Deux tendances stimulent l'innovation et la découverte dans les sciences biologiques : les technologies qui permettent des études holistiques des gènes, des protéines et des métabolites et la prise de conscience que les processus biologiques sont entraînés par des réseaux complexes de molécules biologiques en interaction. Cependant, il existe un décalage entre les listes de gènes issues des projets de séquençage du génome et les schémas de réseau indispensables pour comprendre le lien entre génotype et phénotype. 'Les technologies omiques telles que les puces à ADN étaient autrefois présentées comme offrant une fenêtre sur ces réseaux, mais jusqu'à présent leur succès a été limité, en grande partie parce que la grande dimension qu'elles produisent ne peut pas être entièrement limitée par le nombre limité de mesures et dans partie parce que les données elles-mêmes ne représentent qu'une petite partie de l'histoire complète. Pour contourner ces limitations, nous avons développé des méthodes qui combinent les données 'omiques avec d'autres sources d'information dans le but d'exploiter, plus complètement, le recueil d'informations que nous avons pu amasser. Ici, nous présenterons un certain nombre d'approches que nous avons développées, y compris une base de données intégrée qui collecte des données cliniques, de recherche et du domaine public et les synthétise pour stimuler la découverte et une application de l'analyse du réseau bayésien appliqué aux données d'expression génique qui en déduit des modèles prédictifs de réponse du réseau. Pour l'avenir, nous examinerons des modèles d'espace d'état plus abstraits qui pourraient potentiellement nous conduire à une biologie théorique et prédictive plus générale.

La révolution génomique a conduit à la génération d'une énorme quantité de données sur la composition, la régulation et la physiologie des réseaux cellulaires. Il est nécessaire d'intégrer ces informations dans un cadre informatique afin que des prédictions testables puissent être faites en tenant compte de la complexité inhérente aux systèmes cellulaires. Les avancées récentes sur l'intégration de modèles de réseaux de régulation transcriptionnelle avec des reconstructions de réseaux métaboliques seront présentées. Les modèles à l'échelle du génome résultants ont été utilisés pour faire des prédictions testables expérimentalement.De nouvelles méthodes pour identifier des cibles médicamenteuses idéales et des mécanismes de pathogénicité seront également discutées, avec des résultats présentés à partir de deux agents pathogènes humains importants, Leishmania major et Pseudomonas aeruginosa. Ces approches de biologie des systèmes promettent de révolutionner les efforts de découverte de médicaments pour relever les défis de nombreuses maladies humaines ainsi que pour répondre à des questions fondamentales en biologie.

Une grande classe de protéines appelées enzymes réalise la majorité des processus chimiques du métabolisme cellulaire. Les fonctions biologiques et chimiques de ces enzymes sont étroitement liées à leurs structures 3D, notamment des régions localisées appelées sites actifs. Les parties d'un gène qui codent pour un site actif catalytique ont tendance à être hautement conservées au cours de l'évolution, même lorsque le gène dans son ensemble a subi des changements de séquence importants. De plus, les acides aminés du site actif sont généralement répartis sur une séquence protéique (ou occasionnellement sur plusieurs séquences protéiques). impossible pour des protéines éloignées. Un réseau construit à partir de la similarité structurelle du site actif des enzymes offre une nouvelle approche pour l'étude à grande échelle de l'évolution de la fonction des protéines. Ici, je présenterai les résultats clés de notre analyse en réseau de toutes les structures métalloprotéiques (>10 000) déposées dans la Protein Data Bank (PDB).

Pour les réseaux cellulaires complexes, des connaissances mécanistiques limitées, des hypothèses contradictoires et des données expérimentales relativement rares entravent le développement de modèles mathématiques en tant qu'outils d'analyse des systèmes. L'exposé se concentre sur deux approches pour faire face à cette combinaison de complexité et d'incertitude. Ils combinent développement théorique et applications à des exemples biologiques spécifiques. Premièrement, les stoechiométries de réaction du réseau sont relativement bien caractérisées et donc des points de départ appropriés pour l'analyse des voies. Il permet d'étudier l'espace des états possibles d'un réseau (métabolique). Des applications deviennent possibles pour les réseaux à l'échelle du génome, et elles vont de l'étude des effets des perturbations du réseau à la prédiction des caractéristiques de contrôle cellulaire. De plus, des extensions théoriques récentes relient l'approche à la dynamique des systèmes, par exemple, pour identifier les mécanismes clés dans les processus de décision cellulaire. Deuxièmement, et de manière plus mécanique, nous proposons de formuler des hypothèses dans une bibliothèque de modèles mathématiques dynamiques, de les évaluer par rapport à des observations expérimentales et de concevoir des expériences pivots pour discriminer entre les alternatives. Pour la signalisation TOR chez la levure, cette stratégie a identifié des mécanismes de contrôle clés qui sont quantitativement cohérents avec toutes les données expérimentales disponibles, et l'extension systématique de l'approche à des réseaux plus grands est un défi actuel. Dans l'ensemble, l'importance des structures de réseau semble l'emporter sur le réglage fin des paramètres. L'analyse orientée structure des systèmes biologiques fournit ainsi des problèmes théoriques difficiles ainsi que de larges perspectives pour découvrir l'organisation et la fonctionnalité des réseaux cellulaires.

Les voies et les complexes peuvent être considérés comme des unités fondamentales de la biologie cellulaire, mais leur relation est difficile à définir. Des expériences complètes de marquage et de purification ont généré des réseaux d'interactions qui représentent les complexes protéiques les plus stables dans les cellules de levure. Nous décrivons ce travail et montrons comment l'analyse des relations épistatiques par paires entre les gènes complète les données d'interaction physique et peut en outre être utilisée pour classer les produits géniques en voies parallèles et linéaires.

Pendant plus d'un demi-siècle, il a été supposé que les macromolécules forment des réseaux complexes de composants interagissant fonctionnellement, et que les mécanismes moléculaires sous-jacents à la plupart des processus biologiques correspondent à des états stables particuliers adoptés par de tels réseaux cellulaires. Cependant, jusqu'à récemment, les conjectures théoriques au niveau des systèmes sont restées largement méconnues, principalement en raison du manque de données expérimentales à l'appui.

Pour générer les informations nécessaires pour éventuellement aborder la relation entre les réseaux cellulaires complexes et la biologie, nous avons initié, à l'échelle du protéome entier, une approche intégrée pour modéliser l'interaction protéine-protéine ou réseaux "interactome". Nos principales questions sont : Comment s'organisent les réseaux d'interactomes à l'échelle de la cellule entière ? Comment pouvons-nous découvrir les caractéristiques locales et mondiales qui sous-tendent cette organisation, et comment les réseaux d'interactomes sont-ils modifiés dans les maladies humaines, telles que le cancer ?

Un réseau de gènes de troubles et de maladies liés par des associations connues de gènes de troubles offre une plate-forme pour explorer dans un seul cadre de théorie des graphes toutes les associations connues de phénotypes et de gènes de maladies, indiquant l'origine génétique commune de nombreuses maladies. Nous constatons que la grande majorité des gènes de la maladie ne sont pas essentiels et ne montrent aucune tendance à coder des protéines hub, et leur modèle d'expression indique qu'ils sont localisés dans la périphérie fonctionnelle du réseau. Nous étudions également l'évolution de la maladie des patients à l'aide d'un réseau résumant les associations de maladies extraites de 32 millions de demandes d'assurance-maladie, démontrant que les liens au niveau cellulaire entre les protéines causant la maladie sont amplifiés dans la population en tant que modèles de comorbidité.


Résultats et discussion

La première étape vers la construction d'un modèle métabolique à l'échelle du génome consiste à reconstruire le réseau métabolique à l'échelle du génome, généralement effectué à l'aide de bases de données d'annotations accessibles au public et de la littérature publiée. Une liste est rassemblée de réactions qui sont soit catalysées par des enzymes codées dans le génome, soit définies expérimentalement, puis étendues pour définir les relations entre les gènes, les enzymes, les réactions, les métabolites et les voies dans le réseau. Pour établir le modèle métabolique à l'échelle du génome, les réactions du réseau sont soumises à un certain nombre de contraintes physico-chimiques - soit calculées soit basées sur des données physiologiques - pour simuler des conditions culturelles définies. Compte tenu de la littérature limitée et des données biochimiques disponibles pour C. beijerinckii, nous avons d'abord reconstruit notre réseau métabolique en utilisant une approche semi-automatisée pour obtenir des données d'annotation à partir de trois bases de données principales, puis nous avons utilisé des algorithmes de calcul et une curation manuelle pour affiner davantage le réseau. Pour tester la capacité du je Modèle CM925 pour simuler le comportement observé expérimentalement, nous avons mené une série de fermentations discontinues pour comparer les taux d'absorption de substrat et de formation de produit mesurés avec les prédictions du modèle. Le modèle fournit une base solide pour étudier les caractéristiques uniques de C. beijerinckii métabolisme et guider les futures expériences d'ingénierie métabolique pour améliorer la capacité de production de butanol.

Le réseau métabolique initial à l'échelle du génome

Les annotations du génome disponibles pour les organismes moins caractérisés sont en grande partie générées par des procédures informatiques basées sur l'informatique (c'est-à-dire qu'elles manquent souvent de curation manuelle), et il y a une pénurie de données biochimiques confirmées expérimentalement. Pour faciliter la reconstruction, élargir la portée de notre C. beijerinckii et évaluer la confiance pour chaque relation gène-protéine-réaction (GPR) incluse, nous avons fusionné les données d'annotation de trois bases de données indépendantes : KEGG (Kyoto Encyclopedia for Genes and Genomes) [28], BioCyc [29] et The SEED [30 , 31]. Pour réduire le temps nécessaire pour assembler les données d'annotation dans un réseau à l'échelle du génome bien connecté, nous avons utilisé une approche informatique semi-automatisée (voir Méthodes) pour récupérer et intégrer les informations de chaque base de données.

La base de notre réseau, comprenant 525 réactions, a été obtenue à partir de la base de données KEGG. Nous avons étendu ce réseau pour inclure 75 et 136 réactions uniques supplémentaires provenant respectivement des bases de données SEED et BioCyc. Une réconciliation et une intégration minutieuses des données biochimiques obtenues étaient nécessaires car les trois bases de données ne suivent pas une nomenclature uniforme pour les réactions, les métabolites et les voies. Nous avons choisi d'adhérer à la nomenclature utilisée par la base de données BiGG (le plus grand référentiel disponible pour les modèles métaboliques à l'échelle du génome) afin de permettre une comparaison plus facile avec d'autres in silico modèles [32]. Cette étape de cartographie a été rapidement réalisée en utilisant un formalisme matriciel pour superposer les différentes bases de données (voir Méthodes) basées sur la stoechiométrie. La cartographie entre BioCyc et KEGG pour les noms de réaction et de métabolite dans C. beijerinckii est disponible dans le fichier supplémentaire 1.

Nous avons analysé le chevauchement entre les informations d'annotation collectées auprès de KEGG, BioCyc et The SEED pour aider à évaluer la fiabilité de chaque réaction incluse dans le réseau. Les réactions trouvées dans les trois bases de données ont été considérées comme ayant la plus grande fiabilité, suivies des réactions dans deux des bases de données, et enfin des réactions trouvées dans une seule base de données. Étonnamment, sur les 776 réactions suggérées collectivement, nous n'avons trouvé que 264 réactions (34 %) présentes dans les trois annotations (Figure 1). Étant donné que de nombreux modèles à l'échelle du génome sont construits de manière similaire, le faible chevauchement observé pour C. beijerinckii suggère que les chercheurs doivent faire preuve de prudence lors de la construction de réseaux pour de nouveaux organismes en utilisant uniquement des annotations basées sur la bioinformatique. La reconstruction et les tests phénotypiques de modèles à l'échelle du génome constituent un moyen important d'intégrer, de gérer et de valider les informations d'annotation. Une analyse plus poussée de la relation entre la contribution de la base de données et la précision du modèle (utilisée pour évaluer la qualité des annotations pour C. beijerinckii) est discuté ci-dessous.

Comparaison de la base de données d'annotations. Chevauchement des réactions pour les trois bases de données d'annotations utilisées pour construire le réseau métabolique à l'échelle du génome.

En plus d'établir la fiabilité pour chaque réaction incluse, nous avons évalué les associations de gènes prédites pour les réactions trouvées dans deux ou plusieurs bases de données d'annotations (voir le fichier supplémentaire 2A pour une comparaison GPR basée sur la base de données). Dans les cas où les annotations ne concordaient pas entre les bases de données, les associations ont été sélectionnées pour le modèle sur la base des preuves BLAST [33] les plus solides (c'est-à-dire l'identité génomique entre l'enzyme associée et les protéines de la base de données annotées de manière similaire). De manière rassurante, nous avons constaté que la plupart des désaccords d'annotation étaient dus à une relation gène-réaction manquante plutôt qu'à une association contrastée, ce qui suggère que les réactions qui se chevauchent constituent une zone bien annotée du réseau.

Le raffiné C. beijerinckii réseau métabolique

Le projet de réseau métabolique dérivé des données d'annotation du génome - même avec des informations combinées provenant de plusieurs bases de données - contenait des lacunes (c'est-à-dire des réactions manquantes) qui empêchaient la simulation de la croissance cellulaire et un comportement physiologique précis (par exemple, la production de butanol). Les lacunes créent des sections/régions non connectées dans le réseau, empêchant ainsi la production ou la consommation d'un métabolite. À son tour, le métabolite « sans issue » a souvent été observé expérimentalement comme consommé ou produit, ou est nécessaire pour simuler la croissance cellulaire. Les lacunes du réseau doivent donc être comblées en utilisant des informations de la littérature et/ou des preuves génomiques au-delà de ce qui a été inclus dans les bases de données d'annotations.

L'identification des lacunes du réseau et la sélection de réactions candidates pour combler les lacunes avec des preuves solides à l'appui peuvent prendre beaucoup de temps, en particulier pour les organismes moins caractérisés comme C. beijerinckii. Par conséquent, nous avons utilisé les algorithmes GapFind et GapFill [34] pour identifier et résoudre les écarts de manière informatique, minimisant ainsi la quantité de curation manuelle nécessaire. Les réactions candidates suggérées par GapFill ont été choisies dans la base de données BiGG. Cette base de données contient des modèles à l'échelle du génome qui ont fait l'objet d'un raffinement et d'une validation approfondis, et constitue donc une ressource de réactions de haute confiance [32]. Après avoir examiné les réactions candidates à la recherche de preuves BLAST [33] suffisantes, nous avons identifié 22 annotations putatives supplémentaires (et 22 réactions de réseau supplémentaires) pour le C. beijerinckii génome (une liste des réactions ajoutées peut être trouvée dans le fichier supplémentaire 1) - dont sept étaient nécessaires pour la croissance cellulaire simulée. Bien que GapFind et GapFill soient des algorithmes de calcul très utiles, nous avons constaté qu'ils ne sont pas garantis pour suggérer des réactions avec des preuves solides à l'appui et ne se concentrent pas spécifiquement sur la réalisation de la fonction objectif du modèle. Par conséquent, l'ajout manuel de réactions basé sur des preuves de la littérature était encore nécessaire pour combler des lacunes importantes dans le C. beijerinckii réseau.

Notamment, le projet de réseau manquait d'une enzyme butanol déshydrogénase, une ferredoxine NAD + réductase, et ne contenait pas les transformations biochimiques nécessaires à la production de phospholipides connus. Réactions pour une enzyme NAD + et NADP + butanol déshydrogénase (BUTOHDx et BUTO), connus pour exister dans les clostridies producteurs de solvants [2, 35], ont été ajoutés sur la base des scores BLAST [33] pour le C. beijerinckii gène Cbei_2421. Nous n'avons pas pu trouver d'association génique pour la ferredoxine NAD + réductase - même si la NADP + réductase correspond à Cbei_0661 et Cbei_2182 - mais a ajouté la réaction (FDXNRx) sur la base des preuves de la littérature [2]. La voie des phospholipides a été caractérisée en utilisant une approche similaire à celle de Lee et al. [23], en s'appuyant sur les données expérimentales de la biosynthèse des acides gras [36]. Au total, 38 réactions ont été ajoutées à la suite de notre curation manuelle - dont 11 ont été ajoutées sur la base de la comparaison BLAST [33] avec les réactions de Senger & Papoutsakis C. acetobutylicum modèle [24, 25] et dont 22 ont été ajoutés pour la formation de composants phospholipidiques et de biomasse. La source des réactions ajoutées manuellement (ainsi que toutes les autres réactions incluses dans le modèle) se trouve dans le fichier supplémentaire 1).

L'une des lacunes les plus importantes du projet C. beijerinckii réseau a empêché la production d'oxoglutarate simulée par un modèle, un composant majeur du métabolisme central. Cette lacune est due à l'absence de preuves génétiques des réactions enzymatiques nécessaires pour terminer le cycle du TCA. Nous avons terminé le cycle TCA dans le modèle sur la base des conclusions de deux études expérimentales récentes, dans lesquelles le marquage au carbone a montré que C. acetobutylicum utilise un cycle TCA bifurqué aboutissant à une sécrétion de succinate [37, 38]. La reconstruction initiale ne supportait pas un cycle TCA bifurqué : notre réseau manquait de citrate synthase (CS), succinyl-CoA synthétase (SUCOAS), et un transport succinate (SUCCex) réaction. De plus, la directionnalité des réactions existantes ne supportait pas le flux observé expérimentalement. Pour permettre la simulation du cycle bifurqué et permettre la production d'oxoglutarate, nous avons ajouté les trois réactions manquantes (sans preuve génétique) et la directionnalité de la réaction restreinte à celle observée dans l'étude.

Le modèle à l'échelle du génome (je CM925)

À partir de notre réseau métabolique raffiné, nous avons construit le modèle à l'échelle du génome en représentant les réactions, les associations de gènes, les informations sur les voies et la directionnalité des réactions sous forme de matrice (voir le fichier supplémentaire 1 et le fichier supplémentaire 3 pour les fichiers modèles). Ce modèle pour C. beijerinckii, nommé je CM925 conformément au modèle de convention de nommage proposé par Reed et al. [39], contient 938 réactions, 881 métabolites et 925 gènes - représentant 18% du total des gènes codant pour les protéines dans le génome [40, 41]. Réactions de transport à travers la membrane cellulaire - collectées à partir des bases de données BioCyc et KEGG, ainsi que de la publication C. acetobutylicum modèles [23–25] et les modèles à l'échelle du génome pour Bacillus subtilis[42, 43]--constituent 67 des 938 réactions. je CM925 contient le plus grand nombre de gènes, de réactions et de métabolites par rapport aux quatre autres modèles clostridiens (tableau 1), cela pourrait être le résultat des méthodes de construction du modèle, mais reflète probablement le fait que C. beijerinckii a un génome 50 % plus gros que les autres clostridies.

Les réactions en je CM925 couvre 95 voies (organisées en 13 groupes principaux sur la figure 2), telles que définies par la nomenclature des voies KEGG. Le métabolisme des glucides et des acides aminés représente les plus grandes portions du réseau. Pour chaque voie, nous avons calculé le pourcentage de réactions qui peuvent ou ne peuvent pas être utilisées dans les simulations de milieux minimaux de glucose (Figure 2) afin d'évaluer la connectivité du modèle. Dans l'ensemble, 47 % des réactions dans toutes les voies sont bloquées, ce qui est comparable aux autres in silico modèles à l'échelle du génome [44]. Bon nombre de ces réactions bloquées étaient concentrées dans des voies presque entièrement bloquées, telles que le métabolisme des terpénoïdes et des polycétides, ce qui suggère que bon nombre des réactions bloquées sont en fait le résultat de voies bloquées. Les voies impliquant le métabolisme des glucides (par rapport à une voie plus connectée telle que le métabolisme des nucléotides) peuvent avoir un nombre plus élevé de réactions bloquées dans des conditions de milieu glucose car elles contiennent de nombreuses réactions destinées au métabolisme sur des substrats de sucre alternatifs.

Distribution des voies pour les réactions dans je CM925. Le nombre de réactions qui peuvent transporter le flux est représenté en jaune et le nombre qui ne peut pas transporter le flux est représenté en rouge (avec des bandes noires) pour chaque domaine du métabolisme. Les pourcentages indiquent la contribution globale en pourcentage de cette voie au modèle. Les réactions bloquées ont été déterminées en simulant la croissance sur un milieu minimal de glucose.

Nous avons évalué la contribution des voies de chaque base de données d'annotations (voir le fichier supplémentaire 2B) pour déterminer (i) si une base de données présentait une couverture plus complète dans un domaine du métabolisme (par exemple, le métabolisme des glucides) et (ii) si une base de données contribuait à davantage de réactions bloquées. le modèle. Pour chacune des 13 catégories de voies décrites dans la figure 2, nous avons trouvé une couverture similaire entre KEGG, BioCyc et SEED, cela indique que le petit chevauchement trouvé entre les bases de données n'est pas simplement le résultat d'une base de données contribuant plus fortement à un domaine particulier du métabolisme. . De plus, chaque base de données a contribué à un nombre similaire de réactions bloquées : 22 % des réactions bloquées provenaient de BioCyc, 21 % de KEGG, 10 % de The SEED, 18 % de deux bases de données ou plus et 17 % des trois bases de données (ces les pourcentages ne sont pas directement proportionnels au nombre total d'enzymes apportées par chaque base de données). Par conséquent, nous n'avons pas constaté qu'une base de données surpassait une autre en termes de connectivité du modèle.

Validation de je CM925

Pour évaluer la précision prédictive de je CM925, nous avons utilisé Flux Balance Analysis (FBA, voir Méthodes) pour reproduire le comportement expérimental de la fermentation. Le formalisme FBA représente toutes les réactions connues dans la cellule sous la forme d'une matrice stoechiométrique et utilise une programmation linéaire pour maximiser une fonction objectif définie par l'utilisateur (par exemple, la croissance) sous une hypothèse d'état stable [45, 46]. Surtout, FBA peut être utilisé pour simuler des paramètres expérimentaux tels que les taux de croissance, les taux d'absorption et les taux de sécrétion de sous-produits, permettant une évaluation quantitative de l'accord du modèle avec le comportement physiologique.

Pendant la fermentation, C. beijerinckii produit six sous-produits primaires contenant du carbone : acétate, butyrate, acétone, butanol, éthanol et dioxyde de carbone. En raison de la nature biphasique de C. beijerinckii métabolisme, les cinq sous-produits ne sont pas tous produits aux mêmes taux tout au long de la fermentation. Dans une étude ciblée sur l'expression génique, Shi et Blaschek ont ​​découvert que la formation de solvant commençait au cours de la croissance mi-exponentielle (7-8 heures), cette période était caractérisée par des niveaux d'expression accrus des gènes de formation de solvant et accompagnée d'une diminution de l'expression des gènes associés à la formation d'acide. 15]. Pour valider la capacité du modèle à simuler la sécrétion de sous-produits et les taux de croissance, nous avons mené nos propres expériences de fermentation par lots en utilisant des cultures NCIMB 8052 cultivées sur un support minimal. Semblable à Shi et Blaschek, nous avons observé le passage de la formation de butyrate à la formation de butanol à 8-10 heures, nous avons choisi de concentrer nos simulations sur la période ultérieure de croissance exponentielle au cours de laquelle le butanol est produit.

Nous avons déterminé les taux d'absorption de substrat et de sécrétion de produit pour les cultures cultivées à quatre températures (30 °C, 33 °C, 35 °C, 40 °C) afin d'obtenir plusieurs ensembles de données avec lesquels comparer les simulations de modèles. Seuls les résultats pour 35°C sont rapportés dans le texte principal, car il est le plus représentatif des conditions de fermentation typiques (les résultats expérimentaux complets sont disponibles dans le fichier supplémentaire 2C). Des estimations de taux expérimentales (en unités de mmol/gDW/hr) ont été déterminées pour le butanol, l'acétone, l'éthanol, l'acétate et le butyrate en utilisant la concentration du produit et le taux de croissance (voir Méthodes, fichier supplémentaire 2D). Nous avons observé une consommation nette de glucose et d'acétate (les composés contenant du carbone dans nos milieux de croissance définis) et une production nette d'acétone, de butanol et d'éthanol. Lors de l'exécution des simulations, les taux d'absorption et de sécrétion spécifiés ont été contraints de se situer dans un écart type des taux mesurés expérimentalement, tandis que les taux restants ont été déterminés par FBA. Toutes les simulations du modèle ont été menées avec la production de biomasse (définie par l'équation de la biomasse, voir Méthodes et fichier supplémentaire 1 pour plus de détails) comme objectif cellulaire supposé.

Pour évaluer les prédictions du modèle pour les taux de formation de produits et le taux de croissance, nous avons effectué des simulations avec une absorption de glucose et d'acétate limitée par le modèle. Pour ces conditions de simulation, le je Le modèle CM925 a prédit la production uniquement d'acétone et de butyrate - la production de butanol et d'éthanol n'a pas été prédite (figure 3A, voir le fichier supplémentaire 2D pour des comparaisons à différentes températures). De plus, le taux de croissance prédit était plus élevé que notre taux de croissance observé expérimentalement. Ces prédictions ne sont pas surprenantes pour l'objectif de croissance optimale supposé, étant donné la compréhension expérimentalement soutenue de l'oxydoréduction cellulaire dans C. beijerinckii. Plus précisément, l'élimination des électrons en excès est réalisée dans la culture cellulaire grâce à la génération de butyrate, de butanol et d'hydrogène. Cependant, l'élimination via l'hydrogène et le butyrate permettrait la production d'ATP avec une perte minimale de carbone, améliorant ainsi l'objectif de biomasse. Les limitations thermodynamiques de la réaction d'hydrogénase empêchent une telle élimination biologiquement [2, 47], mais ces contraintes n'ont pas été incorporées dans je CM925 explicitement parce que des taux de formation d'hydrogène expérimentaux clairs n'étaient pas disponibles. La production d'acétone dans le modèle pourrait également être attribuée à la réabsorption d'acétate : la formation d'acétone utilise l'acétoacétate, un sous-produit de la réabsorption d'acétate par la CoA-transférase.

Comparaison de je Simulations CM925 avec données expérimentales. Les valeurs modèles et expérimentales pour les flux de produits, les flux d'absorption et les taux de croissance représentent les conditions pour la fermentation à 35°C. Les barres d'erreur indiquent la plage expérimentale observée et les losanges représentent les divers résultats de simulation. (UNE) montre les résultats de la simulation pour le cas où seuls les taux d'absorption d'acétate et de glucose sont limités. (B) montre le cas où ces taux d'absorption, ainsi que les taux de formation de butanol, d'acétone et de butyrate sont limités. Dans (B), les losanges bleus représentent le cas où le maintien d'ATP non associé à la croissance est nul et les losanges jaunes représentent le cas où le maintien d'ATP non associé à la croissance est de 8,5 mmol/gDW/h.

Pour confirmer que je CM925 est capable de simuler la production de tous les métabolites attendus à des taux déterminés expérimentalement, des contraintes supplémentaires ont été ajoutées aux réactions de sécrétion de produit pour le butanol, l'acétone, l'éthanol et le butyrate (figure 3B, voir le fichier supplémentaire 2D pour des comparaisons à différentes températures). Comme la formation du produit est connue pour être associée à la génération d'ATP dans la cellule [2], l'effet des exigences de production d'ATP a été analysé en modifiant les contraintes sur le maintien de l'ATP non associé à la croissance (NGAM) réaction. La première simulation supposait qu'aucun ATP n'était nécessaire pour la maintenance non associée à la croissance, et résultait en un taux de croissance plus élevé que prévu. Cette dernière simulation - avec un NGAM valeur qui a guidé le in silico taux de croissance à la plage calculée expérimentalement - a démontré que le phénotype expérimental attendu peut être reproduit par le modèle. La sélection NGAM la valeur était de 8,5 mmol/gDW/hr, ce qui est similaire de façon encourageante à la valeur utilisée dans le E. coli je Modèle AF1260 [48]. A partir de ces simulations, nous avons conclu que tous les schémas de sécrétion observés existent dans l'espace de solution du modèle, même si les schémas de sécrétion de solvant dans C. beijerinckii ne sont pas très bien décrits par le je Modèle CM925 lors de l'utilisation de l'objectif de croissance optimale.

Analyse des réactions actives dans je CM925

Après avoir vérifié que je CM925 pourrait reproduire les taux d'absorption et de sécrétion expérimentaux, nous avons étudié les distributions de flux sous-jacentes utilisées par le modèle pour atteindre ces taux. Dans des conditions de croissance optimales pour un milieu minimal défini, une étude précédente a révélé que les modèles à l'échelle du génome pour Helicobacter pylori, Staphylococcus aureus, E. coli, et S. cerevisiae avoir environ 300 réactions actives [44] je CM925 avait 291 réactions actives. Fait intéressant, 137 de ces 291 réactions (Figure 4) ont été trouvées dans les trois bases de données d'annotations, ce qui représente un nombre statistiquement significatif de réactions actives parmi les réactions qui se chevauchent (P = 3,52 × 10 -9 , test exact de Fisher voir Méthodes). Étant donné que les réactions actives sont celles utilisées par le modèle pour reproduire un comportement physiologique connu, la surreprésentation des réactions trouvées dans les trois bases de données soutient notre hypothèse selon laquelle les réactions qui se chevauchent ont la plus grande fiabilité pour l'inclusion.

Origine des réactions actives. Les pourcentages représentent la fraction de toutes les réactions actives (dans la simulation contrainte, basée sur des expériences à 35 °C) provenant de bases de données individuelles, d'une combinaison de bases de données ou d'autres sources.

Pour étudier plus avant les réactions actives, nous avons schématisé les réactions portant le plus grand flux de glycolyse, le cycle du TCA et les voies de formation du produit (Figure 5). Dans la glycolyse, nous avons constaté que le modèle utilisait le transporteur PTS plutôt que ABC pour absorber le glucose extracellulaire. Le choix de PTS sur ABC suggère que C. beijerinckii peut utiliser l'ancien transporteur principalement comme le moyen le plus efficace de convertir le glucose en biomasse, une conclusion qui est corroborée par l'observation expérimentale du transport PTS (GLCpts) utilisation par C. beijerinckii[14, 16, 49]. Le flux à travers le cycle du TCA suit la voie observée expérimentalement de la production d'oxoglutarate [37] via la citrate synthase (CS). Cependant, le modèle n'a pas utilisé la transformation de l'oxaloacétate en succinate ou la conversion du succinyl-CoA en succinate, comme cela a été observé par Amador-Noguez et al. Pour la succinyl-CoA synthétase (SUCOAS, une réaction générant de l'ATP), nous avons constaté que l'augmentation des besoins en ATP entraînait une activation.

Carte du réseau des réactions actives importantes. Les flux de réseau ont été déterminés dans des simulations de fermentation à 35°C avec ATPM = 8,5 mmol/gDW/hr. Les ovales bleus indiquent les substrats, les losanges rouges indiquent les produits et les cases jaunes indiquent les métabolites intracellulaires uniquement. Les nombres à côté de chaque nom de réaction représentent le flux prédit par le modèle. Les flux ne sont pas nécessairement cohérents d'une réaction à l'autre car d'autres voies de flux plus petites interagissent avec les réactions ici.

Contrairement à la production expérimentale d'éthanol qui provient principalement de l'acétyl-CoA [2, 40], je CM925 a prédit qu'environ 70 % de l'éthanol était fabriqué à partir de la thréonine (dérivé de l'aspartate) par l'enzyme thréonine acétaldéhyde-lyase (THRA). Le butanol, le butyrate et l'acétone ont été produits en utilisant les voies caractérisées expérimentalement, et l'acétate a été consommé en utilisant la CoA-transférase (MANTEAU1) comme prévu [2, 40]. Curieusement, le modèle a prédit la production et la consommation simultanées de butyrate en utilisant la butyrate kinase (BUTK) et la CoA-transférase (MANTEAU2), respectivement. La recapture des acides par les clostridies solvantogènes a été établie expérimentalement, l'une des principales suggestions pour ce comportement étant un moyen de détoxification de l'environnement acide [2]. Étant donné que l'objectif principal de nos simulations est de maximiser le flux à travers l'équation de la biomasse dans les limites imposées, il est fort probable que la motivation de la réabsorption du butyrate par le je Le modèle CM925 est la génération d'ATP supplémentaire - un composant majeur de la biomasse. Des études expérimentales antérieures sur la recapture de l'acide [41-43] ne soutiennent cependant pas cette motivation suggérée, ce qui fait d'une exploration supplémentaire des motivations du modèle un domaine d'intérêt intéressant pour l'avenir. Ces découvertes expérimentales suggèrent en outre que des pressions sélectives autres que la croissance optimale peuvent dominer le phénotype dans des conditions de fermentation typiques.

Une analyse de variabilité de flux (FVA) a été réalisée pour évaluer la robustesse de nos réactions schématisées (figure 6, voir le fichier supplémentaire 2E pour une liste complète). FVA calcule dans quelle mesure les réactions du réseau peuvent changer sans affecter le taux de croissance maximal simulé - le modèle représente un système sous-déterminé, et même lors de l'optimisation pour un objectif spécifique, plusieurs solutions existent pour chaque ensemble de contraintes [50]. ACK, PTA, BUTK, BCOPBT, COAT1, et MANTEAU2 sont liés à l'absorption et à la production d'acétate et de butyrate. Comme on le soupçonne, il est possible que les deux métabolites (soit ensemble, soit indépendamment) soient simultanément produits et consommés. La variation observée dans BUTOHDx et HACD1x indique que les versions NAD + ou NADP + de ces réactions peuvent être utilisées sans effet sur le taux de croissance. De même, la variation observée dans PFL, POR4, et PYK montre des méthodes tout aussi optimales de formation et de consommation de pyruvate.

Analyse de la variabilité du flux des réactions actives importantes. Les barres représentent la plage possible (minimum et maximum) des flux calculés par Flux Variability Analysis pour les réactions décrites dans Figure 5.

Comprendre la production de butanol : le rôle de l'hydrogène moléculaire

La formation d'hydrogène est connue pour jouer un rôle important dans l'équilibrage du redox cellulaire pour C. beijerinckii, et a été trouvé pour effectuer la production de butanol [2, 51, 52]. Nous avons confirmé cette relation dans le je Modèle CM925 utilisant une analyse de robustesse [17, 50] pour comparer les effets de divers taux de sécrétion d'hydrogène sur la production d'acétate, de butyrate, d'acétone, de butanol et d'éthanol. Lorsqu'elles ont été cultivées sur du glucose et de l'acétate, nous avons constaté que la maximisation du taux de croissance spécifique conduisait à la formation d'acétone et de butyrate. Seule cette simulation avait un taux de production d'hydrogène prévu d'environ 18 mmol/gDW/hr (figure 7). Notre analyse a montré que pour observer une production de butanol positive, la production d'hydrogène doit être limitée à moins d'environ 10 mmol/gDW/hr, le taux de croissance correspondant devient sous-optimal avec cette contrainte. Étant donné que les mécanismes de production d'éthanol et de butanol consomment tous deux le même nombre de molécules de NADH (deux dans chaque voie), le modèle a prédit qu'à de faibles taux de production d'hydrogène, la production d'éthanol ou de butanol pourrait être utilisée pour équilibrer l'oxydoréduction sans changement du taux de croissance. . In vivo, la réglementation joue probablement un rôle dans la détermination de la quantité de chaque produit est fabriqué.

Effet du taux de formation d'hydrogène avec une absorption fixe de glucose et d'acétate. H2 Le flux de sortie a été varié pour examiner l'effet de la production d'hydrogène sur les taux de formation prévus pour le butyrate, l'acétone, le butanol, l'éthanol et la biomasse. Les taux d'absorption de glucose et d'acétate ont été fixés à 9,39 et 3,41 mmol/gDW/h, respectivement, et l'entretien non associé à la croissance a été fixé à 8,5 mmol/gDW/h. Notez que bien que la formation positive d'éthanol ne soit pas représentée dans le graphique, la FVA a trouvé que la production d'éthanol et de butanol était interchangeable, sans effet néfaste sur le taux de croissance, probablement parce que la consommation nette de NADH est identique dans les deux scénarios. Expérimentalement, la formation d'éthanol se produit à un rythme plus lent que la formation de butanol.

Le compromis observé dans nos simulations entre la formation d'hydrogène et la formation de solvant a été observé expérimentalement dans C. acetobutylicum. Kim, et al. [52] ont constaté qu'une diminution de l'activité hydrogénase (induite par une intoxication au monoxyde de carbone) lorsqu'elle était cultivée sur du glucose entraînait une diminution du taux de croissance, une diminution de la production d'acétone, d'acétate et de butyrate et une augmentation de la production d'éthanol et de butanol. Comme cette expérience a été menée sans acétate dans le milieu initial, nous avons à nouveau étudié l'effet des taux de production d'hydrogène, mais avec le glucose comme seule entrée de modèle contenant du carbone (Figure 8). Nous avons observé que des taux de formation d'hydrogène plus faibles coïncidaient avec une formation de solvants plus élevée, comme l'ont constaté Kim et al. [52] et dans nos simulations utilisant à la fois l'acétate et le glucose comme entrées (Figure 7) - suggérant que des mécanismes similaires peuvent être impliqués dans la production de butanol par les deux C. beijerinckii et C, acétobutylique.

Effet du taux de formation d'hydrogène avec une absorption fixe de glucose uniquement. H2 Le flux de sortie a été varié pour examiner l'effet de l'hydrogène sur la production d'acétate, de butyrate, d'acétone, de butanol, d'éthanol et de biomasse pour des simulations de croissance optimales sur le glucose uniquement, avec un taux d'absorption de 9,39 mmol/gDW/hr et une non-croissance associée Maintien de l'ATP à 8,5 mmol/gDW/h. Notez que même si la formation positive d'éthanol n'est pas représentée dans le graphique, la FVA a trouvé que la production d'éthanol et de butanol était interchangeable sans effet néfaste sur le taux de croissance.

De plus, notre simulation montre que pour des niveaux élevés de formation d'hydrogène, l'acétate est le seul sous-produit et le taux de croissance est maximal. La production d'hydrogène élimine la nécessité d'une consommation supplémentaire de NADH par le butyrate, permettant à la génération d'ATP de se produire exclusivement via la formation d'acétate - la méthode la plus efficace pour la cellule. Le taux de croissance maximum est observé dans ces conditions car elles représentent le moyen le plus économe en énergie d'utilisation du glucose pour le micro-organisme. A des taux de consommation d'hydrogène très faibles, on observe une production de butanol plutôt que de butyrate, car la production de butanol entraîne la consommation de deux molécules de NADH supplémentaires par rapport au butyrate. Cette observation appuie la conclusion que sans production d'hydrogène, les électrons en excès sont éliminés via la production d'acides et de solvants. L'effet global observé de la formation d'hydrogène est non seulement cohérent sur le plan expérimental, mais il souligne l'importance de cette réaction dans la régulation de la formation de butanol, et sera un domaine d'intérêt dans nos efforts continus pour améliorer la production de butanol dans C. beijerinckii.

Comparaison de je CM925 avec C. acetobutylicum maquette

Bien que le génome de C. beijerinckii est 50 % plus grand que celui de C. acetobutylicum, les deux microorganismes présentent des profils de fermentation phénotypiquement similaires. Pour étudier l'effet de gènes supplémentaires dans C. beijerinckii, nous avons comparé je CM925 au C. acetobutylicum modèle qui a été publié dans un format calculable (le modèle publié par Senger et Papoutsakis en 2009 [24, 25]), en utilisant les identifiants de réaction KEGG comme base de comparaison. Des 940 je CM925 réactions, 375 se sont avérées se chevaucher avec le modèle de Senger (Figure 9) 183 de ces réactions sont présentes dans notre liste de 291 réactions actives pour le 35°C (ATPM = 8,5 mmol/gDW/hr) simulation de fermentation. Fait intéressant, les voies et les sources de base de données des 564 réactions uniques à je CM925 ont été distribués de la même manière que ceux du modèle complet - suggérant que (i) C. beijerinckii ne contient pas simplement plus de réactions dans une voie particulière, et (ii) que nos réactions supplémentaires ne sont pas un artefact de notre approche à bases de données multiples. Sur les 375 réactions qui se chevauchent, 119 ont plus de gènes connectés par réaction dans C. beijerinckii que dans C. acetobutylicum--avec une moyenne de 1,3 fois plus de gènes par réaction dans C. beijerinckii. Ceci n'est pas un résultat statistiquement significatif, mais suggère que plusieurs des réactions (par exemple, la CoA-transférase et la butyrate kinase) ont plus de gènes associés que les gènes correspondants. C. acetobutylicum réactions.

Comparaison de je CM925 avec le Senger & Papoutsakis C. acetobutylicum maquette. Le nombre, la distribution de la base de données et la distribution des voies des réactions dans je CM925 et le Senger & Papoutsakis C. acetobutylicum modèle ont été comparés sur la base des identifiants KEGG. (UNE) Les nombres de réactions communes aux deux modèles ou uniques à chacun sont représentés par des barres sur le graphique. Les fractions de réactions uniques et partagées qui sont actives dans je CM925 sont indiqués par des régions ombrées claires. (B) La distribution de la base de données des réactions exclusives aux je Les CM925 sont indiqués en haut à gauche, tandis que la distribution des voies est indiquée en bas du panneau.


Exploitation du réseau par rapport au concept de voie

L'utilisation traditionnelle des expériences de traceurs isotopiques était l'identification structurelle des réactions biochimiques qui constituent les voies métaboliques qui peuplent maintenant nos manuels. À l'apogée de la biochimie métabolique dans les années 1940-1960, les expériences de traceurs étaient la méthode clé pour prouver in vivo fonctionnement des voies individuelles au sein de la complexité déconcertante du réseau métabolique alors largement inconnu. Ces expériences ont essentiellement suivi la logique selon laquelle la première hypothèse sur les réactions chimiques au sein d'une voie a été générée. Par la suite, des expériences de traçage ont été conçues de telle sorte que le traçage d'atomes marqués par des isotopes jusqu'à des positions particulières de produits de voie puisse faire la distinction entre les hypothèses initiales. La prédominance initiale des traceurs radioactifs a été presque complètement remplacée par les isotopes stables et leur analyse par RMN ou MS, à la fois pour l'élucidation des voies ( Bacher et al, 1999 ) et pour l'analyse de flux ( Szyperski, 1998 ).

Pour faciliter la compréhension, les manuels structurent les réseaux métaboliques en voies et cycles. Dans la réalité du réseau, cependant, nos voies familières sont des concepts biochimiques qui incluent souvent des hypothèses sur les fonctionnalités. Bien qu'incroyablement utiles pour l'enseignement, ces hypothèses peuvent être des simplifications excessives ou simplement incorrectes dans certaines conditions.Ici, je soutiens que l'analyse expérimentale des flux est cruciale pour observer et éventuellement comprendre le fonctionnement des réseaux. En plaçant l'activité des voies dans un contexte de réseau quantitatif, cela va au-delà de l'identification des voies. Un exemple frappant est la voie des pentoses phosphates, dont la fonction généralement considérée est la fourniture de précurseurs et d'équivalents redox pour la biosynthèse. Dans de nombreux organismes, cependant, sa fonction est plus correctement décrite comme une deuxième voie catabolique ( Fuhrer et al, 2005 ). Dans le paragraphe suivant, les aspects méthodologiques de l'élucidation de la topologie du réseau sont décrits.

En principe, l'analyse des flux adopte la perspective du réseau, mais les modèles utilisés pour l'analyse des flux excluent souvent certaines voies/réactions sur la base de preuves génétiques car elles simplifient l'interprétation des données sur le 13 C. Cependant, de telles informations qualitatives sur le niveau d'expression n'excluent pas nécessairement la présence de protéines actives, et certaines divergences dans les données de flux signalées peuvent être attribuées à des structures de réseau incorrectes ( van Winden et al, 2001a ). Si elle est effectuée avec soin, l'analyse de flux à base de 13 C offre la capacité expérimentale de déterminer réellement la topologie des voies actives et des réactions à partir des données. L'analyse du rapport de flux est particulièrement utile, car elle fournit des preuves directes et indépendantes de la in vivo fonctionnement des voies dans le métabolisme central ( Szyperski, 1995 Emmerling et al, 2002 Fischer et al, 2004 ). Pour les procédures d'ajustement de flux de réseau, deux méthodes peuvent prendre en charge l'inférence de la topologie du réseau : (i) la conception expérimentale optimale pour les expériences d'étiquetage qui fournissent un maximum d'informations pour des régions particulières du réseau ( Möllney et al, 1999 Petersen et al, 2000 Fischer et al, 2004 ) et (ii) une analyse rigoureuse de l'identifiabilité d'un ensemble de données existant ( van Winden et al, 2001b Isermann et Wiechert, 2003 Rantanen et al, 2006 ). Lors de l'ajout de bruit aux données, cette dernière est étendue à une analyse d'identifiabilité statistique qui révèle à quel point un flux particulier est réellement déterminé à partir d'un ensemble de données, ce qui peut également être fait pour les sous-réseaux ( Antoniewicz et al, 2006 ). La discrimination des modèles basée sur une évaluation statistique de l'adéquation des différents modèles de réseau à un ensemble de données est ensuite utilisée pour identifier la topologie correcte des réactions actives ( Klapa et al, 1999 Dauner et al, 2001 Arauzo-Bravo et Shimizu, 2003 Yang et al, 2005 ). Ainsi, plusieurs méthodes prennent en charge l'inférence de la topologie de réseau dépendante de la condition et les deux paragraphes suivants soulignent comment les données de flux fournissent de nouvelles informations sur le réseau.

Bien au-delà des études de traceurs classiques, les analyses de flux modernes à base de 13 C ont révélé de nombreuses surprises sur le fonctionnement du réseau métabolique central supposé bien compris. Un exemple frappant d'activité inattendue d'une voie principalement connue est la voie Entner-Doudoroff (Führer et al, 2005 ), en particulier chez les actinomycètes, où d'autres données avaient suggéré que différentes voies seraient plutôt opérationnelles ( Gunnarsson et al, 2004 Borodina et al, 2005 ). Un phénomène apparemment répandu est le flux gluconéogène au cours du métabolisme autrement glycolytique autour du nœud PEP–pyruvate–oxaloacétate, bien que les données d'expression suggèrent que les gènes correspondants ne sont pas activement transcrits. Le fonctionnement simultané des réactions glycolytiques et gluconéogéniques à ce nœud clé a entraîné, dans certains cas, une perte substantielle d'énergie via des cycles futiles de dissipation d'ATP dans Escherichia coli (Emmerling et al, 2002 Yang et al, 2003 ), Bacillus subtilis ( Sauer et al, 1997 ), Corynebacterium glutamicum ( Petersen et al, 2000 ) et autres ( Fuhrer et al, 2005 ). À partir du concept de voie qui tente d'attribuer des fonctions spécifiques, un tel cycle futile n'est ni prédit ni compris, mais peut offrir une stratégie de contrôle flexible pour réorganiser rapidement les flux du réseau en fonction des changements environnementaux.

L'écart entre la réalité du réseau et le concept de voie traditionnelle est mis en évidence par la récente découverte à base de 13 C du cycle PEP-glyoxylate dans E. coli ( Fischer et Sauer, 2003a ), qui a été émise plus tôt sur des bases théoriques ( Liao et al, 1996 Schuster et al, 1999 ). Les réactions clés de ce cycle anabolique et catabolique bifonctionnel sont la PEP carboxykinase et le shunt du glyoxylate, dont les fonctions précédemment connues sont respectivement la gluconéogenèse et l'anaplérose, au cours de la croissance sur des substrats qui alimentent le cycle de l'acide tricarboxylique (TCA). Cependant, leur fonctionnement conjoint au cours du métabolisme du glucose génère efficacement un nouveau cycle dont la fonction catabolique contraste fortement avec leurs fonctions individuelles connues. La stoechiométrie globale du cycle est presque identique au cycle TCA classique, la voie de manuel auparavant exclusive pour l'oxydation complète des hexoses en CO2. Ainsi, même le métabolisme central apparemment bien compris des microbes surprend, et la perspective du réseau devrait être particulièrement critique pour un métabolisme cellulaire ou organique plus élevé.


Combiner l'analyse basée sur les contraintes et l'apprentissage automatique

L'intégration du CBM du métabolisme avec l'apprentissage automatique repose sur deux idées clés. La première est que les perturbations génétiques et environnementales se propagent de manière non linéaire à travers les réseaux métaboliques et supposent des modèles à un niveau de flux de réaction qui peuvent être utilisés pour obtenir des informations mécanistes sur plusieurs questions de recherche. La seconde est que les GSMM peuvent servir à la fois de cadre analytique pour représenter les systèmes biologiques et de générateurs d'informations à exploiter. En d'autres termes, les solutions de flux obtenues par un GSMM peuvent être traitées comme des données numériques supplémentaires (une autre couche omique) et analysées via des algorithmes d'apprentissage. Le modèle métabolique axé sur les connaissances étant défini, les informations qui en sont extraites peuvent dépendre de la tâche d'intérêt et des variables jugées pertinentes. De ce fait, il est possible de tirer parti de l'ensemble des techniques définies sur CBM [47] (voir la section "Analyse par contraintes des réseaux métaboliques"). De plus, les contraintes au niveau métabolique peuvent être utilisées pour améliorer l'apprentissage dans des environnements multiomiques, comme expliqué dans cette section.

Malgré ces avantages potentiels, de telles méthodologies intégrées sont restées confinées à quelques études jusqu'à présent. Dans cette section, à notre connaissance, nous décrivons les exemples existants d'intégration entre l'apprentissage automatique et CBM regroupés en fonction du type de tâche, comme indiqué dans le tableau 1 et la figure 3.

(a) L'analyse fluxomique implique FBA ou des techniques connexes effectuées sur un GSMM à usage général, à partir desquelles les données de flux obtenues peuvent être utilisées comme entrée pour l'apprentissage automatique non supervisé ou supervisé. (b) Pour améliorer la précision des prédictions d'apprentissage automatique, des ensembles de données multiomiques sont obtenus à l'aide d'analyses à haut débit, par exemple, la transcriptomique (puces à ADN, séquençage de l'ARN), la protéomique (électrophorèse sur gel 2D, l'étiquetage des isotopes stables, la spectrométrie de masse) ou la métabolomique ( Spectroscopie RMN, marquage isotopique, LC-MS, GC-MS). Comme ces ensembles de données sont obtenus à partir de différentes sources, ils doivent subir plusieurs étapes de prétraitement telles que la filtration et la normalisation pour maintenir la synchronicité, tenir compte de la variance et réduire le bruit. Des modèles basés sur les connaissances spécifiques aux conditions sont générés en introduisant ces multiples ensembles de données dans les GSMM pour obtenir des estimations de flux plus précises, à partir desquelles des techniques d'apprentissage automatique peuvent être appliquées pour déduire des modèles biologiquement pertinents dans les données. (c) Alternativement, l'apprentissage automatique peut être directement appliqué à des ensembles de données mono ou multiomiques pour produire ou améliorer des GSMM ou des données fluxomiques. FBA, analyse du bilan de flux GC-MS, chromatographie en phase gazeuse–spectroscopie de masse GSMM, modèle métabolique à l'échelle du génome LC-MS, chromatographie liquide–spectroscopie de masse RMN, résonance magnétique nucléaire.

Les études examinées ici et incluses dans le tableau sont regroupées par type de tâche : analyse fluxomique supervisée ou non supervisée, analyse multiomique supervisée ou non supervisée, génération de modèles basés sur les contraintes et données fluxomiques. Chaque étude est annotée avec les blocs de construction méthodologiques liés aux deux cadres de calcul (CBM et apprentissage automatique). Abréviations : ANN, réseau de neurones artificiels CBM, modélisation basée sur les contraintes CHO, ovaire de hamster chinois dFBA, FBA dynamique FBA, analyse de bilan de flux FCA, analyse de couplage de flux FVA, analyse de variabilité de flux GLM, modèle linéaire généralisé kNN, k-plus proches voisins LASSO, opérateur de retrait et de sélection le moins absolu modèle ME, métabolisme et expression génique modèle métabolique à l'échelle du génome NMF, factorisation matricielle non négative PCA, analyse en composantes principales pFBA, parcimonieux FBA RNN, réseau neuronal récurrent SVM, machine à vecteurs de support SVM-RFE , SVM basé sur l'élimination des fonctionnalités récursives TFBA, FBA XGBoost basé sur la thermodynamique, arbres à gradient extrême.

Analyse fluxomique supervisée

Le cas de référence est celui où les cibles biologiques sont prédites sur la base uniquement des flux métaboliques obtenus à partir des GSMM à usage général. La sortie de FBA ou de techniques associées peut ensuite être transmise aux algorithmes pour une analyse supervisée sans que l'intégration des données ne soit impliquée (voir le tableau 1).

Par exemple, Sridhara et ses collègues ont étudié si les conditions de croissance bactérienne pouvaient être déduites des configurations de flux intracellulaires [67]. La régression logistique multinomiale a été utilisée en conjonction avec la régularisation de l'opérateur de retrait et de sélection le moins absolu (LASSO) pour relier les conditions de croissance aux flux métaboliques simulés. La régression a permis de prédire les conditions de croissance pour une solution FBA particulière en utilisant les flux métaboliques internes comme entrée, la régularisation servant à sélectionner les flux les plus pertinents et à éviter le surapprentissage.

Dans le contexte du métabolisme humain, il a été démontré que l'intégration de modèles basés sur des contraintes et l'apprentissage automatique identifient correctement les effets secondaires des médicaments inhibiteurs avec une plus grande précision que les méthodes de base [68]. Des actions spécifiques au médicament ont été simulées par des délétions de gènes in silico, et les perturbations métaboliques associées ont été estimées par analyse de variabilité de flux (FVA), dont les résultats ont été transmis à un ensemble SVM. Des altérations métaboliques reproduites artificiellement ont amélioré les résultats par rapport à un prédicteur utilisé sur les structures biochimiques des médicaments. De la même manière, mais pour un objectif différent, un réseau de neurones profonds et un algorithme de recherche différentielle ont été appliqués pour concevoir des interventions de suppression de gènes dans E. coli pour la production de xylitol [69]. Dans ce cas également, la FBA couplée à un knock-out de gène artificiel a servi de générateur de données fluxomiques à l'échelle du génome. Une autre étude récente a testé une approche basée sur les données et basée sur les flux pour la prédiction du titre, du taux de production et du rendement dans différents paramètres de biotraitement [70]. Sur la base d'un ensemble de techniques d'apprentissage automatique de pointe, il a été démontré que les caractéristiques de flux améliorent la précision prédictive dans ce scénario, généralement caractérisé par des données éparses.

Il est important de noter que le CBM et l'apprentissage automatique peuvent être formulés comme un problème commun en intégrant des contraintes stoechiométriques dans une tâche d'apprentissage. À titre d'exemple de méthode supervisée, une technique d'analyse discriminante basée sur des contraintes de réseau métabolique - appelée analyse discriminante de régression en mode élémentaire dynamique (dynEMR-DA) - a été définie pour identifier les modèles d'activation des voies qui discriminent le mieux les conditions expérimentales [71]. La méthodologie étend le concept de modes de flux élémentaires (EFM) - qui sont les chemins les plus simples dans un GSMM qui caractérisent l'espace de flux associé - aux conditions dynamiques. L'algorithme cherche à déterminer les EFM qui diffèrent le plus en termes d'évolution temporelle.

En élargissant l'analyse des flux à une échelle écologique, DiMucci et ses collègues ont développé une approche pour prédire les interactions entre les espèces bactériennes à partir de simulations temporelles de cocultures par FBA dynamique (dFBA) [72]. Un classificateur de forêt aléatoire a été formé sur des vecteurs binaires représentant les réactions d'échange dans chaque GSMM, en utilisant les prédictions de rendement relatif dFBA des cocultures par rapport aux cultures indépendantes. Ce modèle basé sur les données a permis une meilleure généralisation que le simple critère basé sur la distance couramment utilisé dans les études sur les communautés microbiennes et a également permis de déduire les échanges métaboliques sous-jacents aux interactions prédites. Dans un autre contexte écologique, Chien et Larsen ont proposé que la classification supervisée des niches d'espèces bactériennes puisse bénéficier des informations générées par les modèles métaboliques [73]. Ils ont reconstruit des GSMM pour 21 Pseudomonas espèces vivant dans l'endosphère et la rhizosphère et simulé 12 formulations de milieux afin de générer des caractéristiques prédictives. Une comparaison croisée de SVM, ANN et NMF a suggéré que les caractéristiques du flux métabolique pourraient être plus prédictives que les caractéristiques purement génomiques.

Analyse fluxomique non supervisée

L'exploration et la caractérisation statistique des profils fluxomiques extrapolés à partir d'un GSMM peuvent être intéressantes pour éclairer la physiologie sous-jacente. En l'absence d'une cible biologique bien définie, les approches d'apprentissage automatique non supervisées peuvent généralement caractériser la corrélation ou la variation entre plusieurs échantillons. Cela permet de regrouper les états métaboliques ou de les décrire en termes d'ensembles de variables plus clairsemés.

Cela a d'abord été réalisé par Segre et ses collègues, qui ont exploité un GSMM pour explorer l'épistasie dans le métabolisme de la levure [74]. La tâche a été accomplie en effectuant un regroupement agglomératif sur le paysage de fitness de mutants délétères simples et doubles pour tous les gènes impliqués dans le métabolisme, pour lesquels la fitness a été définie sur les rapports de taux de croissance FBA. L'analyse a identifié une organisation modulaire généralisée des gènes en groupes liés exclusivement par des interactions épistatiques tampon ou aggravantes, conduisant les auteurs à étendre les concepts de modularité et d'épistasie sur la base des connexions intermodules observées plutôt que sur les propriétés intramodules. Une approche analogue a été utilisée dans le contexte de l'écologie du microbiome intestinal, dans laquelle Magnúsdóttir et ses collègues ont réalisé une étude à grande échelle sur les interactions écologiques entre les membres de la communauté à travers une combinaison de régimes occidentaux ou riches en fibres et de conditions aérobies ou anaérobies [75]. De même, ces interactions ont été évaluées en termes de regroupement hiérarchique de la croissance relative entre les paires interactives et non interactives prédites par FBA. Les microbes ont ensuite été profilés en fonction de leurs interactions, identifiant trois sous-groupes principaux enrichis en espèces avec différentes capacités de fermentation des glucides. Des interactions positives ont été observées principalement parmi des organismes métaboliquement distants, confirmant des études indépendantes.

De plus, des techniques de réduction de dimensionnalité peuvent être utilisées pour déconstruire l'ensemble de l'espace de flux associé aux modèles basés sur les contraintes, comme cela a été fait pour E. coli [76]. Dans ce cas, l'ACP a servi à filtrer et synthétiser la variation des flux de réactions biochimiques réalisables par le réseau métabolique. Les corrélations croisées non triviales entre les activités des voies peuvent être capturées et les capacités métaboliques associées peuvent être évaluées de manière exhaustive en termes de contraintes imposées.

Enfin, comme dans le scénario supervisé, l'analyse de profils de flux multiples peut bénéficier de la contrainte d'un objectif d'apprentissage avec des connaissances stoechiométriques. Des hybrides alternatifs de PCA et d'analyse de flux stoechiométrique, appelés analyse de mode élémentaire principal (PEMA) et analyse de mode de flux métabolique principal (PMFA), extraient les modes de flux générés par les modèles métaboliques qui contribuent le plus à la variance tout en pénalisant les écarts par rapport à l'état d'équilibre [ 77, 78]. Ces méthodes sont capables de surmonter certaines des lacunes de l'utilisation de l'ACP générale pour l'interrogation statistique des distributions de flux - par exemple, la négligence de la stoechiométrie de réaction et la nécessité d'un ensemble prédéfini de voies. PEMA a également été étendu pour analyser les EFM non stationnaires [71].

Analyse multiomique supervisée

Lorsque des données expérimentales sont disponibles, elles peuvent être agrégées avec des fluxomes générés par CBM pour créer des ensembles de caractéristiques multiomiques et prédire les cibles d'intérêt. Grâce aux avantages particuliers de chaque approche individuelle d'intégration de données, il existe de multiples façons de les combiner en fonction des questions posées et des ressources disponibles. L'intégration en une étape par des méthodes d'apprentissage automatique est une possibilité, comme décrit dans Apprentissage automatique pour les données multiomiques.

Cette stratégie a d'abord été étudiée pour prédire l'essentialité de la réaction métabolique dans E. coli. Des approches de type FBA couplées à des délétions artificielles de gènes peuvent estimer efficacement les réactions essentielles, bien que cela nécessite souvent une connaissance précise de la disponibilité des nutriments dans une condition donnée. L'essentialité est généralement évaluée simplement sur la base du taux d'accumulation de biomasse, qui peut être un estimateur imprécis dans certains cas. Plaimas et ses collègues [79] ont étudié s'il était possible d'améliorer les prédictions FBA en combinant le taux de croissance estimé avec des données topologiques, génomiques et transcriptomiques supplémentaires. En utilisant un SVM comme classificateur, ils ont vérifié avec succès une amélioration de la précision. Une approche analogue a été utilisée par Szappanos et ses collègues pour prédire les interactions génétiques positives et négatives dans Saccharomyces cerevisiae [80]. Une forêt aléatoire a été entraînée avec des scores de fitness et d'interaction génétique basés sur FBA, en plus d'un large éventail de caractéristiques de paires de gènes telles que la paralogie, les annotations de protéines, la topologie du réseau d'interactions protéiques, la fitness d'un seul délétant, l'expression de l'ARNm, la corrélation phénotypique quantitative et le compartiment. localisation. Il a été démontré que les caractéristiques traditionnelles donnaient une faible précision pour la majorité des interactions géniques, tandis que les caractéristiques basées sur la FBA ont apporté des améliorations significatives de la précision prédictive et du rappel, indiquant que le CBM à l'échelle du génome capture des informations pertinentes qui sont manquées par les caractéristiques traditionnelles au niveau des gènes. L'approche a été testée à nouveau dans le contexte de la prédiction de l'essentialité des gènes par Nandi et ses collègues [81], qui ont plutôt utilisé l'analyse de couplage de flux (FCA) comme générateur de caractéristiques pour prendre en compte l'adaptabilité des gènes dans des conditions environnementales variables [82].

Cependant, les capacités métaboliques d'une population cellulaire varient selon les conditions environnementales et génétiques. Par souci de prédiction, il est donc important que les informations métaboliques extraites par les GSMM reflètent les différences entre ces conditions. Ceci peut être réalisé grâce à la création de modèles métaboliques spécifiques à une condition (voir la section « Modèles basés sur des contraintes spécifiques à une condition »). Cette intégration basée sur les contraintes a été utilisée pour la première fois par Li et ses collègues pour prédire de nouvelles interactions médicament-réaction dans le cancer [83]. Ils ont utilisé un modèle de programmation linéaire pour renforcer l'accord entre l'expression des gènes et les flux métaboliques afin de déterminer les profils fluxomiques relatifs à 59 lignées cellulaires, qui ont été utilisées pour la classification binaire par un noyau. kmodèle du plus proche voisin (kNN). Une procédure similaire a été utilisée pour explorer la biologie moléculaire du vieillissement [84].En utilisant les données transcriptomiques des cellules T CD4 de 499 participants sains, des modèles métaboliques personnalisés des cellules T CD4 et leurs fluxomes ont été obtenus avec une carte d'expression génique continue [20]. L'application d'une régression élastique nette à ces flux métaboliques individuels et aux âges chronologiques des individus a permis d'établir des prédicteurs d'âge métabolique et leurs tailles d'effet. En utilisant ces prédicteurs polyomiques, l'âge métabolique d'un individu pourrait être défini et calculé, fournissant une base pour une meilleure prédiction du vieillissement individuel et de l'espérance de vie. Une stratégie similaire a été utilisée pour évaluer métaboliquement et mécaniquement l'impact des mutations synthétiques dans P. putida à partir des mesures d'expression génique correspondantes [85].

Apprendre efficacement à partir des profils omiques empiriques et des états métaboliques associés basés sur le GSMM nécessite d'exploiter pleinement toutes les variétés de méthodes d'analyse multiomique. Dans ce cas, une intégration en deux étapes peut être réalisée grâce à la création de GSMM spécifiques aux conditions et à l'intégration ultérieure des données basée sur l'apprentissage automatique. Cette idée a été utilisée pour prédire les capacités métaboliques des cellules d'ovaire de hamster chinois (CHO) pour diverses conditions de croissance [86]. Dans l'étude, il a été montré que la combinaison des données fluxomiques et transcriptomiques dans les cellules de mammifères peut fournir une meilleure estimation de la production de métabolites secondaires, tels que le lactate. Le pipeline comprend la construction de GSMM spécifiques aux bioréacteurs et l'optimisation FBA à deux niveaux [20], qui ont fourni des informations sur le métabolisme associé à chaque condition de croissance. Plus tard, les données fluxomiques et transcriptomiques ont été utilisées pour prédire l'accumulation de lactate avec une précision améliorée. Considérant un tableau omique plus large, Kim et ses collègues ont développé un cadre général pour l'inférence multiomique basé sur diverses méthodes d'apprentissage automatique [87]. Leur plate-forme peut être utilisée pour effectuer des prédictions croisées entre cinq couches biologiques : transcriptomique, protéomique, métabolomique, fluxomique et phénomique. Tous sont composés de données expérimentales agrégées à partir d'un certain nombre d'études, à l'exception de la couche fluxomique, qui est le résultat d'une FBA spécifique à une condition suite à l'intégration de données transcriptomiques et protéomiques.

Des pipelines d'intégration de données plus sophistiqués ont également été développés. Une étude a utilisé une méthode similaire au LASSO à groupe clairsemé pour identifier les courants extrêmes phénotypiques (CE) sur la base d'une combinaison de caractéristiques de réseau métabolique et de données d'expression génique [88]. Les voies extrêmes sont des sous-voies (c. En d'autres termes, toutes les CE étaient associées à un ensemble de gènes basé sur des données d'expression génique, celles présentant une association statistiquement significative à un phénotype clinique donné ont été identifiées. L'incertitude dans les propriétés cinétiques des enzymes est l'un des principaux défis dans le développement de modèles cinétiques du métabolisme. Andreozzi et ses collègues ont conçu une stratégie appelée caractérisation in silico et réduction de l'incertitude dans les modèles cinétiques (iSCHRUNK) pour minimiser une telle incertitude [89], dans laquelle les données fluxomiques et métabolomiques sont intégrées à un GSMM pour créer un GSMM thermodynamiquement cohérent. Par la suite, des arbres de décision sont utilisés pour évaluer les paramètres cinétiques. Enfin, un travail récent a utilisé CBM pour soutenir un ANN. DeepMetabolism est une méthode ANN qui intègre un pré-entraînement non supervisé avec un entraînement supervisé pour construire un modèle d'apprentissage en profondeur avec la capacité de prédire les résultats phénotypiques [90]. Dans son autoencodeur à cinq couches, la première couche de gène d'entrée était suivie de deux couches d'encodeur (couche de protéine, couche de phénotype) et les deux dernières couches étaient des décodeurs (couche de protéine reconstruite, couche de gène reconstruit). Les connexions entre les couches étaient régulées par des a priori biologiques, avec FBA utilisé pour définir la connectivité entre la couche protéomique et la couche phénomique et donc intégrer les connaissances métaboliques dans l'architecture ANN.

Analyse multiomique non supervisée

Comme dans le cas supervisé, les algorithmes non supervisés peuvent être appliqués sur des ensembles hétérogènes de profils omiques expérimentaux et générés par GSMM. Par exemple, la modélisation métabolique spécifique aux conditions environnementales a été combinée à la modélisation statistique par Angione et ses collègues pour estimer la cascade d'activation de la voie métabolique déclenchée par différents stimuli environnementaux [91]. La méthodologie s'est avérée mieux caractériser les relations entre les différentes voies par rapport à l'analyse statique, en particulier celles qui interagissent occasionnellement en fonction des conditions environnementales. De la même manière, des conditions génétiques variables peuvent être caractérisées en termes de changements associés au niveau métabolique et potentiellement exploitées dans des études de biologie synthétique. Par exemple, la décomposition de profils fluxomiques spécifiques aux mutants par PCA a conduit à l'identification de nouveaux biomarqueurs pour la production de rhamnolipides [85]. De manière analogue, Yaneske et Angione ont utilisé à la fois le clustering hiérarchique agglomératif (AHC) et k-moyens de clustering sur données transcriptomiques et profils fluxomiques afin de caractériser le processus de vieillissement chez l'homme [84]. Une comparaison ultérieure du regroupement entre les données transcriptomiques et fluxomiques a révélé que les profils fluxomiques étaient de meilleurs prédicteurs de l'âge chronologique et des biomarqueurs métaboliques associés à l'âge.

De plus, le métabolisme et les GSMM peuvent être utilisés comme base pour comprendre la variation génomique sous-jacente. Le Gene Expression Latent Space Encoder (GEESE) est une approche récemment proposée [92] dans laquelle les informations transcriptomiques sont introduites dans un modèle génératif profond (en particulier, un auto-encodeur variationnel) combiné à un GSMM. Initialement, les données d'expression génique sont fournies en entrée à l'auto-encodeur, renvoyant des vecteurs d'expression génique reconstruits qui sont ensuite utilisés pour former un approximateur FBA. Le modèle génératif profond est entraîné pour minimiser la perte entre les flux obtenus en passant l'expression génique reconstruite à travers le FBA approximé et les flux générés par le FBA réel tout en gardant les poids de cet approximateur constants. Sur la base de cette approche, des modèles latents dans la régulation des gènes pourraient donc être identifiés tout en tenant compte de manière mécanique des perturbations métaboliques en aval.

Génération de modèles sous contraintes et de données fluxomiques

Outre l'analyse des fluxomes générés via CBM, l'apprentissage automatique peut être combiné avec CBM lui-même pour acquérir de nouvelles informations fluxomiques. Par exemple, une suite de différents algorithmes d'apprentissage automatique (SVM, kNN et arbres de décision) a été utilisée pour prédire directement les configurations fluxomiques à partir de facteurs génétiques et environnementaux [93]. La formation a été réalisée en agrégeant les estimations de l'analyse des flux métaboliques de 13 C avec les informations génétiques et environnementales associées à partir d'une cohorte d'études. Dans une deuxième étape, les sorties de flux prédites ont été ajustées pour satisfaire les contraintes stoechiométriques à l'aide d'une optimisation quadratique afin de tenir compte du bilan de flux et d'améliorer leur précision.

Bien que dans les paragraphes précédents nous ayons présenté des exemples d'applications d'apprentissage automatique sur les sorties FBA, l'exploration de données peut même être utilisée comme étape préliminaire pour obtenir des contraintes supplémentaires pour CBM. Par exemple, Brunk et ses collègues [94] ont appliqué une série de méthodes d'analyse multivariée (y compris l'ACP) sur les données métabolomiques pour mieux comprendre les corrélations internes et identifier les métabolites clés influençant la variation intersouche. Par conséquent, cela a permis de fixer des ensembles de contraintes de flux à l'intérieur du E. coli GSMM et parvenir à une meilleure caractérisation de chaque phase de culture. Cette stratégie permet également d'estimer les flux métaboliques dans des conditions qui ne sont pas directement accessibles au FBA, comme dans le FBA à l'état instable (uFBA), dans lequel plusieurs profils de flux associés à des conditions dynamiques peuvent être prédits [95]. L'idée sous-jacente est d'utiliser l'ACP et la régression linéaire pour définir les contraintes d'un modèle FBA à partir de données métabolomiques. Parce que les mesures du métabolome entier sont généralement difficiles à réaliser, uFBA comprend également un algorithme pour estimer les différences de concentration de métabolites non mesurées sur la base de celles qui sont mesurées. Le modèle basé sur les contraintes obtenu peut être utilisé pour des analyses FBA, FVA ou apparentées traditionnelles dans des conditions dynamiques. Enfin, un ensemble de méthodes a été utilisé pour estimer les limites du chiffre d'affaires catalytique enzymatique pour un ensemble E. coli GSMM, améliorant ses prédictions sur l'allocation du protéome par rapport à l'intégration des taux de renouvellement mesurés in vitro [96]. Il est intéressant de noter que, dans ce cas, des solutions FBA associées à des conditions environnementales aléatoires ont également été incluses dans la phase d'apprentissage supervisé, correspondant à une analyse fluxomique telle que décrite dans la section "Analyse fluxomique supervisée".


Implications potentielles

Les modèles biologiques offrent le potentiel d'intégrer un contexte fonctionnel holistique dans les interprétations des mesures omiques [ 7, 8]. Alors que les systèmes biologiques prospèrent grâce aux interactions coopératives entre divers types d'entités, les modèles informatiques ont tendance à simplifier ces systèmes dans des dimensions distinctes, telles que les réseaux d'interactions gène-gène, protéine-protéine et protéine-métabolite [1]. À l'échelle systémique, on sait relativement peu de choses sur cette dernière dimension des interactions protéine-métabolite [ 62], bien que des décennies d'expériences réductionnistes démontrent la pertinence fonctionnelle de la catalyse, du transport et de la régulation allostérique. Alors que nos travaux ne mettent ici l'accent que sur la représentation de la catalyse et du transport dans les réactions métaboliques, nous attendons une exploration plus approfondie des interactions allostériques entre protéines et métabolites, que ce soit au sein d'un site actif enzymatique ou non. Cette exploration nécessite une innovation technologique pour s'adapter aux interactions de faible affinité et à la diversité chimique du métabolome. Des travaux pionniers utilisent soit l'exploration de données informatiques [44, 63], soit des mesures par spectrométrie de masse pour détecter les interactions physiques protéine-métabolite [64-66]. Nous prévoyons que les modèles systémiques à venir des interactions protéine-métabolite allostériques seront précieux à intégrer avec ceux des modèles métaboliques. Ces développements feront avancer l'objectif d'intégrer des représentations multidimensionnelles de la biologie moléculaire [ 1].


Régulation des réseaux métaboliques : comprendre la complexité métabolique à l'ère de la biologie des systèmes

Le métabolisme est l'un des réseaux les mieux reconnus au sein des systèmes biologiques, mais notre compréhension de la régulation métabolique a été limitée par un échec à considérer la régulation dans le contexte de l'ensemble du réseau. Avec les progrès récents des aspects théoriques de la pensée en réseau et un paysage postgénomique dans lequel notre capacité à quantifier les changements moléculaires au niveau des systèmes est inégalée, le moment est venu de développer un nouveau niveau de compréhension de la régulation des réseaux métaboliques des plantes. Les avancées théoriques telles que la description formelle des réseaux « sans échelle » ont fourni des explications sur le comportement des réseaux (comme la robustesse). En parallèle, l'appréciation de l'importance des nouveaux niveaux de la hiérarchie de régulation métabolique (comme l'interaction protéine-protéine) et le développement continu des technologies de profilage mondial génèrent un ensemble de données moléculaires à l'échelle du système de résolution croissante. Dans cette revue, nous soutiendrons que l'intégration de ces différents aspects de la recherche métabolique entraînera un changement radical dans notre compréhension de la régulation des réseaux métaboliques chez les plantes.


Espace nul de S

L'espace de flux réalisable des réactions dans le système modèle est défini par l'espace nul de S, comme vu ci-dessus. Rappelons de l'algèbre linéaire élémentaire que l'espace nul d'une matrice est un espace vectoriel qui est, étant donné deux vecteurs y et z dans l'espace nul, le vecteur ay + bz (pour les nombres réels a, b) est également dans l'espace nul. Puisque l'espace nul est un espace vectoriel, il existe une base bi, un ensemble de vecteurs linéairement indépendants et couvrant l'espace nul. La base a la propriété que pour tout flux v dans l'espace nul de S, il existe des nombres réels (alpha)je tel que

[v=Sigma_ alpha_ b_pas de numéro]

Comment trouver une base pour l'espace nul d'une matrice ? Un outil utile est la décomposition en valeur singulière (SVD) [4]. La décomposition en valeurs singulières d'une matrice S est définie comme une représentation S = UEV*, où U est une matrice unitaire de taille m, V est une matrice unitaire de taille n, et E est une matrice diagonale mxn, avec le (nécessairement positif ) valeurs singulières de S dans l'ordre décroissant. (Rappelons qu'une matrice unitaire est une matrice à colonnes et lignes orthonormées, c'est-à-dire U * U = U U * = I la matrice identité). On peut montrer que toute matrice a un SVD. Notez que le SVD peut être réorganisé dans l'équation (S v=sigma u), où u et v sont des colonnes des matrices U et V et est une valeur singulière. Donc, si (sigma) = 0, v appartient à l'espace nul de S. En effet, les colonnes de V qui correspondent aux valeurs singulières nulles forment une base orthonormée pour l'espace nul de S. De cette manière, le SVD nous permet de caractériser complètement les flux possibles pour le système.


Tracer des réseaux métaboliques ? - La biologie

a Médecine biomoléculaire, Département de chirurgie et de cancérologie, Faculté de médecine, Imperial College London, Sir Alexander Fleming Building, Exhibition Road, South Kensington, Londres SW7 2AZ, Royaume-Uni
E-mail: [email protected]
Fax: +44 (0)207 594 3226
Tél : +44 (0)207 594 1820

Résumé

La caractérisation du métabolome a rapidement évolué au cours de deux décennies, des premiers développements de la chimie analytique à la biologie des systèmes. Les métabolites et les petites molécules ne sont pas indépendants, ils sont organisés en voies biochimiques et en un réseau métabolique plus large, lui-même dépendant de divers réseaux génétiques et de signalisation pour sa régulation. Les progrès récents en génomique, transcriptomique, protéomique et métabolomique ont été accompagnés du développement de référentiels accessibles au public, qui ont contribué à façonner une nouvelle génération d'études intégratives utilisant des mesures de métabolites dans l'épidémiologie moléculaire et les études génétiques. Bien que l'environnement influence le métabolisme, l'identification des déterminants génétiques des phénotypes métaboliques (métabotypes) a été rendue possible par le développement de la cartographie des métabotypes quantitatifs de locus (mQTL) et des études d'association métabolomique à l'échelle du génome (mGWAS) dans un cadre de génétique statistique rigoureux, établir des associations entre les concentrations de métabolites et les polymorphismes génétiques. Cependant, étant donné la complexité des événements biomoléculaires impliqués dans la régulation des schémas métaboliques, des approches alternatives de biologie des réseaux ont également été récemment introduites, telles que la cartographie intégrée du métabolome et de l'interactome (iMIM). Cette convergence sans précédent de la biochimie métabolique, de la génétique quantitative et de la biologie des réseaux a déjà eu un fort impact sur le rôle du métabolome dans les sciences biomédicales, et cette revue donne un avant-goût de ses succès attendus dans la fourniture à terme d'une médecine personnalisée.


Voir la vidéo: Le Système de Conduction Cardiaque et la Relation avec lECG, Animation (Août 2022).