Informations

Valeurs de Miu_max et Ks à partir de l'estimation des paramètres ?

Valeurs de Miu_max et Ks à partir de l'estimation des paramètres ?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Fond

J'ai ce modèle simple de croissance de la biomasse : $$ mu = mu_{max}cdot left(frac{S}{K_S+S} ight) cdot left(frac{1}{1+S /K_{iS}} ight) cdot left(frac{K_{iP}}{K_{iP}+P} ight) frac{dX}{dt} = mu cdot X frac{dS}{dt} = -1 cdot ( frac{mu}{Y_{XS}} cdot X + mS cdot X) frac{dP}{dt} = a cdot frac{dX}{dt} + b cdot X$$

Problème

Je peux adapter le modèle sur des données expérimentales (voir la figure), mais les valeurs de $mu_{max}$ ou $K_S$ sont souvent assez irréalistes. Dans ce graphique, le $mu_{max}$ est de 3,9 et $K_S$ est de 10.

Question

Étant donné que $mu_{max}$ et $K_S$ sont bornés dans des expressions $mu$ basées sur Monod, est-il possible d'obtenir des valeurs réelles de ces deux paramètres particuliers grâce à des techniques d'estimation de paramètres ? Ou l'un de ces paramètres doit-il être obtenu par d'autres méthodes ?


Une méthode simple pour identifier les corrélations de paramètres dans les modèles dynamiques linéaires partiellement observés

L'estimation des paramètres représente l'un des défis les plus importants de la biologie des systèmes. En effet, les modèles biologiques contiennent généralement un grand nombre de paramètres parmi lesquels il peut exister des interrelations fonctionnelles, conduisant ainsi au problème de la non-identifiabilité. Bien que l'analyse d'identifiabilité ait été largement étudiée par des approches analytiques et numériques, les méthodes systématiques pour remédier à des modèles pratiquement non identifiables ont rarement été étudiées.

Résultats

Nous proposons une méthode simple pour identifier les corrélations par paires et les interrelations d'ordre supérieur des paramètres dans des modèles dynamiques linéaires partiellement observés. Ceci est fait par dérivation de la matrice de sensibilité de sortie et analyse des dépendances linéaires de ses colonnes. Par conséquent, des relations analytiques entre l'identifiabilité des paramètres du modèle et les conditions initiales ainsi que les fonctions d'entrée peuvent être réalisées. En cas de non-identifiabilité structurelle, des combinaisons identifiables peuvent être obtenues en résolvant les équations linéaires homogènes résultantes. Dans le cas d'une non-identifiabilité pratique, des conditions expérimentales (c'est-à-dire des conditions initiales et des signaux de commande constants) peuvent être fournies qui sont nécessaires pour remédier à la non-identifiabilité et à l'estimation de paramètre unique. Il est à noter que l'approche ne considère pas les données bruitées. De cette façon, le problème de non-identifiabilité pratique, qui est populaire pour les modèles biologiques linéaires, peut être résolu. Plusieurs modèles de compartiments linéaires, y compris un modèle de dynamique des récepteurs de l'insuline, sont utilisés pour illustrer l'application de l'approche proposée.

Conclusion

L'identifiabilité structurelle et pratique des modèles dynamiques linéaires partiellement observés peut être clarifiée par la méthode proposée. Le résultat de cette méthode fournit des informations importantes pour la conception expérimentale afin de remédier à la non-identifiabilité pratique, le cas échéant. La dérivation de la méthode est simple et donc l'algorithme peut être facilement implémenté dans un paquet logiciel.


Critères de convergence à l'aide de la commodité

Maintenant que nous avons entendu parler de la convergence, examinons les critères du package Convenience :

Le résultat d'une analyse phylogénétique se compose le plus souvent de deux types de paramètres :

  • Paramètres continus : les paramètres évolutifs du modèle, la longueur de l'arbre, les fréquences d'horloge, etc.
  • Paramètres discrets : l'arbre phylogénétique.

Pour évaluer la convergence de ces paramètres, le package Convenience évalue :

  • La taille effective de l'échantillon (ESS)
  • Comparaison entre les fenêtres d'une même série
  • Comparaison entre les différentes courses.

La comparaison entre les fenêtres de la même série fonctionne en divisant toute la longueur de la série en 5 fenêtres (sous-ensembles) et en comparant la troisième et la cinquième fenêtre. Cette comparaison est utilisée pour déterminer la taille du burn-in. Un burn-in suffisant conduira à des fenêtres qui échantillonnent les valeurs de la même distribution. La recherche de la taille de déverminage appropriée se fait automatiquement dans le package Convenience. Le package teste le burn-in de 0, 10 %, 20 %, 30 %, 40 % et 50 %. Si le déverminage requis est supérieur à 50 % de la longueur du MCMC, nous vous recommandons de réexécuter le MCMC.
Dans la figure, nous pouvons voir un tracé de trace pour la longueur de l'arbre à partir de l'exemple fourni dans ce didacticiel. Le tracé de trace montre les valeurs échantillonnées au cours des itérations du MCMC. Les zones en surbrillance de la figure montrent les troisième et cinquième fenêtres de l'analyse.

Tracé de la longueur de l'arbre pour notre exemple d'analyse. Les zones ombrées montrent les troisième et cinquième fenêtres de la course.

Comment comparer les fenêtres et les exécutions ?

Pour les paramètres continus, la comparaison est faite avec le test de Kolmogorov-Smirnov (KS) à deux échantillons, un test statistique non paramétrique pour l'égalité des distributions de probabilité. Deux échantillons seront égaux lorsque la valeur KS est inférieure à un seuil donné. La valeur KS (D) est calculée :

F(x) et G(x) sont les fonctions de distribution empiriques pour les échantillons de taille m et m, respectivement. Les deux échantillons seront tirés de distributions différentes, au niveau $alpha$, lorsque :

L'arbre phylogénétique est évalué en fonction des bipartitions ou scissions. Par conséquent, les comparaisons sont faites en utilisant la fréquence d'une séparation donnée entre des intervalles d'un même passage ou entre des passages différents.

Deux exemples d'arbres avec les pointes A, B, C, D et les fentes observées sur chaque arbre.

Seuils

L'état actuel de l'évaluation de la convergence en phylogénétique bayésienne repose principalement sur des outils visuels (par exemple, Tracer) et des seuils ESS qui n'ont pas de théorie claire pour les soutenir (Rambaut et al. 2018). La motivation du package Convenience est de fournir un cadre facile à utiliser avec des seuils clairs pour chaque critère de convergence.

Nous dérivons une valeur minimale pour l'ESS basée sur une distribution normale et l'erreur standard de la moyenne (SEM). Quelle erreur dans notre estimation de la moyenne postérieure devrions-nous trouver acceptable ? De toute évidence, l'estimation moyenne pour une distribution avec une grande variance n'a pas besoin d'être aussi précise que l'estimation moyenne pour une distribution avec une petite variance. Cependant, par rapport à la variance/l'étalement de la distribution, quel pourcentage est acceptable ? Nous suggérons d'utiliser un SEM plus petit de 1% de l'intervalle de probabilité de 95% de la distribution, ce qui équivaut à dire que l'erreur autorisée de la moyenne est quatre fois l'écart type de la distribution. (Notez que vous pouvez dériver une valeur ESS différente pour tout autre seuil que vous aimez.) À partir de ce SEM, nous pouvons dériver l'ESS avec :

Un ESS de 625 est donc la valeur par défaut pour le pack confort.

Pour le test KS, le seuil est la valeur critique pour $alpha$ = 0,01 et la taille de l'échantillon est le seuil calculé pour l'ESS, 625. Avec ces valeurs, le seuil pour le test KS est de $_$ = 0.0921.

Fréquences fractionnées

À ce jour, le test le plus souvent utilisé pour évaluer la convergence des fréquences divisées est le écart type moyen des fréquences divisées (ASDSF) (Nylander et al. 2008). La fréquence de chaque division est calculée pour deux exécutions MCMC distinctes et la différence entre les deux estimations de fréquence de division est utilisée. L'ASDSF est problématique pour deux raisons : (1) pour les grands arbres avec de nombreuses divisions qui ont des probabilités postérieures proches de 0,0 ou 1,0, l'ASDSF submergera et donc même une seule division qui est présente dans tous les échantillons de l'analyse 1 (donc une probabilité postérieure de 1,0) et n'est jamais présent dans aucun échantillon de l'analyse 2 (donc une probabilité postérieure de 0,0) peut ne pas être détectée, et (2) la différence attendue de fréquence de division dépend de la véritable fréquence de division (voir Figure ).

La différence attendue dans les fréquences divisées pour ESS de 100, 200 et 625. L'axe des x est la valeur réelle de la fréquence divisée. L'axe des y est la différence attendue dans les fréquences divisées. L'effet de l'augmentation de l'ESS est la diminution des différences de fréquence des divisions échantillonnées.

Au lieu de l'ASDSF, nous utilisons l'ESS de chaque division. Nous transformons chaque scission en une chaîne de valeurs d'absence et de présence si la scission était présente dans l'arbre i, puis nous notons la valeur i de la chaîne comme 1 et 0 sinon. Cette séquence d'observations d'absence et de présence (0s et 1s) nous permet d'appliquer des méthodes standard pour calculer les valeurs ESS et ainsi nous pouvons utiliser le même seuil ESS de 625 que pour nos paramètres continus.

Avec le seuil ESS pour les divisions, nous pouvons estimer la différence attendue dans les fréquences de division (EDSF) et utiliser le quantile à 95 % comme seuil pour les différences de division. La différence attendue ($ [Delta^_

] $) entre deux échantillons est calculé comme la « différence absolue moyenne », avec N comme ESS :

[[Delta^_

] = sommelimites_^N sommelimites_^N gauche(|frac - frac| fois P_(i|N,p) fois P_(j|N,p) droit)]

Sommaire

donne un aperçu de l'évaluation de la convergence décrite précédemment et mise en œuvre dans le package Commodité.

Vue d'ensemble du flux de travail dans l'évaluation de la convergence.


PRÉSENTATION D'AnaBioPlus

AnaBioPlus version 1.0 a été développé dans le but d'aider les chercheurs et les étudiants dans l'analyse des bioréacteurs. Il s'agit d'un progiciel non commercial composé de deux programmes : OptimusFerm et SimulaFerm. OptimusFerm est un logiciel d'estimation des paramètres cinétiques des modèles cinétiques de croissance cellulaire, et SimulaFerm est un simulateur de bioprocédés. Le package dispose d'une interface conviviale, qui permet à l'utilisateur d'accéder facilement aux ressources du programme. AnaBioPlus a quelques routines (exécutable, *.dll) en Fortran ® . Le logiciel a été développé à l'aide de Microsoft Visual Basic ® et est disponible en versions portugaise et anglaise.

OptimusFerm version 1.0 est un logiciel gratuit d'estimation des paramètres des modèles de cinétique de croissance cellulaire. L'estimation des paramètres consiste à trouver un ensemble optimal de paramètres qui maximisent (ou minimisent) une ou plusieurs fonctions objectives, avec ou sans contraintes. Dans ce travail, le problème à résoudre est une optimisation non linéaire, où la fonction objectif (Φ) est minimisée (Eq. 1). Les contraintes (Eq. 2) sont les bornes supérieure et inférieure des paramètres à estimer, bje, qui sont définis par l'utilisateur. Les concentrations expérimentales et calculées de substrat, de biomasse et de produit sont normalisées dans la fonction objectif (Φ) afin d'éviter des pondérations excessives dans l'ensemble de données. Les valeurs expérimentales et calculées de chaque variable dépendante sont mises à l'échelle en utilisant la valeur maximale trouvée pour cette variable. dans l'ensemble de données. Lorsque plusieurs exécutions par lots sont utilisées, la valeur maximale de chaque variable est recherchée dans l'ensemble de données de chaque lot.

De nombreuses approches peuvent être utilisées pour l'estimation des paramètres, allant des méthodes déterministes classiques, telles que Levenberg-Marquardt (LM), aux méthodes plus récentes basées sur le comportement écologique et biologique, telles que les algorithmes évolutionnaires (EA). Ces dernières présentent de nombreux avantages par rapport aux techniques de programmation non linéaires conventionnelles, notamment aucune exigence pour les gradients des fonctions de coût ou de contrainte, une mise en œuvre simple et moins de chance de se retrouver piégé dans un minimum local ( Nelles, 2001 Nelles, O. Identification de systèmes non linéaires : des approches classiques aux réseaux de neurones et aux modèles flous. Berlin, Heidelberg : Springer-Verlag (2001). Long et al., 2013 Long W., Liang X., Huang Y., Chen Y., Une méthode lagrangienne augmentée d'évolution différentielle hybride pour l'optimisation numérique et technique contrainte, Computer-Aided Desig, 45, p.1562-1574 (2013). ).

La classe d'algorithmes évolutionnaires contient plusieurs familles de méthodes, qui présentent des avantages et des inconvénients différents. Lors du développement d'OptimusFerm, un algorithme d'évolution différentielle (DE) a été utilisé. L'évolution différentielle est une méthode heuristique pour minimiser d'éventuelles fonctions spatiales continues non linéaires et non différentiables. Les algorithmes évolutionnaires se sont avérés efficaces pour résoudre de nombreux problèmes d'optimisation technique et ont l'avantage d'être moins sensibles aux minima locaux. L'algorithme DE a de nombreuses caractéristiques utiles, telles que la mise en œuvre facile, l'exigence de quelques variables de contrôle seulement et la robustesse ( Nelles, 2001 Nelles, O. Identification de systèmes non linéaires : des approches classiques aux réseaux de neurones et aux modèles flous. Berlin, Heidelberg : Springer-Verlag (2001). ). De plus, l'algorithme DE ne nécessite pas d'initialisation de paramètres, contrairement aux méthodes dérivées (comme la méthode LM). Dans les méthodes dérivées, si un ensemble initial de valeurs de paramètres incorrects est défini, la méthode peut diverger. De plus, la plupart des applications complexes du monde réel peuvent être résolues avec cette méthode ( Storn et Price, 1997 Storn R., Price K., Differential Evolution - Un schéma adaptatif simple et efficace pour l'optimisation globale sur des espaces continus, Journal of Global Optimization, 11, p.341-359 (1997). ).

OptimusFerm contient 32 modèles cinétiques de croissance cellulaire non séparés et non structurés (μ). Ces modèles sont divisés en différentes catégories : aucune inhibition, inhibition du substrat, inhibition du produit, inhibition cellulaire et inhibition hybride. Le tableau 1 présente quelques-uns des modèles présents dans le logiciel.

La méthode de Runge-Kutta d'ordre 4 est utilisée pour résoudre l'ensemble des équations différentielles ordinaires qui décrivent le bilan massique de la biomasse, du substrat et du produit dans le mode opérationnel du bioréacteur. Cinq types de culture différents sont disponibles dans le logiciel SimulaFerm (batch, fed-batch, continu sans recyclage cellulaire, continu avec recyclage cellulaire externe et continu avec recyclage cellulaire interne). À titre d'exemple, un ensemble de bilans de masse pour la culture discontinue est décrit par les équations. 12-14.


Discussion et conclusion

Nous avons comparé et évalué les effets de l'utilisation de différentes stratégies d'alignement et de cartographie pour la quantification de l'ARN-seq et discuté des mises en garde impliquées par différentes approches. Nous avons observé que les méthodes qui effectuent un alignement traditionnel des lectures contre le transcriptome peuvent produire des résultats parfois très différents de ceux produits par des méthodes de cartographie légères. Nous avons également observé qu'effectuer un alignement épissé sur le génome puis projeter ces alignements sur le transcriptome peut également produire des résultats divergents par rapport à l'alignement direct sur le transcriptome.

Dans le même temps, nous avons proposé et comparé une nouvelle méthode d'alignement hybride, SA, qui fournit une alternative efficace à la cartographie légère qui produit des résultats beaucoup plus proches de ce qui est obtenu en effectuant un alignement traditionnel. Cette approche surmonte les lacunes de la cartographie légère à la fois en termes de sensibilité et de spécificité, car elle est capable de déterminer les alignements appropriés lorsque les approches légères renvoient des cartographies sous-optimales ou aucune cartographie, et elle est également capable de mieux distinguer les loci d'alignement optimaux parmi un ensemble de séquences par ailleurs similaires. Certaines différences clés qui conduisent à l'amélioration de la précision de la SA sont une augmentation de la sensibilité de la cartographie (c. ]), et une phase de notation d'alignement réelle qui fournit des informations précises sur la qualité de chaque mappage retenu, permettant de filtrer les mappages parasites qui ne doivent pas être signalés. De plus, l'approche SA peut prendre en entrée un ensemble de séquences leurres, ce qui lui permet d'éviter certaines des fausses cartographies de transcriptome rapportées par Bowtie2, alors qu'en réalité, la lecture s'aligne mieux sur un locus génomique non annoté que sur le transcriptome annoté.

Les résultats de l'analyse comparative des différentes approches sur plusieurs ensembles de données simulées et expérimentales conduisent à un certain nombre de conclusions. Premièrement, malgré le fait que des progrès majeurs aient été réalisés dans l'amélioration du réalisme des données RNA-seq simulées, il reste encore de nombreuses façons dont les données simulées ne parviennent pas à récapituler les complexités et les défis des données expérimentales. L'un d'eux est le fait que les simulations sont presque toujours réalisées sur exactement le même transcriptome qui est utilisé pour la quantification, alors que, dans les échantillons expérimentaux, il existe une variation individuelle entre l'échantillon à doser et le transcriptome utilisé pour la quantification. Un autre effet qui n'est pas couramment capturé dans la simulation, mais qui prévaut dans les données réelles, est le séquençage des lectures à partir de transcrits non annotés, épissés alternativement, de transcrits avec des introns conservés, de loci génomiques autrement non annotés partageant une similarité de séquence avec des transcrits annotés, et de la contamination avec l'échantillon qui peuvent partager une similarité de séquence, dans une certaine mesure, avec le transcriptome cible. Ces effets, ainsi que d'autres que nous n'avons pas entièrement caractérisés dans ce manuscrit, rendent l'alignement et la quantification dans les échantillons expérimentaux beaucoup plus difficiles que dans les données simulées. Par conséquent, nous avons observé que lors de la quantification sur un large échantillon d'ensembles de données expérimentaux, les résultats de quantification obtenus à l'aide de différentes approches de cartographie et d'alignement peuvent démontrer une variation considérable. Ensemble, ces résultats suggèrent que la quantification basée uniquement sur des approches de cartographie légères peut ne pas atteindre la précision qui est obtenue par les mêmes algorithmes d'inférence lors de l'utilisation des alignements traditionnels et que ces erreurs de quantification peuvent également affecter les analyses en aval, même au niveau du gène (comme discutées dans la section « Les différences de quantification peuvent affecter l'analyse de l'expression génique différentielle »). Cela suggère également qu'il existe une marge d'amélioration pratique, même dans les approches d'alignement existantes les plus précises, au moins dans le but de quantifier l'abondance des transcriptions annotées.

Bien qu'il ait été précédemment rapporté [42] que le pseudo-alignement sur le transcriptome entraîne une précision de quantification comparable à l'alignement sur le génome, les analyses effectuées dans ce manuscrit suggèrent que l'alignement sur le transcriptome, la cartographie légère sur le transcriptome et l'alignement sur le génome donnent des résultats de quantification parfois très différents. Il y a plusieurs raisons pour lesquelles les analyses effectuées dans cet article conduisent à une conclusion différente sur cette question. Premièrement, l'accent est mis ici beaucoup plus sur les données expérimentales que sur les données simulées. Bien que nous ayons constaté que des différences entre la cartographie légère et l'alignement existent dans la simulation, l'ampleur de leur effet sur la quantification est généralement beaucoup plus petite que celle observée dans les données expérimentales. Deuxièmement, alors que la cartographie légère sur le transcriptome et l'alignement sur le génome donnent des résultats de quantification différents, nous avons également considéré l'alignement traditionnel sur le transcriptome, en développant les différentes approches courantes qui sont adoptées lors de l'alignement des lectures avant la quantification du transcript. Enfin, Yi et al. [42] prétraitent à la fois les alignements et les pseudo-alignements en nombres de classes d'équivalence (le nombre de fragments jugés compatibles avec différents sous-ensembles de transcrits). Ensuite, à partir de ces statistiques réduites, une estimation de l'abondance est effectuée. Cette transformation élimine les facteurs qui contribuent aux probabilités d'attribution de fragments conditionnels comme les scores d'alignement (le cas échéant), les longueurs de fragments, les positions de fragments, etc. Dans l'analyse présentée ici, nous avons pris en compte ces probabilités de fragments conditionnels dans la phase en ligne de quantification de la transcription et les avons incorporés (approximativement) dans les statistiques suffisantes via l'utilisation de classes d'équivalence factorisées par plage [43]. L'élimination de telles probabilités conditionnelles pourrait potentiellement diminuer les véritables différences qui existent dans les mappages sous-jacents qui peuvent, selon la complexité du modèle de quantification, avoir un effet sur les estimations de quantification. Tous ces facteurs peuvent expliquer les différences parfois considérables dans la précision de la quantification observées en aval de différentes procédures de cartographie et d'alignement légers. Alors que nous nous sommes concentrés sur la quantification et l'expression différentielle, les observations faites dans ce manuscrit sur la sensibilité et la précision des différentes approches d'alignement peuvent également s'étendre à d'autres analyses en aval, telles que la détection du locus quantitatif des traits d'expression trans-acting (eQTL) [44].

En ne considérant que les résultats sur des données simulées, on pourrait préférer une quantification basée sur l'alignement ou une cartographie légère des lectures de séquençage directement sur le transcriptome, plutôt que d'effectuer un alignement sur le génome suivi d'une projection sur le transcriptome. On n'observerait également que de petites différences entre la cartographie légère et l'alignement sur le transcriptome. Cependant, nos analyses des données expérimentales ont suggéré que la complexité accrue des expériences réelles de RNA-seq conduit à un comportement plus divergent. Dans les échantillons unicellulaires en vrac et pleine longueur analysés, SAF a donné la corrélation globale la plus élevée avec l'oracle, malgré le fait que l'oracle est dérivé d'une combinaison des résultats d'alignement Bowtie2 et STAR. Parmi les méthodes basées sur l'alignement traditionnel, l'alignement sur le génome (utilisant STAR, et projetant les alignements résultants sur le transcriptome) semblait afficher la meilleure concordance, en moyenne, avec les quantifications résultant des alignements oracle. SA a donné une précision similaire mais légèrement meilleure que l'alignement sur le transcriptome en utilisant Bowtie2. Cela est probablement dû en partie au fait que cela explique les leurres similaires à la séquence qui peuvent égarer l'alignement uniquement sur le transcriptome cible. Le principal avantage de SAF est qu'il s'aligne sur un index de référence qui contient à la fois les séquences de transcription entièrement épissées ainsi que l'intégralité du génome sous-jacent (en tant que séquence leurre potentielle). Cela permet à SAF d'obtenir le type de sensibilité présenté par des approches comme Bowtie2 et SA lorsque la lecture provient vraiment du transcriptome annoté, mais lui permet également, comme STAR, d'éviter d'aligner faussement une lecture sur une transcription annotée quand c'est mieux expliqué par un autre locus génomique. Dans les données expérimentales, les approches basées sur l'alignement et les méthodologies d'alignement sélectif ont donné de meilleurs résultats que la quasi-cartographie, bien que la manière dont ces méthodes diffèrent de la quasi-cartographie et les unes des autres ne soit pas identique.

Lorsqu'il essaie de choisir une approche, un choix peut être fait par l'utilisateur effectuant l'analyse en fonction de tout compromis de précision de temps qu'il souhaite faire. En termes de vitesse, nous avons observé que la quasi-cartographie est l'approche la plus rapide, suivie par SA et SAF puis STAR. Bowtie2 était considérablement plus lent que ces trois approches. Cependant, en termes de précision, nous avons constaté que le SAF donnait les meilleurs résultats, suivis de l'alignement sur le génome (avec projection transcriptomique ultérieure) en utilisant STAR et SA (en utilisant des séquences leurres soigneusement sélectionnées). Bowtie2 fonctionnait généralement de manière similaire à SA, mais sans l'avantage de séquences leurres, semblait admettre des mappages plus parasites. Enfin, la cartographie légère des lectures de séquençage sur le transcriptome a montré la cohérence globale la plus faible avec les quantifications dérivées des alignements d'oracle. Les analyses effectuées dans ce manuscrit suggèrent que, en ce qui concerne la quantification précise des transcriptions annotées, la notation de l'alignement est un élément important, mais les différentes approches d'alignement préexistantes ont excellé dans différents cas. SA prend des mesures pour combler les lacunes des approches existantes basées sur l'alignement sans faire de gros compromis sur la vitesse. Cela se fait en indexant des parties du génome qui sont de séquence similaire au transcriptome ou, comme dans le cas du SAF, le génome entier en plus du transcriptome annoté, présentant ainsi la sensibilité de Bowtie2 dans l'alignement transcriptomique, tout en évitant l'alignement parasite de lectures qui ne proviennent pas vraiment d'une transcription annotée, comme STAR. Cette approche a semblé fournir la précision globale la plus élevée, au moins aux fins de quantifier un ensemble annoté de transcriptions.


Kolmogorov-Smirnov et tests associés : utilisation et mauvaise utilisation

Les cours de statistiques, en particulier pour les biologistes, supposent des formules = comprendre et enseigner comment faire des statistiques, mais ignorent largement ce que supposent ces procédures et comment leurs résultats induisent en erreur lorsque ces hypothèses sont déraisonnables. L'abus qui en résulte est, dirons-nous, prévisible.

Utilisation et mauvaise utilisation

Ces tests permettent de comparer des distributions, qu'il s'agisse de deux distributions d'échantillons ou d'une distribution d'échantillons avec une distribution théorique. Les distributions sont comparées sous leur forme cumulative en tant que fonctions de distribution empiriques. La statistique de test développée par Kolmogorov et Smirnov pour comparer les distributions était simplement la distance verticale maximale entre les deux fonctions. Les tests de Kolmogorov-Smirnov présentent l'avantage que (a) la distribution de la statistique ne dépend pas de la fonction de distribution cumulative testée et (b) le test est exact. Ils présentent l'inconvénient d'être plus sensibles aux écarts près du centre de la distribution qu'au niveau des queues.

Le Kolmogorov-Smirnov à un et deux échantillons et les tests connexes sont largement utilisés dans toutes les disciplines. Malheureusement, le test de Kolmogorov-Smirnov à un échantillon est couramment utilisé à mauvais escient pour tester la normalité lorsque les paramètres de la distribution normale sont estimé à partir de l'échantillon plutôt que spécifié a priori. Le résultat est que le test est beaucoup trop conservateur, et les distributions qui ne sont clairement pas normales sont classées à tort comme telles. Cette pratique est peut-être renforcée par une volonté parfois non dissimulée de démontrer la normalité afin que des tests paramétriques ultérieurs puissent être effectués. La situation n'est pas aidée par le fait que divers progiciels ne savent pas quel test est utilisé. Le test correct à utiliser pour tester la normalité lorsque les paramètres de la distribution normale sont estimés à partir de l'échantillon est le test de Lilliefors.

En ce qui concerne la qualité de l'ajustement aux distributions discrètes, le test peut être adapté pour donner la valeur P correcte, et divers packages fournissent des logiciels pour tester la qualité de l'ajustement à la distribution de Poisson et à la distribution Zipf. Cependant, il n'y a pas d'équivalent Lilliefors pour ces distributions, donc encore une fois les paramètres ne peuvent pas être estimés à partir de l'échantillon. Un deuxième problème majeur découle du test de variables discrètes par rapport à des fonctions de distribution continue. Nous donnons un exemple bien connu où un test de Kolmogorov-Smirnov des chiffres finaux des valeurs P (une variable discrète) a suggéré qu'ils s'écartaient de la distribution uniforme (continue) attendue. Le test, cependant, a donné la mauvaise valeur P car avec de nombreux liens, le test est beaucoup trop libéral. Une erreur plus fondamentale que nous trouvons avec tous les tests de qualité d'ajustement est une mauvaise interprétation d'une petite valeur P pour indiquer un « bon ajustement ». En fait, bien sûr, cela signifie le contraire, mais les chercheurs sont tellement imprégnés du besoin de signification qu'ils oublient qu'avec les tests d'adéquation, un résultat significatif signifie un écart par rapport à la distribution « nulle ».

Avec le test à deux échantillons, la question est généralement : qu'est-ce que l'on veut comparer ? Un test de Kolmogorov-Smirnov compare les distributions globales plutôt que spécifiquement les emplacements ou les dispersions. Dans l'ensemble, nous avons constaté que le test est utilisé correctement à cet égard. Mais il y a le même problème qu'avec le test à un échantillon sur l'interprétation des valeurs p non significatives. Dans certains cas, les auteurs semblent penser qu'ils ont prouvé l'hypothèse nulle, et que deux distributions sont donc « les mêmes ». Cela peut paraître un peu pédant, mais c'est important. Le test de Kolmogorov-Smirnov a plutôt peu de pouvoir contre l'hypothèse nulle lors de la comparaison des distributions, et pour les petites tailles d'échantillon, les deux distributions devraient être complètement différentes pour que ce test montre une différence significative.

Ce que disent les statisticiens

Khamis et al. (2000) (1992) proposent une modification du test qui améliore sa puissance pour des échantillons de taille petite à moyenne. Harter et al. (1984) montrent que vous pouvez tenir compte des différences entre les fréquences observées et attendues avant et après chaque étape de la distribution cumulative en soustrayant 0,5 de chaque fréquence observée. Lilliefors (1967) a montré que le test à un échantillon de Kolmogorov-Smirnov est trop prudent si les fréquences attendues sont calculées à l'aide de paramètres estimés à partir de l'échantillon - les valeurs couramment tabulées (et logicielles) ne sont valables que pour une distribution entièrement définie. Anderson & Darling (1952) ont proposé le test d'Anderson-Darling et Stephens (1974) l'a modifié pour l'utiliser lorsque la distribution n'est pas complètement spécifiée.


Valeurs de Miu_max et Ks à partir de l'estimation des paramètres ? - La biologie

Dans de nombreux pays arides et semi-arides, l'eau devient une ressource de plus en plus rare et les planificateurs sont obligés de considérer toutes les sources d'eau qui pourraient être utilisées de manière économique et efficace pour promouvoir un développement ultérieur. Dans le même temps, avec la croissance démographique à un rythme élevé, le besoin d'augmenter la production alimentaire est évident. Le potentiel de l'irrigation pour augmenter à la fois la productivité agricole et le niveau de vie des ruraux pauvres est reconnu depuis longtemps. L'agriculture irriguée occupe environ 17 pour cent du total des terres arables du monde, mais la production de ces terres représente environ 34 pour cent du total mondial. Ce potentiel est encore plus prononcé dans les zones arides, telles que la région du Proche-Orient, où seulement 30 pour cent de la superficie cultivée est irriguée mais produit environ 75 pour cent de la production agricole totale. Dans cette même région, plus de 50 pour cent des besoins alimentaires sont importés et le taux d'augmentation de la demande alimentaire dépasse le taux d'augmentation de la production agricole.

Chaque fois que l'eau de bonne qualité est rare, l'eau de qualité marginale devra être envisagée pour une utilisation dans l'agriculture. Bien qu'il n'y ait pas de définition universelle de l'eau de « qualité marginale », à toutes fins pratiques, elle peut être définie comme une eau qui possède certaines caractéristiques susceptibles de poser des problèmes lorsqu'elle est utilisée aux fins prévues. Par exemple, l'eau saumâtre est une eau de qualité marginale à usage agricole en raison de sa forte teneur en sels dissous, et les eaux usées municipales sont une eau de qualité marginale en raison des risques pour la santé qui y sont associés. Du point de vue de l'irrigation, l'utilisation d'une eau de qualité « marginale » nécessite des pratiques de gestion plus complexes et des procédures de surveillance plus strictes que lorsque l'on utilise une eau de bonne qualité. Cette publication traite de l'utilisation agricole des eaux usées municipales, qui sont principalement des eaux usées domestiques mais qui contiennent peut-être une partie des effluents industriels rejetés dans les égouts publics.

L'expansion des populations urbaines et la couverture accrue de l'approvisionnement en eau domestique et de l'assainissement donnent lieu à de plus grandes quantités d'eaux usées municipales. Avec l'accent mis actuellement sur les problèmes de santé environnementale et de pollution de l'eau, il y a une prise de conscience croissante de la nécessité d'éliminer ces eaux usées de manière sûre et bénéfique. L'utilisation des eaux usées dans l'agriculture pourrait être une considération importante lorsque leur évacuation est planifiée dans les régions arides et semi-arides. However it should be realized that the quantity of wastewater available in most countries will account for only a small fraction of the total irrigation water requirements. Nevertheless, wastewater use will result in the conservation of higher quality water and its use for purposes other than irrigation. As the marginal cost of alternative supplies of good quality water will usually be higher in water-short areas, it makes good sense to incorporate agricultural reuse into water resources and land use planning.

Properly planned use of municipal wastewater alleviates surface water pollution problems and not only conserves valuable water resources but also takes advantage of the nutrients contained in sewage to grow crops. The availability of this additional water near population centres will increase the choice of crops which farmers can grow. The nitrogen and phosphorus content of sewage might reduce or eliminate the requirements for commercial fertilizers. It is advantageous to consider effluent reuse at the same time as wastewater collection, treatment and disposal are planned so that sewerage system design can be optimized in terms of effluent transport and treatment methods. The cost of transmission of effluent from inappropriately sited sewage treatment plants to distant agricultural land is usually prohibitive. Additionally, sewage treatment techniques for effluent discharge to surface waters may not always be appropriate for agricultural use of the effluent.

Many countries have included wastewater reuse as an important dimension of water resources planning. In the more arid areas of Australia and the USA wastewater is used in agriculture, releasing high quality water supplies for potable use. Some countries, for example the Hashemite Kingdom of Jordan and the Kingdom of Saudi Arabia, have a national policy to reuse all treated wastewater effluents and have already made considerable progress towards this end. In China, sewage use in agriculture has developed rapidly since 1958 and now over 1.33 million hectares are irrigated with sewage effluent. It is generally accepted that wastewater use in agriculture is justified on agronomic and economic grounds (see Example 1) but care must be taken to minimize adverse health and environmental impacts. The purpose of this document is to provide countries with guidelines for wastewater use in agriculture which will allow the practice to be adopted with complete health and environmental security.

EXAMPLE 1 - AGRONOMIC AND ECONOMIC BENEFITS OF WASTEWATER USE IN IRRIGATION

As an example, a city with a population of 500,000 and water consumption of 200 l/d per person would produce approximately 85,000 m 3 /d (30 Mm³/year) of wastewater, assuming 85% inflow to the public sewerage system. If treated wastewater effluent is used in carefully controlled irrigation at an application rate of 5000 m 3 /ha.year, an area of some 6000 ha could be irrigated. In addition to the economic benefit of the water, the fertilizer value of the effluent is of importance. With typical concentrations of nutrients in treated wastewater effluent from conventional sewage treatment processes as follows:

Nitrogen (N) - 50 mg/l
Phosphorus(P) - 10 mg/l
Potassium (K) - 30 mg/l

and assuming an application rate of 5000 m 3 /ha.year, the fertilizer contribution of the effluent would be:

N - 250 kg/ha. année
P - 50 kg/ha. année
K - 150 kg/ha. année

Thus, all of the nitrogen and much of the phosphorus and potassium normally required for agricultural crop production would be supplied by the effluent. In addition, other valuable micronutrients and the organic matter contained in the effluent will provide additional benefits.

Municipal wastewater is mainly comprised of water (99.9%) together with relatively small concentrations of suspended and dissolved organic and inorganic solids. Among the organic substances present in sewage are carbohydrates, lignin, fats, soaps, synthetic detergents, proteins and their decomposition products, as well as various natural and synthetic organic chemicals from the process industries. Table 1 shows the levels of the major constituents of strong, medium and weak domestic wastewaters. In arid and semi-arid countries, water use is often fairly low and sewage tends to be very strong, as indicated in Table 2 for Amman, Jordan, where water consumption is 90 l/d per person.

Table 1: MAJOR CONSTITUENTS OF TYPICAL DOMESTIC WASTEWATER

1 The amounts of TDS and chloride should be increased by the concentrations of these constituents in the carriage water.

2 BOD 5 is the biochemical oxygen demand at 20°C over 5 days and is a measure of the biodegradable organic matter in the wastewater.

Source: UN Department of Technical Cooperation for Development (1985)

Municipal wastewater also contains a variety of inorganic substances from domestic and industrial sources (see Table 3), including a number of potentially toxic elements such as arsenic, cadmium, chromium, copper, lead, mercury, zinc, etc. Even if toxic materials are not present in concentrations likely to affect humans, they might well be at phytotoxic levels, which would limit their agricultural use. However, from the point of view of health, a very important consideration in agricultural use of wastewater, the contaminants of greatest concern are the pathogenic micro- and macro-organisms.

Pathogenic viruses, bacteria, protozoa and helminths may be present in raw municipal wastewater at the levels indicated in Table 4 and will survive in the environment for long periods, as summarized in Table 5. Pathogenic bacteria will be present in wastewater at much lower levels than the coliform group of bacteria, which are much easier to identify and enumerate (as total coliforms/100ml). Escherichia coli are the most widely adopted indicator of faecal pollution and they can also be isolated and identified fairly simply, with their numbers usually being given in the form of faecal coliforms (FC)/100 ml of wastewater.

Table 2: AVERAGE COMPOSITION OF WASTEWATER IN AMMAN, JORDAN

1 COD is chemical oxygen demand
2 TOC is total organic carbon

Source: Al-Salem (1987)

Table 3: CHEMICAL COMPOSITION OF WASTEWATERS IN ALEXANDRIA AND GIZA, EGYPT

Table 4: POSSIBLE LEVELS OF PATHOGENS IN WASTEWATER

Possible concentration per litre in municipal wastewater 1

? Uncertain
1 Based on 100 lpcd of municipal sewage and 90% inactivation of excreted pathogens
2 Includes polio-, echo- and coxsackieviruses
3 Includes enterotoxigenic, enteroinvasive and enteropathogenic E. coli
4 Anglostoma duedenale and Necator americanus

Source: Feachem et al. (1983)

Table 5 : SURVIVAL OF EXCRETED PATHOGENS (at 20-30°C)

In faeces, nightsoil and sludge

In fresh water and sewage

Entamoeba histolytica cysts

Ascaris lunbricoides eggs

* Figures in brackets show the usual survival time.

Source: Feachem et al. (1983)

Organic chemicals usually exist in municipal wastewaters at very low concentrations and ingestion over prolonged periods would be necessary to produce detrimental effects on human health. This is not likely to occur with agricultural/aquacultural use of wastewater, unless cross-connections with potable supplies occur or agricultural workers are not properly instructed, and can normally be ignored. The principal health hazards associated with the chemical constituents of wastewaters, therefore, arise from the contamination of crops or groundwaters. Hillman (1988) has drawn attention to the particular concern attached to the cumulative poisons, principally heavy metals, and carcinogens, mainly organic chemicals. World Health Organization guidelines for drinking water quality (WHO 1984) include limit values for the organic and toxic substances given in Table 6, based on acceptable daily intakes (ADI). These can be adopted directly for groundwater protection purposes but, in view of the possible accumulation of certain toxic elements in plants (for example, cadmium and selenium) the intake of toxic materials through eating the crops irrigated with contaminated wastewater must be carefully assessed.

Table 6: ORGANIC AND INORGANIC CONSTITUENTS OF DRINKING WATER OF HEALTH SIGNIFICANCE

Heptachlor and heptachlor epoxide

Pathogenic organisms give rise to the greatest health concern in agricultural use of wastewaters, yet few epidemological studies have established definitive adverse health impacts attributable to the practice. Shuval et al. (1985) reported on one of the earliest evidences connecting agricultural wastewater reuse with the occurrence of disease (Figure 1). It would appear that in areas of the world where helminthic diseases caused by Ascaris and Trichuris spp. are endemic in the population and where raw untreated sewage is used to irrigate salad crops and/or vegetables eaten uncooked, transmission of these infections is likely to occur through the consumption of such crops. A study in West Germany (reported by Shuval et al. 1986) provides additional evidence (Figure 2) to support this hypothesis and further evidence was also provided by Shuval et al. (1985 1986) to show that cholera can be tranmitted through the same channel.

Figure 1: Prevalence of Ascaris-positive stool samples in West Jerusalem population during various periods, with and without supply of vegetables and salad crops irrigated with raw wastewater (Gunnerson, Shuval and Arlosoroff 1984)

There is only limited evidence indicating that beef tapeworm (Taenia saginata) can be transmitted to the population consuming the meat of cattle grazing on wastewater irrigated fields or fed crops from such fields. However, there is strong evidence from Melbourne, Australia and from Denmark (reported by Shuval et al. 1985) that cattle grazing on fields freshly irrigated with raw wastewater, or drinking from raw wastewater canals or ponds, can become heavily infected with the disease (cysticerosis).

Indian studies, reported by Shuval et al. (1986), have shown that sewage farm workers exposed to raw wastewater in areas where Ancylostoma (hookworm) and Ascaris (nematode) infections are endemic have significantly excess levels of infection with these two parasites compared with other agricultural workers in similar occupations. Furthermore, the studies indicated that the intensity of the Ascaris infections (the number of worms infesting the intestinal tract of an individual) in the sample of sewage farm workers was very much greater than in the control sample. In the case of the hookworm infections, the severity of the health effects was a function of the worm load of individuals, which was found to be related to the degree of exposure and the length of time of exposure to the hookworm larvae. Sewage farm workers are also liable to become infected with cholera if practising irrigation with raw wastewater derived from an urban area in which a cholera epidemic is in progress (Shuval et al. 1985). Morbidity and serological studies on wastewater irrigation workers or wastewater treatment plant workers occupationally exposed to wastewater directly and to wastewater aerosols have not been able to demonstrate excess prevalence of viral diseases.

Figure 2: Wastewater irrigation of vegetables and Ascaris prevalence in Darmstadt and Berlin, compared with other cities in Germany not practising wastewater irrigation (Gunnerson, Shuval and Arlosoroff 1984)

No strong evidence has been adduced to suggest that population groups residing near wastewater treatment plants or wastewater irrigation sites are at greater risk from pathogens in aerosolized wastewater resulting from aeration processes or sprinkler irrigation. Shuval et al. (1986) suggest that the high levels of inmunity against most viruses endemic in the community essentially block environmental transmission by wastewater irrigation.

Finally, in respect of the health impact of use of wastewater in agriculture, Shuval et al. (1986) rank pathogenic agents in the order of priority shown in Example 2. They pointed out that negative health effects were only detected in association with the use of raw or poorly-settled wastewater, while inconclusive evidence suggested that appropriate wastewater treatment could provide a high level of health protection.

EXAMPLE 2 - RELATIVE HEALTH IMPACT OF PATHOGENIC AGENTS

High Risk
(high incidence of excess infection)

Helminths
( Ancylostoma , Ascaris , Trichuris and Taenia )

Medium Risk
(low incidence of excess infection)

Enteric Bacteria
(Cholera vibrio, Salmonella typhosa, Shigella and possibly others)

Low Risk
(low incidence of excess infection)

The following microbiological parameters are particularly important from the health point of view:

une. Coliforms and Faecal Coliforms. The Coliform group of bacteria comprises mainly species of the genera Citrobacter, Enterobacter, Escherichia and Klebsiella and includes Faecal Coliforms, of which Escherichia coli is the predominant species. Several of the Coliforms are able to grow outside of the intestine, especially in hot climates, hence their enumeration is unsuitable as a parameter for monitoring wastewater reuse systems. The Faecal Coliform test may also include some non-faecal organisms which can grow at 44°C, so the E. coli count is the most satisfactory indicator parameter for wastewater use in agriculture.

b. Faecal Streptococci. This group of organisms includes species mainly associated with animals (Streptococcus bovis and S. equinus), other species with a wider distribution (e.g. S. faecalis and S. faecium, which occur both in man and in other animals) as well as two biotypes (S. faecalis var liquefaciens and an a typical S. faecalis that hydrolyzes starch) which appear to be ubiquitous, occurring in both polluted and non-polluted environments. The enumeration of Faecal Streptococci in effluents is a simple routine procedure but has the following limitations: the possible presence of the non-faecal biotypes as part of the natural microflora on crops may detract from their utility in assessing the bacterial quality of wastewater irrigated crops and the poorer survival of Faecal Streptococci at high than at low temperatures. Further studies are still warranted on the use of Faecal Streptococci as an indicator in tropical conditions and especially to compare survival with that of Salmonellae.

c. Clostridium perfringens. This bacterium is an exclusively faecal spore-forming anaerobe normally used to detect intermittent or previous pollution of water, due to the prolonged survival of its spores. Although this extended survival is usually considered to be a disadvantage for normal purposes, it may prove to be very useful in wastewater reuse studies, as Clostridium perfringens may be found to have survival characteristics similar to those of viruses or even helminth eggs.

The following pathogenic parameters can only be considered if suitable laboratory facilities and suitably trained staff are available:

une. Salmonella spp. Several species of Salmonellae may be present in raw sewage from an urban community in a tropical developing country, including S. typhi (causative agent for typhoid) and many others. It is estimated (Doran et al. 1977) that a count of 7000 Salmonellae /litre is typical in a tropical urban sewage with similar numbers of Shigellae, and perhaps 1000 Vibrio cholera/ litre . Both Shigella spp and V. cholera are more rapidly killed in the environment, so if removal of Salmonellae can be achieved, then the majority of other bacterial pathogens will also have been removed.

b. Enteroviruses. May give rise to severe diseases, such as Poliomyelitis and Meningitis, or to a range of minor illnesses such as respiratory infections. Although there is no strong epidemiological evidence for the spread of these diseases via sewage irrigation systems, there is some risk and it is desirable to know to what extent viruses are removed by existing and new treatment processes, especially under tropical conditions. Virus counts can only be undertaken in a dedicated laboratory, as the cell culture techniques required are very susceptible to bacterial and fungal contamination.

c. Rotaviruses. These viruses are known to cause gastro-intestinal problems and, though usually present in lower numbers than enteroviruses in sewage, they are known to be more persistent, so it is necessary to establish their survival characteristics relative to enteroviruses and relative to the indicator organisms in wastewaters. It has been claimed that the removal of viruses in wastewater treatment occurs in parallel with the removal of suspended solids, as most virus particles are solids-associated. Hence, the measurement of suspended solids in treated effluents should be carried out as a matter of routine.

ré. Intestinal Nematodes. It is known that nematode infections, in particular from the roundworm Ascaris lumbricoides, can be spread by effluent reuse practices. The eggs of A. lumbricoides are fairly large (45-70 m m x 35-50 m m) and several techniques for enumeration of nematodes have been developed (WHO 1989).

The quality of irrigation water is of particular importance in arid zones where extremes of temperature and low relative humidity result in high rates of evaporation, with consequent deposition of salt which tends to accumulate in the soil profile. The physical and mechanical properties of the soil, such as dispersion of particles, stability of aggregates, soil structure and permeability, are very sensitive to the type of exchangeable ions present in irrigation water. Thus, when effluent use is being planned, several factors related to soil properties must be taken into consideration. A thorough treatise on the subject prepared by Ayers and Westcot is contained in the FAO Irrigation and Drainage Paper No 29 Rev. 1 (FAO 1985).

Another aspect of agricultural concern is the effect of dissolved solids (TDS) in the irrigation water on the growth of plants. Dissolved salts increase the osmotic potential of soil water and an increase in osmotic pressure of the soil solution increases the amount of energy which plants must expend to take up water from the soil. As a result, respiration is increased and the growth and yield of most plants decline progressively as osmotic pressure increases. Although most plants respond to salinity as a function of the total osmotic potential of soil water, some plants are susceptible to specific ion toxicity.

Many of the ions which are harmless or even beneficial at relatively low concentrations may become toxic to plants at high concentration, either through direct interference with metabolic processes or through indirect effects on other nutrients, which might be rendered inaccessible. Morishita (1985) has reported that irrigation with nitrogen-enriched polluted water can supply a considerable excess of nutrient nitrogen to growing rice plants and can result in a significant yield loss of rice through lodging, failure to ripen and increased susceptibility to pests and diseases as a result of over-luxuriant growth. He further reported that non-polluted soil, having around 0.4 and 0.5 ppm cadmium, may produce about 0.08 ppm Cd in brown rice, while only a little increase up to 0.82, 1.25 or 2.1 ppm of soil Cd has the potential to produce heavily polluted brown rice with 1.0 ppm Cd.

Important agricultural water quality parameters include a number of specific properties of water that are relevant in relation to the yield and quality crops, maintenance of soil productivity and protection of the environment. These parameters mainly consist of certain physical and chemical characteristics of the water. Table 7 presents a list of some of the important physical and chemical characteristics that are used in the evaluation of agricultural water quality. The primary wastewater quality parameters of importance from an agricultural viewpoint are:


Values of Miu_max and Ks from parameter estimation? - La biologie

SimBench: benchmarking of single cell simulation methods

The SimBench package is designed for benchmarking simulation methods based on two key aspects of accuracy of data properties estimation and ability to retain biological signals.

In detail, SimBench :
i) quantifies the distributional similarities between a simulated scRNA-seq and a real scRNA-seq data using KDE test (Kernel Density Based Global Two-Sample Comparison Test) across 13 gene-wise and cell-wise properties.
ii) measures the similarities of the amount of biological signals in a simulated scRNA-seq and a real scRNA-seq data by measuring the proportion difference of DE, DV, DD, BD and BI genes.

This package has been tested on Linux (Debian 10) and macOS (Big Sur 11.3.1)

You may need to install the following dependencies first:

SimBench can be then installed using devtools

The installation of SimBench itself should take less than 1 minute.

We have provided a 'simulated' data ( sim.rds ) and a 'real' ( real.rds ) scRNA-seq in the github folder to illustrate the usage of our codes. The expected run time for this demo is 2 minutes.

The files are provided in the instextdata folder in this github repo .

Note both the sim and real dataset need to be SingleCellExperiment object, with rownames and colnames. If celltype is provided in the object, then the comparison will be made based on each cell type and then combined using a weighted sum (where the weight is the proportion of the cell type).
if no celltype is provided, then the comparison will be made based on the entire dataset.

The parameter estimation score can be obtained by :

The output contains 3 fields:
stats_overall gives the overall KDE test statistics
stats_celltype gives the KDE test statistics for each cell type
stats_raw gives the raw values used to perform the KDE test (eg, the mean expression of each gene)

We can use the raw value to visualise the simulated dataset and real dataset over 13 parameters.

Maintaining biological signatures

Evaluation of biological signals can be obtained by

The proportion difference can be visualised using barplot.

Part of the codes was inspired and adapted from R package countsimQC and scClassify .

Soneson, C., & Robinson, M. D. (2018). Towards unified quality verification of synthetic count data with countsimQC. Bioinformatics, 34(4), 691-692.).
Lin, Y., Cao, Y., Kim, H. J., Salim, A., Speed, T. P., Lin, D. M., . & Yang, J. Y. H. (2020). scClassify: sample size estimation and multiscale classification of cells using single and multiple reference. Molecular systems biology, 16(6), e9389.

Installation of countsimQC and scClassify is however not required for running SimBench .


12th International Symposium on Process Systems Engineering and 25th European Symposium on Computer Aided Process Engineering

Timothy Van Daele , . Ingmar Nopens , in Computer Aided Chemical Engineering , 2015

3 Results

The Michaelis-Menten equation (see Equation 1 ) will be used to illustrate the different core functionalities of the package by following the stepwise approach of Figure 1 . The following results were achieved by using only 25 lines of code from model definition until OED (ignoring loading of packages and comments), this illustrates the power and accessibility of the package. This limited number of lines gives the user access to advanced functionalities. In the following part only the results and figures of the different steps are shown, the code will be made publicly available prior to the conference. A (local) identifiability analysis was performed by using collinearity analysis, and showed no identifiability problems.

3.1 Model calibration

First the parameters Vmax et KS of the Michaelis-Menten reaction have to be estimated by use of some data. Six data points were generated in silico, using the parameter values of the paper published by Johnson and Goody (2011) . For each of these data points relative noise was added, what means that higher model output values of v can have a higher absolute noise compared to low values of v. This noise was randomly sampled from a normal distribution with mean zero and a standard deviation of 0.05. The six data points were taken at substrate concentrations S of 5, 10, 20, 30, 75 and 100 mM. By using a WSSE with relative weights more weight/certainty was given to low v valeurs. This resulted in the fit shown in Figure 2 . The estimated parameter values were slightly different from the real parameter values (a Vmax value of 0.746 mM/min et un KS value of 17.55 mM). This is due to the normal noise that was added. To assure that the objective function is not prone to local minima, it is considered good practice to repeat a parameter estimation multiple times with different starting points to assure that the same values are always retrieved. If this is not the case, one should use global minimisation methods (e.g. particle swarm optimisation) or verify whether the model is (practical) identifiable.

Figure 2 . The in silico data with noise was used to estimate the parameters Vmax et KS of the Michaelis-Menten model ( Equation 1 ). The minimisation of the objective function yielded a Vmax value of 0.746 mM/min et un KS value of 17.55 mM. These results are slightly different from the real parameter values, because of the normal noise which was added.

3.2 Estimate parameter confidence

After finishing the parameter estimation the confidence levels for the different parameters can be calculated using the FIM. Using the built-in function ‘get_parameter_confidence’, the different parameter and corresponding 95 % confidence intervals are retrieved: Vmax = 0.746 ± 0.094 mM/min et KS = 17.55 ± 4.55 mM and were both considered as reliable based on the Student’s t-test.

Figure 3 . By using optimal experimental design and the D-optimality criterion, the experiments are optimised and the confidence intervals are decreased for both parameters. In the two lower figures, the local parameter relative sensitivity is showed for both Vmax et KS.

3.3 Optimal Experimental Design for parameter estimation

Instead of ignoring available knowledge reported in the paper of Johnson and Goody (2011) , it is possible to take this knowledge into account when designing experiments. The total number of experiments is still equal to six and the only experimental degree of freedom is the sucrose concentration S, which can be varied between 5 and 100 mM. The minimum sucrose concentration was set to 5 mM to assure sufficiently high reaction rates. An extra optimisation constraint was added, i.e. the difference in sucrose concentration between two experiments should be at least 5 mM. This allows to make the design less dependent on the actual parameter values. This optimisation led to lower confidence intervals for both parameters. Pour Vmax the optimised experimental design led to a 95 % confidence interval of only 0.070, a decrease of 25.5 %. Pour KS the 95 % confidence interval decreased to 3.73, which is 18.0 % lower compared the the original experimental setup. This illustrates that OED is a powerful technique which can improve the confidence levels of the models without requiring an additional experimental effort.


Informations sur l'auteur

Affiliations

Research School of Biology, The Australian National University, Canberra, ACT, 0200, Australia

Kalya Subasinghe, Marta Vidal-García, Timothée Bonnet & Janet L. Gardner

CSIRO Land and Water, GPO Box 1700, Canberra, ACT, 2601, Australia

Kalya Subasinghe & Kristen J. Williams

Department of Zoology and Environmental Management, University of Kelaniya, Kelaniya, 11600, Sri Lanka

Centre for Integrative Ecology, School of Life and Environmental Sciences, Deakin University, Burwood, VIC, 3125, Australia

Department of Cell Biology and Anatomy, University of Calgary, Calgary, AB, T2N 4N1, Canada

CSIRO Land and Water, Private Bag 5, Wembley, WA, 6913, Australia

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Contributions

KS and JG conceived the idea KS, JG and MVG developed the methods KS, TB and MRES designed the analyses KS collected and analysed the data and wrote the manuscript all authors read the manuscript and provided feedback.


Voir la vidéo: TDD. statistiques - valeurs centrales (Août 2022).