Csere modell

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt hozzászólók, és jelentősen eltérhet a 2017. június 15-én felülvizsgált verziótól ; az ellenőrzések 4 szerkesztést igényelnek .

Szubsztitúciós modell (a biológiában) - elméleti vagy empirikus szabályok összessége, amelyek leírják a nukleotidok vagy aminosavak helyettesítésének folyamatát a DNS- vagy fehérjeszekvencia evolúciója során.

A véletlenszerű nukleotid szubsztitúciók, inszerciók és deléciók következtében megváltozó nukleotidszekvenciák az evolúció során szekvencia eltérésekhez vezetnek. Az ilyen változások DNS szinten maradhatnak, vagy a fehérje szekvencia megváltozásához vezethetnek, aminek következtében a fehérje elveszítheti funkcionalitását, vagy új tulajdonságokat szerezhet. Az evolúció modellezésének és a filogenetikai hipotézisek tesztelésének fontos része azoknak a szabályoknak a megválasztása, amelyek szerint az egyik nukleotid vagy aminosav idővel egy másikra cserélődik.

A helyettesítési modellek háttere

A szekvenciaváltozások mögött meghúzódó valós folyamatok meglehetősen összetettek: a különböző nukleotidok eltérő sebességgel mutálhatnak, egyes helyek evolúciója függhet a szekvencia más részeinek evolúciójától, ugyanazon pozíciókban ismétlődő szubsztitúciók történhetnek. Mindezek a tényezők növelik a modellparaméterek számát, csökkentve a becslési pontosságot. Ezért a kiszámítható modellek felépítéséhez számos előfeltételt kell alkalmazni, amelyek realitása változó.

A molekuláris óra hipotézise

A valószínűségi evolúciós modellek megalkotásának gyakori előfeltétele a molekuláris óra hipotézise . Ezzel a hipotézissel összhangban feltételezzük, hogy a leszármazott ágak hossza a helyenkénti helyettesítések számától függ, amelyek az utolsó közös őstől (MRCA) való elválasztásuk óta történtek. Ha lehetséges a kövületekből szekvenciák kinyerése, akkor pontosan meghatározható a vizsgált fa ágának lelőhelyenkénti évi pótlásainak száma. Egy modellt akkor tekintünk szigorú molekuláris órával rendelkezőnek, ha az évenkénti cserék száma a vizsgált fa összes fajára vonatkozóan állandó. A szigorú molekuláris óra feltételezése gyakran nem reális. Például annak ellenére, hogy a rágcsálók genetikailag közel állnak a főemlősökhöz, a rágcsálók evolúciós üteme sokkal gyorsabb (valószínűleg annak köszönhető, hogy a rágcsálók generációjának hossza sokkal rövidebb, az anyagcsere sebessége és a populáció mérete nagyobb ). Azokat a modelleket, amelyek lehetővé teszik az evolúció különböző ütemeinek figyelembevételét a különböző genealógiai vonalakban, nem szigorúnak (szabadnak) nevezzük. A sorok közötti evolúciós sebesség változását általában exponenciális vagy lognormális eloszlással írják le. Külön eset az úgynevezett lokális molekuláris óra. Ez a modell lehetővé teszi a kutató számára, hogy azonosítsa a filogenetikai vonalak csoportjait, amelyek mindegyikének megvan a maga szigorú molekuláris órájának modellje.

A helyek számának semlegességének, függetlenségének és végességének hipotézise

A legtöbb helyettesítési modell a semlegesség, a függetlenség és a véges számú helyszín feltételezésein alapul. A semlegesség azt jelenti, hogy a molekuláris evolúció semleges elméletének megfelelően a legtöbb szubsztitúció nem esik szelekció alá, ami azt jelenti, hogy a szekvenciák közötti helyettesítések számából tudjuk megítélni a köztük lévő eltérés idejét. A függetlenség ebben az esetben azt jelzi, hogy az ebben a pozícióban történő csere nem befolyásolja a szomszédos cseréket. A helyek számának végessége oda vezet, hogy egy adott pozícióban az evolúció során sokszor előfordulhatnak helyettesítések. Ez azt jelenti, hogy ha két egymáshoz igazodó aminosavat (A és L) homológ szekvenciákban veszünk figyelembe, általában nem tudjuk, hogy történt-e változás A-ról L-re, vagy például az A->S->T->-ről. L.

Cseremodellek osztályozása

A modellépítésnek két fő megközelítése létezik: empirikus és parametrikus (Lio és Goldman, 1998) [1] .

Paraméteres helyettesítési modellek

Paraméteres szubsztitúciós modelleket elsősorban nukleotidszekvenciákra fejlesztettek ki. Az ilyen modellekben a helyettesítések valószínűségét számos paraméter függvényében határozzák meg, amelyeket minden egyes vizsgált adatkészletre becsülnek (általában a maximum likelihood módszerrel ). Ebben az esetben a paraméterek két fő osztályát vesszük figyelembe: 1) a nukleotid-gyakoriság paramétereit és 2) a helyettesítések sebességének (sebességének) paramétereit. A leggyakrabban használt modellek a GTR családból származnak (General Time-Reversible, Simon Tavaré 1986). Ebbe a családba tartozik az összes szabványos nukleotidszubsztitúciós modell (JC69, K80 vagy K2P, F81, HKY85, TN93, GTR), amelyek a filogenetikai elemzéshez szabványos csomagokban vannak megvalósítva, mint például a MEGA, PAUP, PHYLIP és PHYML.

A helyettesítések empirikus mintái

Az empirikus szubsztitúciós modellek sikeresen működnek az illesztések felépítésében és a fehérjeszekvenciák filogenetikai kapcsolatának becslésében. Az aminosav-szubsztitúció valószínűségének becslésére empirikus szubsztitúciós mátrixokat használnak , például BLOSUM, PAM, WAG, JTT, amelyeket a megfigyelt szubsztitúciók gyakoriságának statisztikai elemzése alapján kaptak különböző evolúciós fokú konzervatív fehérjedoménekben. eltérés.

Alapvető nukleotidszubsztitúciós minták

A nukleotid szekvenciák evolúciójának leírására leggyakrabban a GTR család parametrikus modelljeit (General Time-Reversible model) használják. Ebbe a családba tartozik az összes szabványos nukleotidszubsztitúciós modell (JC69, K80 vagy K2P, F81, HKY85, TN93, GTR), amelyek a filogenetikai elemzéshez szabványos csomagokban vannak megvalósítva, mint például a MEGA, PAUP, PHYLIP és PHYML. Ezek a modellek a becsült paraméterek számában és ennek megfelelően a feltételezések realitásában különböznek.

Legáltalánosabb formájában a GTR-modell (Tavaré 1986 [2] ) nem tesz feltételezéseket a nukleotid-gyakoriságokról és a köztük lévő helyettesítés valószínűségéről. Négy paraméter értékelését igényli a nukleotidok egyensúlyi gyakoriságára, és hat paramétert a köztük lévő helyettesítések sebességére:

A végső helyettesítési arány mátrix egy ilyen modellben így fog kinézni:

Ezzel szemben a legegyszerűbb JC-modell (Jukes és Cantor 1969) [3] teszi a legtöbb egyszerűsítő feltevést, és csak egy paraméter becslését igényli. A modell az összes nukleotid azonos gyakoriságát és az összes nukleotid közötti helyettesítések azonos arányát feltételezi (a modell egyetlen paramétere). A helyettesítési arány mátrixa egy ilyen modellben a következőképpen alakul:

A JC-modell abból a szempontból rossz, hogy nem veszi figyelembe a DNS evolúciójának néhány fontos tulajdonságát, például az átmenetek különböző gyakoriságát (egy purinbázis helyettesítése egy másikkal, vagy egy pirimidinbázis helyettesítése egy másikkal) és a transzverziókat (purin helyettesítése) bázis egy pirimidin bázishoz, és fordítva), valamint a nukleotid gyakoriságok egyenlőtlensége a valódi nukleotid szekvenciákban. A GTR modell hátránya a nagyszámú paraméter, ami megnehezíti a modell értékelését. Ezért a gyakorlatban gyakran alkalmaznak köztes modelleket, ami a JC előfeltételeinek egy részét gyengíti. Például a K80 modell (Kimura 2-parameter, 1980) [4] azonos nukleotid-gyakoriságot feltételez, de az átmenetek és transzverziók eltérő sebességét.

A GTR család modelljei

Az alábbiakban felsoroljuk a GTR család leggyakrabban látott modelljeit. Egy modellt "beágyazottnak" (beágyazottnak) neveznek egy másik modellben, ha ez az (egyszerűbb) modell egyenértékű egy összetettebb, meghatározott beállításokkal rendelkező modellel. Például a JC modell be van ágyazva a K2P-be. Vagyis a JC a K2P modell speciális esete: ha ugyanazt az átmenetek és transzverziók gyakoriságát állítja be a K2P-ben, akkor a modellek egyenértékűekké válnak.

Jukes-Cantor (JC)

A Jukes és Cantor (1969) [3] modellje a legegyszerűbb. Ugyanazt a nukleotid-gyakoriságot (25%) és azonos valószínűséget feltételez bármely nukleotidpár között. Ezt a modellt ritkán használják valós adatok filogenetikai elemzésére.

Felsenstein 1981 (F81)

A Felsenstein modell a Jukes–Cantor modell kiterjesztéseként tekinthető. A nukleotidok gyakorisága 25%-tól eltérhet, minden szubsztitúció egyformán valószínű (Felsenstein 1981) [5]

Kimura 2-paraméteres (K80)

Kimura kétparaméteres modellje a nukleotidok azonos előfordulási gyakoriságát feltételezi, a helyettesítések valószínűsége az átmenetek és transzverziók esetében eltérő (Kimura 1980) [4] .

Hasegawa-Kishino-Yano (HKY)

Ez a modell lehetővé teszi a Felsenstein és Kimura modellekben bevezetett további paraméterek egyidejű használatát. A nukleotidok gyakorisága eltérő lehet, a szubsztitúciók valószínűsége eltérő az átmenetek és transzverziók esetében (Hasegawa et. al. 1985) [6] .

Tamura-Nei (TrN)

A Tamura–Ney modell különböző nukleotid-frekvenciákat javasol. A helyettesítések valószínűsége transzverziók esetén azonos, de átmeneteknél eltérő lehet (Tamura Nei 1993) [7] .

Általános idő megfordítható (GTR)

A legbonyolultabb modell a GTR. Különböző frekvenciájú nukleotidokat (4 paraméter) és különböző nukleotidok közötti helyettesítési gyakoriságokat (6 paraméter) használ (Lanave et al. 1984, Tavare 1986, Rodriguez et. al. 1990).

A frekvenciaváltozás gamma eloszlása ​​a helyek között

A helyettesítési modell kiegészíthető a helyek közötti gyakorisági eltérések becslésével. A mutációs ráta nem azonos a szekvencia teljes hosszában. Az állandó pozitív szelekció alatt álló helyek (pl. antigéndeterminánsok) gyakrabban változnak, mint a negatív szelekció alatt álló fehérjekötő helyek. A kódoló szekvenciákban a kodonok második pozíciójában lévő helyettesítések a legtöbb esetben nem szinonimák, és sokkal ritkábban fordulnak elő, mint a harmadik pozíciókban (szinonimák) történő helyettesítések. A különböző pozíciókban történő helyettesítések gyakorisága a gamma-eloszlástól függően változik (Uzzel és Corbin, 1971; Jin és Nei, 1990; Tamura és Nei, 1993; Wakeley, 1993, Yang, 1996). A gamma-eloszlás alakját az a paraméter határozza meg. Ha a=1, akkor a gamma-eloszlás exponenciálissá válik, és ahogy a növekszik, egyre jobban hasonlít a normálhoz. Minél nagyobb a helyettesítési frekvenciák közötti különbség, amelyet a sorozatban találhatunk, annál kisebb az a paraméter értékét kell használni. A fent felsorolt ​​modelleknél figyelembe lehet venni a különböző pozíciókban történő cserék gyakoriságának különbségét. A szubsztitúciók gyakoriságának gamma eloszlására vonatkozó hipotézis mellett a modell kiegészíthető egy olyan paraméterrel, amely leírja a szekvenciában az invariáns helyek arányát, vagyis a negatív szelekció hatása alatt álló konzervatív helyek arányát.

Alapvető aminosav helyettesítési minták

A kódoló szekvenciák közötti távolságok pontosabban mérhetők aminosavak, nem pedig nukleotid-összehasonlítások alapján. A fehérjében lévő aminosav változása a nukleotidok véletlenszerű szubsztitúciója miatt következik be. Azonban annak a valószínűsége, hogy a helyettesítés rögzítésre kerül, attól az aminosavpár hasonlóságától függ, amelyek között a helyettesítés megtörténik. A hasonló tulajdonságokban (hidrofóbitás, méret, töltés stb.) az aminosavakat gyakrabban helyettesítik egymással, mivel ez nem befolyásolja a fehérje működését. (Ez igaz a legtöbb fehérjére, a semlegesség elméletének megfelelően és a negatív szelekció túlsúlya miatt. Az antigéndeterminánsok esetében a helyzet más lehet). Ezenkívül a szubsztitúció valószínűsége függ ezen aminosavak előfordulási gyakoriságától a természetben, valamint az aminosavpárt megkülönböztető nukleotidszubsztitúciók számától (1, 2 vagy 3).

A DNS-szubsztitúciós modellektől (nukleotidszubsztitúciós modellektől) eltérően a leggyakoribb aminosav-szubsztitúciós modelleket empirikus úton fejlesztették ki. Kísérleti megfigyelések alapján minden aminosav esetében meg lehet becsülni annak valószínűségét, hogy a homológ fehérjék különböző csoportjaiban mekkora a valószínűsége annak megőrzésének vagy egymás aminosavakkal való helyettesítésének. Ennek megfelelően minden eseményhez (egy aminosav megőrzése vagy más aminosavval való helyettesítése) bizonyos értékeket (pozitív vagy büntető) rendelhetünk, az események valószínűségétől függően. Ezeket az értékeket táblázat (mátrix) formájában lehet bemutatni, és felhasználni az aminosav távolságok kiszámításához. Ezzel a megközelítéssel a kevésbé valószínű (kevésbé gyakori) szubsztitúciók sokkal jobban növelik a szekvenciák közötti távolságot, mint a valószínűbb szubsztitúciók. A kapott helyettesítő mátrixok szimmetrikusak, vagyis az L->S cseréjének valószínűsége megegyezik az S->L valószínűségével.

Az aminosavszubsztitúciós modellekben az aminosavak előfordulási gyakoriságának és egymás helyettesítésének valószínűségére vonatkozó paraméterek nem különülnek el. Szubsztitúciós modellként olyan mátrixokat használnak, amelyekben ezeket a paramétereket kombinálják (empirikus jellegük miatt). Az aminosav-helyettesítő mátrix egy 20x20-as táblázat (mátrix), amelynek minden egyes cellája leírja annak valószínűségét, hogy az i-edik sorból egy aminosavat a j-edik oszlopból származó aminosavval helyettesítünk egy bizonyos ideig. A helyettesítés iránya nem számít (a helyettesítési mátrixok szimmetrikusak). A legkönnyebb azt feltételezni, hogy tilos egy aminosav helyettesítése mással. Ekkor annak a valószínűsége, hogy az aminosav nem változott, 1. Ennek a modellnek a helyettesítési mátrixa a következő:

Ez a mátrix használható nagy hasonlóságú fehérjék durva elemzésére, de erősen eltérő szekvenciákhoz teljesen alkalmatlan. A genetikai távolságok pontos felméréséhez ki kell számítani a helyettesítési valószínűségeket az egyes aminosavpárok között, amelyek megfelelnek a valóságnak. A legjobb eredményeket úgy érhetjük el, ha ezeket a valószínűségeket előre összehangolt szekvenciákból számítjuk ki.

A helyettesítések empirikus mintái

PAM mátrixok

PAM (pont elfogadott mutáció) - fixpontos mutáció - egyetlen aminosav helyettesítése, amely a természetes szelekció eredményeként következett be. Ez a meghatározás nem tartalmazza az összes pontmutációt, amely egy organizmusban előfordul. A csendes helyettesítések, a halálos mutációk és a szelekcióval elutasított mutációk ebben az összefüggésben nem „fixpontos mutációk”. A Dayhoff és munkatársai (Dayhoff és mtsai, 1978) [8] által kidolgozott PAM osztályú mátrixok voltak az első aminosav-szubsztitúciós valószínűségeken alapuló mátrixok. A szubsztitúciós gyakoriságokat legalább 85%-os hasonlósággal rendelkező, rokon fehérjék egymáshoz illesztéséből származtattuk. A hasonlóság magas szintje lehetővé teszi számunkra, hogy reménykedjünk abban, hogy az adott pozícióban lévő különbségek nagyobb valószínűséggel egy, nem pedig több egymást követő helyettesítés eredménye. A kapott igazítások alapján kiszámítottuk a PAM1 mátrixot. A PAM1 mátrix j-edik oszlopának i-edik sorában lévő bejegyzés annak a valószínűségének felel meg, hogy az i és j aminosavak egy vagy több "fixpontos mutáció" eredményeként egymásra cserélődtek az evolúciós idő alatt. egy szekvenciapár közötti szubsztitúciók 1%-ának felel meg (100-ból 1-et helyettesít). A PAM1 mátrixból n hatványra emelve a PAMn mátrixokat (PAM50, PAM250 stb.) kaptuk. Ezen mátrixok mindegyike olyan szekvenciák elemzésére szolgál, amelyek között elegendő evolúciós idő van ahhoz, hogy n mutáció forduljon elő 100 aminosavonként. (Egyes pozíciókban ez idő alatt egynél több szubsztitúció is előfordulhat.) Így a szorosan kapcsolódó szekvenciákban a helyettesítések valószínűségére vonatkozó információkat a kevésbé kapcsolódó szekvenciákra extrapoláljuk.

JTT mátrixok

A mátrixok ezen csoportja a PAM-mátrixokhoz hasonlóan készült, de újabb adatbázisokból származó fehérje-illesztések alapján (Jones et al. 1992 [9] ; Gonnett és mtsai, 1992 [10] ). Létezik egy mátrix is, amelyet kifejezetten több transzmembrán fehérje összehangolására terveztek (Jones és mtsai, 1994), amelyet a transzmembrán fehérjék közötti távolság meghatározására terveztek.

BLOSUM mátrixok

A Daihoff által a közeli rokon szekvenciák összehasonlítására alkalmazott módszertani megközelítés nem mindig optimális távoli rokon szekvenciák elemzésekor. Ezt a problémát a BLOSUM mátrixok oldják meg (Block substitution matrices, Henikoff és Henikoff, 1992) [11] . A BLOSUM mátrixok fejlesztése a nem szorosan összefüggő szekvenciák konzervatív régióinak (blokkjainak) elemzésén alapul. Ezeket a területeket funkcionálisan jelentősnek tekintik. A BLOSUM62, BLOSUM50, BLOSUM30 stb. mátrixokat használjuk (nagyobb szám nagyobb szekvenciahasonlóságnak felel meg). A BLOSUMn mátrixot a legfeljebb n%-ban hasonló szekvenciák egymáshoz illesztése alapján számítják ki. (Például a BLOSUM62 templát olyan fehérjék összehangolásán alapul, amelyek legfeljebb 62%-ban hasonlóak). Így a PAM mátrixokkal ellentétben itt nem használunk extrapolációt, és az erősen divergens szekvenciák elemzésére tervezett mátrixok az azonos szintű divergenciával rendelkező blokkok elemzésén alapulnak.

A BLOSUM mátrixban szereplő pontszámok annak a valószínűségének logaritmusa, hogy két aminosav egy összehangolásban összefügg azzal a valószínűséggel, hogy nem kapcsolódnak egymáshoz, hanem véletlenszerű okokból illeszkednek egymáshoz:

Itt van annak a valószínűsége, hogy az és  az aminosavak rokonságban állnak egymással és felváltják egymást az evolúció folyamatában, és a és  a megfelelő aminosavak találkozásának valószínűsége egy véletlenszerű fehérjeszekvenciában. Együttható hozzáadva a mátrixértékek egész értékké konvertálásához.

A BLOSUM62 mátrixok (alapértelmezés szerint) a fehérjeszekvencia-illesztés minőségének értékelésére szolgálnak olyan programokban, mint a BLAST.

Mátrix gerinces mitokondriális fehérjékhez

Adachi és Hasegawa (1996) [12] 20 gerinces faj mitokondriális fehérjéinek szubsztitúcióinak leírásán alapuló mátrixot fejlesztettek ki. A szerzők azt mutatják, hogy ez a modell lehetővé teszi a legjobb filogenezis kialakítását mitokondriális fehérjékkel végzett munka során.

Paraméteres helyettesítési modellek

Poisson távolság becslése (újramutációk)

Nei (1987) egy egyszerű elméleti modellt javasolt az aminosav-szubsztitúcióra. Ha egy pozícióban több helyettesítést veszünk figyelembe, akkor azt feltételezzük, hogy a különböző pozíciókban történő helyettesítések száma a ritka Poisson események eloszlásának megfelelően változik. Ez a módszer lehetővé teszi a közeli rokon fajok aminosav-szubsztitúcióinak számának jó becslését.

A frekvenciaváltozás gamma eloszlása ​​a helyek között

Az aminosavszekvenciák egymáshoz igazítása során (hasonlóan a nukleotidszekvenciákhoz) figyelembe lehet venni a különböző helyek egyenetlen evolúciós sebességét. A helyettesítések gyakorisága a különböző pozíciókban a gamma-eloszlás szerint változik (Nei at all, 1976) [13] . Az egyenetlen evolúciós sebességekre vonatkozó igazítási becslés korrekciója számos szekvencia-illesztési programban beállítható.

Helyettesítő modellek a filogenetika valószínűségi megközelítésében

A filogenetika valószínűségi megközelítését a filogenetikai fák minőségének összehasonlítására és értékelésére, valamint különféle evolúciós hipotézisek tesztelésére használják (például annak valószínűsége, hogy egy fa ugyanazon ágán élőlénycsoportot találnak).

A megközelítés célja, hogy a fákat vagy P(adat|ltfa) valószínűségük, vagy (a Bayes-féle megközelítést alkalmazva ) P(fa|adat) utólagos valószínűségük alapján rangsorolja. Ennek a megközelítésnek egyik előfeltétele egy helyettesítő modell kiválasztása, amely szerint a fa ágain a sorozatok megváltoznak.

Legyen P(x*|T,t . ) az adathalmaz valószínűsége a fafeltétel mellett. Az x* adat n sorozatból álló x j , j=1...n sorozat. T egy n levelű fa, a j levélen j sorozat, és t . a fa éleinek hossza. Ezután tegyük fel, hogy meg tudjuk határozni P(x|y,t), annak a valószínűségét, hogy egy y ősi sorozat egy t időtartamon belül x sorozattá alakul. Ekkor a csúcsokhoz rendelt ősi sorozatokkal rendelkező T fa valószínűségét megkaphatjuk úgy, hogy megszorozzuk a fa összes ágára vonatkozó valószínűségeket, például:

P(x 1 ,...,x 5 |T,t.)= P(x1 | x4 , t1 ) P (x2 | x4 , t2 )P(x3 | x5 , t3 ) )P(x 4 |x 5 ,t 4 )P(x 5 ), ahol P(x 5 ) annak a valószínűsége, hogy az x 5 sorozat a fa gyökerében van.

Minden egyes P(x|y,t) annak a valószínűségének meghatározásához, hogy x sorozat y szekvenciából t időpontban keletkezik, helyettesítési modellt használunk. A modellek nukleotid- és aminosavszekvenciákra egyaránt alkalmazhatók. A legegyszerűbb esetben azt feltételezzük, hogy az egyes helyeken a változások egymástól függetlenül történnek, és nem történik törlés és beillesztés. Egy ilyen modell, kiegészítve a deléciók és inszerciók valószínűségével, lehetővé teszi a Markov-folyamat valósághűbb leírását, amelynek eredményeként a karakterek (nukleotidok vagy aminosavak) szekvenciája idővel változik.

Legyen P(b|a) annak a valószínűsége, hogy az a karaktert a b karakter helyettesíti egy t hosszúságú időszakban. Ezután két rés nélküli, egymáshoz igazított x és y sorozatra,  ahol u az igazítási pozíció.

K méretű ábécé esetén a P(b|a,t) helyettesítési valószínűségek minden a és b karakterpárra egy S(t) méretű mátrixot alkotnak   :

Az S(t) mátrix konkrét formáját a kiválasztott helyettesítési modell alapján számítjuk ki. Tehát a JC modellben ez a mátrix a következő formában jelenik meg:

Ebben az esetben r t =s t =1/4 vele

A K80 modellben a feltételes helyettesítési valószínűségek S(t) mátrixa a következő alakot ölti:

Hasonlóképpen, a fehérjeszekvenciák empirikus szubsztitúciós modelljei használhatók.

A legjobb paraméteres helyettesítési modell kiválasztása (egy adott igazításhoz)

Általában a legegyszerűbb (minimális paraméterekkel rendelkező) modellt kell választani, amely megfelelően leírja az adatokat. Egy összetettebb modellt kell előnyben részesíteni, ha nagyobb mértékben teszi lehetővé a fa minőségének növelését a vizsgált adatokon, mint ha véletlenszerű adatokra alkalmaznák.

A legjobb cseremodell kiválasztásához használt módszerek:

1) Hierarchikus valószínűségi arány teszt A valószínűségi arány tesztet csak „beágyazott” modellek páronkénti összehasonlítására használjuk (Felsenstein, 1981; Huelsenbeck és Crandall, 1997) lnL2) Az LRT statisztika eloszlása ​​közel áll a khi-négyzet eloszláshoz. Ezért a két modell közötti különbségek statisztikai szignifikanciájának meghatározásához meg kell határozni a szabadsági fokok számát. Ez megfelel azoknak a további paramétereknek, amelyeket egy összetettebb modellbe bevittek, hogy az megfeleljen az egyszerűnek. Például 4 paramétert kell beállítania a HKY85-ben, hogy megfeleljen a GTR-nek. Ez az információ elegendő a tesztstatisztika kritikus értékének meghatározásához a standard táblázatokból.

2) Akaike információs kritérium (Hurvich és Tsai 1989, Sugiura 1978).

3) Bayesi információs kritérium (Schwarz 1978).

Programok, amelyekkel kiválaszthatja a legjobb modellt: jModelTest, PartFinder, MEGA, TreeFinder.

Jegyzetek

  1. Lio P, Goldman N (1998) "Models of Molecular Evolution and Phylogeny". Cold Spring Harbor Laboratory Press 8: 1233-1244.
  2. Tavaré S. Néhány valószínűségi és statisztikai probléma a DNS-szekvenciák elemzésében |kiadó=American Mathematical Society  // Előadások a matematikáról az élettudományokban. - 1986. - 17. sz . – 57–86 . Archiválva : 2021. május 16.
  3. ↑ 1 2 Jukes, T. H., Cantor, C. R. (1969). "A fehérjemolekulák evolúciója". Munroban, HN Emlősök fehérjeanyagcseréje. New York: Academic Press. pp. 21–123.
  4. ↑ 1 2 Kimura M (1980). "Egy egyszerű módszer a bázishelyettesítések evolúciós sebességének becslésére a nukleotidszekvenciák összehasonlító vizsgálatával". Journal of Molecular Evolution 16(2): 111–120.
  5. Felsenstein J (1981). "Evolúciós fák DNS-szekvenciákból: a maximális valószínűség megközelítése". Journal of Molecular Evolution 17(6): 368–376.
  6. Hasegawa M, Kishino H, Yano T (1985). "A mitokondriális DNS molekuláris órája általi hasadás időpontja az ember-majom között". Journal of Molecular Evolution 22(2): 160–174.
  7. Tamura K, Nei M (1993). "A nukleotid szubsztitúciók számának becslése a mitokondriális DNS kontroll régiójában emberben és csimpánzban". Molecular Biology and Evolution 10(3): 512–526.
  8. Margaret O. Dayhoff, RM Schwartz és BC Orcutt (1978): "A fehérjék evolúciós változásának modellje". In Margaret O. Dayhoff, szerkesztő, Atlas of Protein Sequence and Structure, 5. kötet, 345-352. oldal. National Biochemical Research Foundation, Washington DC.
  9. Jones DT, Taylor WR, Thornton JM (1992). "Mutációs adatmátrixok gyors generálása fehérjeszekvenciákból". Comput Applic Biosci 8: 275–282.
  10. Gonnet GH, Cohen MA, Benner SA (1992). "A teljes fehérjeszekvencia adatbázis kimerítő egyeztetése". Science 256 (5062): 1443–5.
  11. Henikoff S1, Henikoff JG (1992) "Aminosav szubsztitúciós mátrixok fehérjeblokkokból". Proc Natl Acad Sci USA, 89, pp. 10915-10919.
  12. Adachi J, Hasegawa M (1996): "Aminósav-szubsztitúciós modell a mitokondriális DNS által kódolt fehérjékben". J Mol Evol. 42(4): 459-468.
  13. Nei M, Chakraborty R, Fuerst P (1976) "Változó mutációs rátával rendelkező végtelen allélmodell". Proc. Natl. Acad. sci. USA 73(11) pp. 4164-4168

Irodalom

R. Durbin, S. Eddy, A. Krogg, G. Mitchison (2006). "A biológiai szekvenciák elemzése". M.-Izhevsk: Kutatóközpont "Szabályozási és Kaotikus Dinamika", Számítógépes Kutatóintézet - 480p. V. V. Lukashov (2009). "Molekuláris evolúció és filogenetikai elemzés". M.-Binom. Tudáslabor – 228s.