A génexpresszió kvantitatív elemzése

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2019. december 21-én felülvizsgált verziótól ; az ellenőrzések 20 szerkesztést igényelnek .

A génexpresszió kvantitatív elemzése  - transzkriptomanalízis , egy gén transzkripciós aktivitásának mérése terméke, a legtöbb gén számára univerzális hírvivő RNS (mRNS) mennyiségének meghatározásával .

Ebben az esetben a génexpresszió végterméke általában fehérjék , nem pedig mRNS .

Módszerek

Módszerek az mRNS mennyiségének mérésére  :

Kifejezés mennyiségi meghatározása RNA-Seq-vel

Az RNS-szekvenálás eredményeként egy olvasmánykönyvtár (vagy egy olvasási könyvtár) jön létre. Az olvasás hossza 25 és 200 nukleotid között változik a választott szekvenálási módszertől függően . Ezt követően a leolvasásokat a referenciagenomhoz hozzárendelik (vagy igazítják). A leolvasások a genom több régiójához igazíthatók egyszerre, vagy ugyanazon gén különböző izoformáihoz. A technológia csak a sejtben lévő transzkriptum relatív mennyiségének mérését teszi lehetővé . A legegyszerűbb megközelítés az annotált génmodellek egyedileg igazított leolvasásainak figyelembevétele. Ebben az esetben az RPKM [2] (leolvasások kilobázisonként millió leképezett leolvasásra) a transzkriptum kifejeződésének megfelelő kvantitatív mértéke [2] :

,

ahol  az olvasások száma az átiraton, az átirat  hossza és  az olvasások teljes száma. Ez a képlet a maximális valószínűségi becslés az olvasások transzkriptumokra való leképezésének polinomiális modelljéhez [3]

Sok olvasatot azonban nem lehet egyértelműen feltérképezni . Például génduplikációkkal , mivel ebben az esetben nem világos, hogy pontosan hol kell feltérképezni a genomot . A magasabb rendű eukariótákban található gének szerkezetére vonatkozó információkat ( alternatív splicing , alternatív promóterek , különböző poliadenilációs helyek ) még modellszervezetekben sem vizsgálták kellőképpen , ami szintén megnehezíti az eredmények egyértelmű értelmezését. Ezért olyan megközelítéseket alkalmaznak, amelyek lehetővé teszik a feltérképezést splicing pontok létrehozásával [4] és a transzkriptom ezt követő összeállításával [5] .

Jelenleg sokféle modell létezik az átirat mennyiségének kiszámítására . a következő fő tulajdonságok alapján oszthatók fel [6] :

Jelenleg sokféle program létezik a génexpresszió kvantitatív elemzésére: Mandzsettagombok [7] , IsoEM, HTSeq, RSEM [8] , MISO. Ezeket a módszereket ugyanilyen aktívan használják egy transzkriptom mennyiségének becslésére, azonban az alapul szolgáló algoritmusok működésének bizonyos árnyalatai a helyzettől függően az egyik programot előnyben részesíthetik a másikkal szemben.

HTSeq

Egy egyszerű megközelítés, amely megszámolja az adott genommal átfedésben lévő leolvasások számát . Ugyanakkor a program különféle definíciókat tartalmaz az olvasás és a gén metszéspontjának tényére. A további kifejezés az RPKM segítségével határozható meg [8] .

Mandzsettagombok

Ebben az algoritmusban a cDNS -könyvtár először a genomra van leképezve , hogy egy másik TopHat programmal egy illesztést hozzon létre . Ezután az igazítás alapján egy gráfot építenek fel párosított cDNS -olvasásokkal azokon a csúcsokon, ahol az él megrajzolódik, ha két páros olvasás lehet ugyanabban az átiratban . A gráf alapján a lehetséges izoformákat visszaállítjuk (mint a gráf minimális borítását). Ennek eredményeként az olvasások leképezésre kerülnek a megszerkesztett átiratokhoz . A statisztikai modell keretein belül annak a valószínűsége , hogy egy nád egy izoformához tartozik, arányos az átirat mennyiségével , és ennek alapján szerkesztjük meg a maximum likelihood függvényt , ahol a maximális likelihood függvény maximuma a kívánt számnak felel meg. az átiratok [5] .

MISO

A MISO (Mixture of Isoforms) egy valószínűségi keretrendszer, amely az RNS-Seq adatokból számszerűsíti az alternatív módon összeillesztett gének expressziós szintjét, és azonosítja a mintákban a differenciálisan szabályozott izoformákat vagy exonokat. A génizoformák számának becslésére szolgáló statisztikai modell ( MISO ) alapján . A MISO egy izoformakészlet kifejeződési szintjét véletlenszerű változónak tekinti, és ennek a változónak az értékei alapján értékeli az eloszlást. A becslési algoritmus mintaalapú, és a Markov-lánc Monte Carlo ("MCMC") módszereihez tartozik.

Szisztematikus hibák és reprodukálhatóság

Az RNS szekvenálás eredményeként szisztematikus hibák lépnek fel, amelyek jelentősen befolyásolhatják az expresszió értékelését. Számos biokémiai jellemzőt nem lehet kimutatni és befolyásukat nem lehet figyelembe venni, azonban néhány hiba, mint például a nem véletlenszerű és nem egyenletes hosszirányú fragmentáció, bizonyos mértékig még figyelembe vehető [9] .

A replikákat hibajavításra használják. Kétféle másolat létezik: műszaki és biológiai. A technikai replikák ugyanazt a biológiai anyagot többszörösen szekvenálják . A biológiai replikák viszont különféle biológiai anyagok szekvenálását foglalják magukban. A szekvenált töredékeknek csak egy kis része olvasható ki. A leolvasások rögzített génre vonatkozó része némileg eltér a minta és a vizsgált kis rész esetében, ennek a résznek a véletlenszerű kiválasztása miatt. Ha egy adott gén leolvasásainak egy része a mintában egyenlő p-vel, akkor a leolvasások azon része, amely a génre esik, átlagos p-vel engedelmeskedik a binomiális vagy Poisson-eloszlásnak . A p. e részének értékeléséhez technikai jelzésekre van szükség. Biológiai replikák esetében az expresszió változását nem magyarázza a Poisson-eloszlás . Ebben az esetben negatív binomiális vagy általánosított Poisson-eloszlást használunk. Ez fenntartja azt a feltételezést, hogy a variáció az átlagos kifejezéstől függ . A biológiai replikák kis száma miatt a variációt különféle regressziós módszerekkel becsülik [10] .

A génexpresszió elemzése DNS microarray segítségével

A DNS-mikrochip egy kis felület, amelyen ismert szekvenciájú egyszálú DNS -fragmensek rakódnak le. Ezek a fragmensek próbaként működnek, amelyekkel a vizsgált mintából származó komplementer DNS-szálak hibridizálódnak. Két különböző típusú DNS-microarray létezik:  oligonukleotid-microarray és cDNS-microarray [11] .

A cDNS microarray segítségével kényelmes a génexpressziós szintek változásainak tanulmányozása például különböző betegségek esetén. Két sejtmintából (kontroll és teszt) RNS -t izolálunk , amelyből reverz transzkripcióval cDNS -t nyernek . A kapott minták mindegyikét megfestik valamilyen festékkel (általában Cy3 -at és Cy5 -öt használnak ). A jelölt mintákat egyidejűleg a mikrochipre helyezzük, majd a nem hibridizált molekulák lemosása után pásztázó konfokális mikroszkóp segítségével mérjük a fluoreszcenciát [12] .

Amikor egy mintát egy oligonukleotid mikrochipen készítünk elő elemzésre , a cRNS szintetizálódik a kapott cDNS mátrixán jelölés (például biotin vagy fluoreszcein ) jelenlétében . Megemelt hőmérsékleti körülmények között a jelölt cRNS hibridizálódik a mikromátrixon lévő próbákkal. A normalizáláshoz a mutált oligonukleotid kötési értékeit kivonjuk az eredményül kapott adatelemzésből. Ezen túlmenően, mivel minden génhez körülbelül 25 különböző szondát hoznak létre, ezek végső értékeit ezen próbák normalizált intenzitásának átlagaként számítják ki [12] .

A Microarray hibridizáció egy nagyon hatékony módszer a tesztmintában lévő összes gén expressziós szintjének egyidejű értékelésére . Ennek a kutatási technikának a természete azonban olyan, hogy a kísérletben kapott értékek pontos elemzése szükséges a megbízható minőségi és mennyiségi adatok megszerzéséhez. Szükséges az adatok normalizálása és a jel-zaj arány maximalizálása, mivel az összehasonlított mintákban az expressziós profilok változása kicsi lehet [11] .

A feldolgozás előtt az adatok a különböző csatornák fluoreszcencia intenzitásának digitális képe . Mindenekelőtt a szubsztrát fluoreszcenciáját levonjuk az egyes minták fluoreszcenciájából. Két lehetőség közül választhat: vagy a szubsztrát fluoreszcenciáját közvetlenül mellette számítja ki minden mintánál, vagy a teljes mikrochipen számítja ki az átlagos szubsztrát fluoreszcenciát. Az első opciót tartjuk helyesebbnek, mivel a különböző microarray területek fluoreszcenciája eltérő lehet [12] .

A háttér kivonását a festékek fluoreszcencia intenzitásának normalizálása követi. A festékek fluoreszcenciája és próbákkal való fúziója függ a gén szekvenciájától, az egyes hibridizációk végrehajtásának körülményeitől , a mikrochip minőségétől, valamint a tárolás körülményeitől és időtartamától. A normalizálást vagy a housekeeping géneknek megfelelő minták fluoreszcenciája alapján végezzük, vagy a vizsgált sejtek számára szokatlan, ismert mennyiségű exogén mRNS bejuttatásával a mikrochipbe és a mintába . A megbízhatóbb értékek elérése érdekében azonos DNS - mintákat visznek fel ugyanazon mikrochip különböző területeire . A microarray minőségi indexét a különböző mintákban lévő azonos minták adatértékei közötti különbség szintje határozza meg [12] .

Mindezek ellenére azonban a kísérletekben kapott adatok nem a génexpresszió mennyiségi értékelését jelentik . Az egyik génre kapott eredmények laboratóriumonként és mikromátrixonként változhatnak. Az ilyen kísérletek lehetővé teszik az expressziós profilok minőségi változásainak értékelését különböző mintákban [11] .

Alkalmazás

Korábban a tudósok a különböző ráktípusokat csak az érintett szerv alapján osztályozták . A DNS microarray segítségével lehetővé válik a daganatok osztályozása a sejtek génaktivitási mintázatai szerint . Ez lehetővé teszi olyan gyógyszerek kifejlesztését, amelyek egy adott ráktípust céloznak meg . Ezenkívül a gyógyszerrel kezelt és kezeletlen sejtek expressziós profiljának elemzése lehetővé teszi a tudósok számára, hogy pontosan megértsék, hogyan hat a gyógyszer a sejtekre . Ezenkívül a vizsgált tumormintában gyakran különböző klónok sejtjei vannak , amelyek génexpressziós profiljában jelentősen eltérhetnek . A rosszindulatú daganatok egyes sejtjeinek génexpressziós szintjének értékelése pontosabban megjósolja a daganat és metasztázisai további fejlődését [13] .

Laboratóriumi vizsgálatok során a génexpresszió kvantitatív elemzésére szolgáló módszereket számos, különböző gének expressziójának vizsgálatával kapcsolatos kísérletben alkalmazzák . Azokban a kísérletekben, ahol a sejteket a normálistól eltérő körülmények között tartották, többnyire a génexpressziós profilokban tapasztaltak változásokat . Az ilyen vizsgálatok eredményei rávilágítanak a környezeti változásokra adott sejtválasz mechanizmusaira. Ezenkívül a génexpresszió szintje aktívan változik az embrionális és posztembrionális fejlődés során , amikor egyes fehérjéket másokkal helyettesítenek, amelyek szabályozzák a test növekedési és kialakulásának folyamatait. Számos gén expressziós szintjének együttes változása bármely paraméter megváltoztatásakor jelezheti e gének termékeinek kölcsönhatását a sejtben [13] .

Génexpressziós elemzés

A génexpresszió kvantitatív elemzése több szinten és különböző célokkal történik [14] , [15] :

1) Egyedi gén expressziójának változásának meghatározása a kísérlet (mintafeldolgozás) körülményeitől függően.

2) Gének klaszteranalízise általános funkcionalitás, interakció, közös szabályozás céljából. Ebben az esetben a méretcsökkentési módszereket és a vizualizációs módszereket alkalmazzák. Példaként: Főkomponens-elemzés és klaszterezés . A DNS- szekvenciákat elemzik , hogy megtalálják a szabályozó régiókat, motívumokat.

3) A megfigyelt mérési eredményeknek megfelelő gének és fehérjék közötti interakciós hálózatok azonosítása és megértése .

Így az expresszió változásainak elemzése a gének "változott" és "változatlan" gének csoportosításának tekinthető [14] .

Szisztematikus hibák és reprodukálhatóság

A génexpresszió változásainak elemzése bonyolult lehet a rossz reprodukálhatóság miatt, amely a kísérlet különböző szintjein és különböző szakaszaiban kölcsönhatásba lépő nagyszámú, egymással összefüggő tényező miatt alakulhat ki. Minden variáció felosztható biológiai, kísérleti és technikai variációs forrásokra. A kapott eredmények variációinak technikai forrása a következők: a mikrochipek gyártási hibája, a képek előállításának és feldolgozásának technológiáinak különbségei, a jelkivonási és adatfeldolgozási módszerek [15] .

Biológiai

Úgy gondolják, hogy a variációk előfordulásához a legnagyobb mértékben a különböző sejtekben és sejtpopulációkban a génexpresszió egyéni szintjei közötti különbségek járulnak hozzá. Nemcsak a klinikai minták ( különböző típusú sejteket tartalmazó) között, hanem még a monoklonális „azonos” tenyészetek mintái között is , amelyek ugyanannak a sejtnek a klónjai és „azonos” körülmények között tartanak, vannak különbségek. Ezek a különbségek a mikrokörnyezeti hatásoknak (pl. egyenetlen tápanyagtartalom, hőmérsékleti gradiens), a tenyészetben lévő sejtek növekedési fázisában, a génexpresszió gyors változásának időszakaiban és sok más ellenőrizhetetlen véletlen hatásnak tulajdoníthatók, mint például a sejtkölcsönhatás és a véletlenszerű eloszlás. kisszámú transzkripciós faktor molekuláé (bizonyos gének expressziója jelentősen függhet néhány molekulától) [15] .

A transzkriptum másodlagos szerkezetének jelenléte az RNS megőrzését is befolyásolja [15] .

Kísérleti (mintaelőkészítés)

A minta-előkészítés minden szakaszának szabványosítása elengedhetetlen (például a hőmérsékleti rezsim, a tápanyagok összetételének megváltoztatása, még az élő sejtek rövid távú centrifugálásával is változást okozhat az expressziós profilban) [15] . Bakteriális minták készítéséhez elengedhetetlen az RNS gyors lebomlása RNázok jelenlétében, ezért az abszolút sterilitást be kell tartani az RNS idő előtti lebomlásának elkerülése érdekében.

Az mRNS -minta elkészítésének legjobb stratégiája a minimális feldolgozási idő olyan körülmények között, amelyek "lefagyják" az mRNS szintjét a mintavétel időpontjában, valamint az RNázok [15] , az RNS-t lebontó enzimek aktivitásának gátlása. [15] .

Normalizálás

A minták génexpressziós profiljának összehasonlításakor normalizálást alkalmazunk, figyelembe véve a kísérleti és biológiai variáció forrásait [16] :

  • a mintában lévő sejtek száma
  • Az RNS extrakció általános hatékonysága
  • RNS - molekulák izolálásának és jelölésének hatékonysága (szekvenciától függően)
  • hibridizációs hatékonyság
  • jel mérési pontossága és érzékenysége

A szisztematikus variációkhoz (amelyek azonos hatást gyakorolnak az összehasonlított mintákra) a következő módszereket alkalmazzák [16] :

  • a szekvenciák nukleotid - összetételének különbségei az elemzett minta könyvtárában lévő fragmensek reprezentációjának eltéréséhez vezethetnek
  • hosszabb gének esetében több töredéket térképeznek fel
  • ha cDNS könyvtárat készítünk poli-T primerrel , a fragmensek reprezentációja a gén elejétől a végéig nő

Ugyanakkor a normalizálás egyszerű megközelítései csak az összehasonlított minták fragmenseinek teljes számát veszik figyelembe, és az expressziót fokozó gének kis száma jelentős számú expressziót csökkentő gén téves kimutatásához vezethet [16] .

Ezenkívül gyakran a leképezett töredékek számának értékeivel együtt vagy helyett az RPKM - Read Per Kilobase per Million Mapped read vagy az FPKM - Fragments Per Kilobase per Million Mapped read [16] értékeket használják .

Módszerek

Valamennyi normalizálási módszer feltételezi, hogy az összehasonlított mintákban a legtöbb gén azonos módon expresszálódik, és a csökkent expressziójú (downregulált) gének aránya nagyjából megegyezik a felszabályozottak arányával. TMM (Trimmed Mean of M-values) és a DESeq csomagban használatos [17] .

Páronkénti összehasonlítás

A keresés két mintacsoport összehasonlítását és olyan gének keresését használja, amelyek expressziós szintje jelentősen eltér a két csoport között. Minden gén esetében ellenőrizze, hogy megváltozott-e az expressziója. Tételezzük fel, hogy az adatok az egyes génekre vonatkozó ismételt mérések sorozata, amelyek a mért expressziós szintet vagy annak logaritmusát reprezentálják a vizsgálati ( kezelési ) és a kontroll (kontroll) mintákban. Az alkalmazott módszerek folyamatos ( t-próba ) és diszkrét (PPDE) módszerekre oszthatók [18] [19] .

A microarray -ekkel kapott adatok elemzésekor a kapott méréseket folytonos értékekként értelmezzük ( lognormális eloszlás ). Az RNS-Seq adatok elemzésekor Poisson , inverz binomiális, sőt béta-binomiális eloszlást is használnak [20] .

Rögzített küszöbérték a kifejezés relatív változásához

A korai munkák egy olyan megközelítést alkalmaztak, amelyben egy gént akkor tekintettek differenciáltan kifejezettnek, ha az expressziójában bekövetkezett relatív változás meghalad egy bizonyos küszöböt (általában 2-t) [21] .

Egyszerű t-teszt

A t-próba  jól ismert kritérium az átlagok egyenlőségének értékelésére, figyelembe véve a variációt. A normalizált távolságot mind a kontroll-, mind a tesztminta mintaátlagai, valamint ezek szórása és , a [22] képlet alapján számítjuk ki.

,

hol és . Ismeretes, hogy a t eloszlás közel áll a Student-féle f szabadságfokszámú eloszláshoz, ahol [22]

.

Ha t túllép egy bizonyos küszöböt, a választott szignifikanciaszinttől függően, a gén expressziója megváltozott [22] .

Mivel a távolságot a t-próbában a minta szórásával normalizálják, ennek használata előnyösebb, mint a kifejezés relatív változásának rögzített küszöbértéke [22] .

A t-próba alkalmazásának fő problémája a mérési ismétlések kis számában és a kísérlet magas költségében vagy bonyolultságában rejlik [22] .

Regularizált t-teszt

Ezt a módszert egy gén variabilitásának becslésére használják más génekre vonatkozó információk alapján. A génexpresszió logaritmusának értékeit független normál eloszlásként modellezzük, a megfelelő eszközökkel és varianciákkal paraméterezve [23] .


,
ahol C az eloszlás normalizálására szolgáló állandó [23] .

A priori valószínűségek esetén és elfogadva  - skálázott inverz gamma és  - normál eloszlású [23] .

Kimutatták, hogy kapcsolat van az érték és a kifejezés variációja között. Az expresszió közeli értékeinél az expressziós variáció közeli értékei figyelhetők meg. Így lehetséges a Bayes-statisztikában a priori tudás alkalmazása annak érdekében, hogy jobb becsléseket kapjunk egyetlen gén expressziójának variációjáról, felhasználva jelentős számú más, hasonló expressziós szinttel rendelkező gén ugyanabban a kísérletben mért expressziós szintjét [23]. ] .

,

hol , , ,

A pontbecslésekhez az utólagos becslés (MP) vagy a módus (MAP - maximum a posteriori ) átlagát használjuk [24] .

Rugalmas megvalósításban a génexpresszió háttérvarianciáját úgy számítjuk ki, hogy figyelembe veszik a szóban forgó génnel szomszédos géneket, például 100 gént, amelyek egy szimmetrikus expressziós szint ablakba esnek [24] .

Ez a módszer ugyan nem szünteti meg az ismételt mérések szükségességét, de használatával már kis számú ismétlés mellett is jelentősen csökkenthető a fals pozitív leletek száma [24] .

A differenciális kifejezés valószínűségének becslése

PPDE (Posterior Probability of Differential Expression), differenciális kifejezés utólagos valószínűsége [25] .

A mért adatok zajossága és változékonysága miatt eltérően expresszálódó gének fals pozitív és fals negatív leletei várhatók [26] .

A hamis pozitív arány meghatározásának intuitív módja az azonos kontrollmintából kapott mérések összehasonlítása, miközben a génexpresszió nem változhat [26] .

Ennek a megközelítésnek a formálisabb számítási megvalósítását is javasolják: az a priori tudás azon a megfigyelésen alapul, hogy ha a génexpresszióban nincs változás, akkor az egyes gének p - értékét egyenletesen kell elosztani 0 és 1 között (a bármely p érték alatti gének egyenlő p -vel, a fenti arány pedig 1 -p ) . Változások esetén a gének p - értékeinek eloszlása ​​jobban „összehúzódik” a 0 felé, mint az 1 felé, vagyis lesz egy részhalmaza a „szignifikáns” p -értékekkel rendelkező, eltérően expresszált gének . Ezt az eloszlást egyenletes és nem egyenletes eloszlások súlyozott kombinációja modellezi. Minden gén esetében kiszámítjuk annak valószínűségét, hogy nem egyenletes eloszlással társul – PPDE [27] .

A modellezés során béta eloszlások keverékét használjuk [27] , ahol az egységes speciális eset [27] .

Általában az EM algoritmust használják a keverék tömegeinek meghatározására [27] .

Kiszámítjuk a differenciális kifejezés utólagos valószínűségét [27] .

A megvalósítás gyakran azt feltételezi, hogy a p - értékeket a t-próba eloszlásból kapjuk új adatként, és valószínűségi modellt épít fel velük [27] .

Algoritmusok

A differenciálisan expresszált gének elemzésére szolgáló módszerek/programok kiindulási adatai olyan mátrixok , amelyek az RNS-Seq kísérletben minden mintára génenként/exononként térképezett fragmentumok számát tartalmazzák. Általában a mintaadatokat közvetlenül használják (baySeq [28] , EBSeq [29] , ShrinkSeq [30] , edgeR [31] , DESeq [17] , NBPSeq [32] és TSPM [33] ), de vannak olyan algoritmusok, amelyek minták konvertálására és hibridizációs microarray-ekkel nyert adatok elemzésére tervezett algoritmusok felhasználásával (NOISeq [34] és SAMseq [35] ).

Az RNS -en lévő adatok feldolgozásának jelentős felgyorsítása lehetővé teszi a "könnyű algoritmusokat" a Sailfish [36]

Modellek

Parametrikus

Felismerték, hogy az egyes gének varianciaparamétereinek megbízható becslése kritikus fontosságú a differenciális expresszió elemzéséhez, és sok erőfeszítést tettek ebbe az irányba. Ennek a becslésnek a megszerzését bonyolítja a legtöbb RNS-seq kísérlet kis mintamérete, ami a gének közötti információmegosztást motiválja a pontosabb becslések elérése érdekében. Az első feltételezés az volt, hogy feltételeztük, hogy a variancia paraméter minden génre azonos, ami lehetővé tette annak becslését az összes rendelkezésre álló adat felhasználásával a feltételes maximum likelihood módszerrel. A DESeq, edgeR, NBPSeq a génadatok felosztását használja a variancia becslésére , a különbség a módszerben rejlik. Az edgeR kevésbé korlátozó megközelítést alkalmaz – a variancia meghatározása minden gén esetében megtörténik, de az egyéni becsléseket a súlyozott likelihood módszerrel, az e dgeR [31] , [17] , [32] súlyozott valószínűségi módszerrel „húzza” a teljes variancia értékére .

A legtöbb parametrikus modell (baySeq, DESeq, edgeR és NBPSeq) az inverz binomiális eloszlási modellt használja a többlet variancia magyarázatára [31] , [17] , [32] .

A TSPM (kétlépcsős Poisson-modell) a minták Poisson-modelljén alapul, kiegészítve egy kvázi-likelihood megközelítéssel az adatok többletvarianciájának leírására. Az első lépés, hogy minden egyes gént külön-külön tesztelünk a túlzott variancia szempontjából, hogy eldöntsük, melyik modellt használjuk a differenciális expressziós elemzéshez. A differenciális expressziós tesztelés aszimptotikus statisztikán alapul, amely feltételezi, hogy az egyes génekhez tartozó fragmentumok teljes száma nem túl kicsi. A szerzők azt javasolják, hogy dobják ki azokat a géneket, amelyeknél a fragmentumok teljes száma kevesebb, mint 10. Az is fontos, hogy a gének túlzott diszperzió nélkül jelen legyenek ezekben az adatokban [33] ).

A ShrinkSeq lehetővé teszi a felhasználó számára, hogy válasszon egy sor eloszlás közül, beleértve az inverz binomiális és inverz binomiális többletszámú nullákat [30] .

A DESeq, edgeR, NBPSeq a klasszikus hipotézis tesztelési megközelítést alkalmazza [31] , [32] . baySeq, EBSeq, ShrinkSeq Bayes-statisztikát használ [28] [29] [30] .

A DESeq-ben és az NBPSeq-ben a varianciabecsléseket az átlag és a variancia közötti megfigyelt kapcsolat lokális vagy parametrikus regresszióval történő modellezésével kapjuk . Az NBPSeq-ben a kapott varianciaértékeket használják, a DESeq-ben konzervatív megközelítést alkalmaznak - a legnagyobb varianciaértéket választják (egy becslésből a többi gének információinak elkülönítésével és egy egyedi gén varianciabecslésével) . Az edgeR-ben, DESeq-ben és NBPSeq-ben a differenciális kifejezés jelentőségét egyfajta egzakt teszttel (két csoport összehasonlítására) vagy egy általánosított lineáris modellel tesztelik [31] [17] [32] .

A baySeq-ben a felhasználó modellek gyűjteményét adja meg, amelyek csoportokra osztják a mintákat. A csoportban a főeloszlás azonos paramétereit feltételezzük. Az egyes modellek utólagos valószínűségét ezután mindegyik génre megbecsüljük . A gének teljes halmazából származó információt felhasználják az inverz binomiális eloszlás paramétereinek empirikus előzetes eloszlásának kialakításához [28] .

Az EBSeq hasonló megközelítést alkalmaz, de a paraméterpriorok paraméteres formáját veszi fel, a hiperparamétereket minden génen megosztva, és adatokból becsülik [29] .

Nem paraméteres

A NOISeq és a SAMSeq nem paraméteres módszerek, és nem jelentik az adatok eloszlását [37] , [38] .

A SAMSeq a Wilcoxon statisztikán alapul, amelyet több, permutációkat használó adatkiértékelés során átlagolnak, hogy megbecsüljék az FDR-t (hamis felfedezési arány). Ezeket a pontszámokat használják az egyes gének q-értékének meghatározására [38] .

A NOISeq meghatározza a változás vörösségének eloszlását és az abszolút expressziós értékek különbségét a minták között különböző körülmények között, és összehasonlítja ezt az eloszlást az azonos feltételek melletti minták összehasonlításakor kapott eloszlással (ezt "zajeloszlásnak" nevezik). Röviden, minden génre kiszámolunk egy statisztikát, amelyet a zajeloszlásból származó pontok arányaként határozunk meg, amelyek kisebb enyhe változásnak és abszolút expressziós értékek különbségének felelnek meg, mint az eredeti adatokban a kérdéses gén esetében [37] .

Többszörös összehasonlítás

Ha a génexpressziót több kísérletben hasonlítjuk össze, akkor vagy több páronkénti összehasonlítást végeznek, vagy olyan modelleket használnak, amelyek összehasonlítják a kísérleti csoportokat. Abban az esetben, ha a génexpresszióra gyakorolt ​​Κ - hatásokat (például kezelés), Τ 0 …Τ κ-1 vesszük figyelembe, több alapvetően eltérő összehasonlítási terv alkalmazható [39] [40] .

  1. Közvetett összehasonlítás – az egyes kísérletek páronkénti összehasonlítása ( Τ 0 …Τ κ-1 ) a kontrollal;
  2. Közvetlen összehasonlítás - kísérletsorozat páronkénti összehasonlítása , például T 0 T 1 -gyel, T 1 T 2 -vel stb .
  3. Az összes lehetséges pár összehasonlítása [41] , [42]

Nagyszámú kísérlet összehasonlításakor szükséges a többszörös összehasonlítások korrekciója ( FDR , FWER , korrigált p-érték vagy mások) [43] , hogy kizárjuk annak lehetőségét, hogy véletlenül szignifikáns különbséget kapjunk a génexpresszióban. Nagyszámú kísérleti csoport (tényező) elemzésekor csak páronkénti összehasonlítás alkalmazása nem optimális, mivel jelentős időigényes. Ilyen esetekben ésszerűbb olyan modelleket alkalmazni, amelyek több tényező hatását is figyelembe veszik [39] [40] .

  • Egy tényező hatásának összehasonlításakor lehetőség van lineáris modell ( lineáris modell ) használatára. Ez a modell a génexpresszió normális eloszlását feltételezi, és általában microarray adatok elemzésére használják. Minden génhez megfelelő lineáris modellt készítenek, és ezen keresztül kiszámítják a génexpresszió szintjének változását ( szoros változás , log-szeres változás és egyéb statisztikák), valamint a standard hibát. A kapott adatokat a vulkán diagramon jelenítjük meg.A génexpresszió szintjében bekövetkezett változások jelentőségét varianciaanalízissel (ANOVA) határozzuk meg. Továbbá meghatározható, hogy mely gének változnak a vizsgált tényező hatására. A többcsoportos elemzések a kísérletek replikáit (replikációit) használják a csoporton belüli variancia szintjének meghatározására, lehetővé téve a technikai tényezők figyelembevételét. Ilyen modellt használnak például a limma Bioconductor szoftvercsomagban .
  • A Generalized Linear Model ( GLM ) a lineáris modell szövődménye, különféle adateloszlásokhoz használható (normál, binomiális, exponenciális, Poisson, gamma ...). A folytonos és a diszkrét mennyiségek egyaránt faktornak tekinthetők. [44] Ezzel a modellel például lehetséges az RNA-Seq adatok elemzése . A differenciális kifejezés jelentőségét a likelihood függvény segítségével határozzuk meg. Hasonló elemzés végezhető olyan szoftvercsomagokban, mint az edgeR vagy a DESeq .
  • Az egyutas diszperziós modell ( egyutas ANOVA - teszt ) lehetővé teszi több független kísérlet (több mint három) elemzését, miközben bármilyen mintapár között differenciáltan expresszált gének azonosíthatók. Ez az elemzés akkor kényelmes, ha nem ismert előre, hogy mely minták/kísérletek különböznek majd, és azért is, mert az eredmény nem kapcsolódik a csoportok meghatározásához. Valójában ezt az elemzést az összes gén expressziós szintjének páronkénti összehasonlításával hajtják végre, és feltárja az összes olyan párt, amelyek között a különbség nem nulla [40] .
  • A többváltozós általános lineáris modell lehetővé teszi több függő kísérletcsoport elemzését (ellentétben a fent leírt modellekkel). Vegyük például a génexpresszió kapcsolatát két különböző agyszövetben [39] .
Többváltozós összehasonlítások tervezése

A több tényező hatását vizsgáló kísérletek lényegében ugyanazokat a matematikai megközelítéseket ( regresszióanalízis , Bayes-statisztika ) alkalmazzák, mint az egyváltozós elemzésnél, de a csoportos összehasonlítások összetettebb kialakításával. Íme néhány közülük [45] .

  • Beágyazott modell (hierarchikus) - megközelítés, példa egy többtényezős modellre. Egy ilyen modellben néhány tényezőt hierarchikusan lehet figyelembe venni. Például több kategória is figyelembe vehető (állapot, hatásfok, nem stb.), ezeknek a jellemzőknek megfelelően osztályozhatók az egyes tárgyak, majd összehasonlíthatók az érdeklődési csoportok.
  • Idősor ( Time series ) - olyan megközelítés, amelyben a kísérlet során az expressziós szintet bizonyos időközönként mérik, figyelembe véve nemcsak a folyamatosan elosztott, hanem diszkrét paramétereket is. Például egy ilyen modell segítségével tanulmányozhatjuk a gének munkájában bekövetkező változások dinamikáját bármilyen körülmények között.
  • Az additív modell  egy olyan megközelítés, amelyben ugyanazt az objektumot (egyedet, vonalat) vizsgálják az expozíció előtt és után, majd minden egyes organizmusra külön-külön összehasonlítják, majd összehasonlítják egy szervezetcsoporttal. Egy ilyen modell gyakori esete a blokkolásnak ( Blocking ), a (több tényező alapján) leginkább hasonló minták összehasonlításának ötlete [45] .

Jegyzetek

  1. Wang Z., Gerstein M., Snyder M. RNA-Seq: forradalmi eszköz a transzkriptomához  // Nat Rev Genet  : folyóirat  . - 2009. - Nem. 1 . - P. 57-63 . — PMID 19015660 .
  2. 1 2 A Mortazavi, BA Williams, K McCue, L Schaeffer és B Wold. Emlős transzkriptomok feltérképezése és mennyiségi meghatározása RNA-Seq segítségével  // Nature Methods  : Journal  . - 2008. - Nem. 5 . - P. 621-628 . — PMID 18516045 .
  3. 12 Pachter . MODELLEK AZ RNA-SEQ-BÓL SZÁRMAZÓ ÁTSZABÁLYOZÁS KVANTIFIKÁCIÓJÁHOZ  (undefined) . – 2011.
  4. Trapnell C., Pachter L., Salzberg SL TopHat: splice junctions with RNA-Seq  (neopr.)  // Bioinformatika. - 2009. - 9. sz . - S. 1105-1111 . — PMID 19289445 .
  5. Menschaert G., Fenyö D.  Proteogenomics from a bioinformatics angle: A növekvő mező  // Mass Spectrom Rev. : folyóirat. - 2011. - P. 584-599 .
  6. 1 2 Chandramohan R., Wu PY, Phan JH, Wang MD Benchmarking RNA-Seq kvantifikációs eszközök  (undefined)  // Conf Proc IEEE Eng Med Biol Soc. - 2013. - S. 647-650 . — PMID .6609583.
  7. Roberts A., Trapnell C., Donaghey J., Rinn JL, Pachter L. Az RNA-Seq expressziós becslések javítása a fragmentum torzítás korrigálásával  //  BioMed Central : folyóirat. - 2011. - 20. évf. 12 , sz. 3 . - P. 280-287 . — PMID 21498551 .
  8. Refour P., Gissot M., Siau A., Mazier D., Vaquero C. Progress to the use of DNA microarray technology for the study of wild Plasmodium strains  //  Med Trop : Journal. - 2004. - 20. évf. 64 , sz. 4 . - P. 387-393 . — PMID 21498551 .
  9. 1 2 3 Ravi Kothapalli, Sean J Yoder, Shrikant Mane és Thomas P Loughran, Jr. Microarray eredmények: mennyire pontosak? (angol)  // BMC Bioinformatics : folyóirat. - 2002. - PMID 12194703 .
  10. 1 2 3 4 Ares M Jr. Microarray tárgylemez hibridizáció fluoreszcensen jelölt cDNS használatával  //  Cold Spring Harb Protoc: Journal. - 2014. - Nem. 2 . - 124-129 . o . — PMID 24371320 .
  11. 1 2 Maria Jackson, Leah Marks, Gerhard H. W. May és Joanna B. Wilson. A betegség genetikai alapja  (neopr.)  // Esszék Biochem. - 2018. - T. 62 , 5. sz . - S. 643-723 . — PMID 30509934 .
  12. 1 2 Yan Sun, Suli Zhang, Mingming Yue, Yang Li, Jing Bi és Huirong Liu. Az angiotenzin II gátolja az egér aorta simaizomsejtjeinek apoptózisát a circNRG-1/miR-193b-5p/NRG-1 tengely szabályozásával  //  Cell Death Dis: Journal. - 2019. - 1. évf. 10 , sz. 5 . - 362. o . — PMID 31043588 .
  13. 1 2 3 4 5 6 7 G. Wesley Hatfield, She-pin Hung és Pierre Baldi. A DNS microarray génexpressziós adatainak differenciális elemzése  (angol)  // Molecular Microbiology : Journal. - 2003. - 1. évf. 47 , sz. 4 . - P. 871-877 . — PMID 12581345 .
  14. 1 2 3 4 Charity W. Law, Monther Alhamdoosh, Shian Su, Xueyi Dong, Luyi Tian, ​​​​Gordon K. Smyth és Matthew E. Ritchie. Az RNA-seq elemzés egyszerű, mint 1-2-3 a limma, a Glimma és az edgeR segítségével  //  3. verzió. F1000Res : napló. - 2018. - Kt. 5 . — PMID 27441086 .
  15. 1 2 3 4 5 Simon Anders, Wolfgang Huber. Differenciális expressziós elemzés a szekvenciaszámlálási adatokhoz  //  BioMed Central  : folyóirat. - 2010. - 20. évf. 11 . — PMID 20979621 .
  16. Gregory R. Smith és Marc R. Birtwistle. A mechanikus béta-binomiális valószínűségi modell mRNS szekvenálási adatokhoz  // PLoS One  : napló  . - 2016. - Kt. 11 , sz. 6 . — PMID 27326762 .
  17. Steven M. Sanders és Paulyn Cartwright. Az RNS-Seq adatok interspecifikus differenciális expressziós elemzése betekintést nyújt a hidraktiniid hidrozoánok életciklusának változásaiba   // Genome Biol Evol : folyóirat. - 2015. - Kt. 7 , sz. 8 . — PMID 26251524 .
  18. Gregory R. Smith és Marc R. Birtwistle. A mechanikus béta-binomiális valószínűségi modell mRNS szekvenálási adatokhoz  (angol)  // BIOINFORMATICS : Journal. - 2016. - Kt. 11 , sz. 6 . — PMID 27326762 .
  19. A. I. Hartstein, V. H. Morthland, S. Eng., G. L. Archer, F. D. Schoenknecht és A. L. Rashad. A plazmid DNS restrikciós enzimanalízise és a páros Staphylococcus aureus vérkultúra-izolátumok bakteriofág-tipizálása  (angol)  // J Clin Microbio : folyóirat. - 1989. - 1. évf. 27 , sz. 8 . - P. 1874-1879 . — PMID 2527867 .
  20. 1 2 3 4 5 Bland, Martin. Bevezetés az orvosi statisztikákba  (neopr.) . - Oxford University Press , 1995. - P. 168. - ISBN 978-0-19-262428-4 .
  21. 1 2 3 4 Johnson, NL, Kotz, S., Balakrishnan, N. Continuous Univariate Distributions, 2. kötet, 2. kiadás. - 1995. - ISBN 0-471-58494-0 .
  22. 1 2 3 Pierre Baldi és Anthony D. Long. A bayesi keretrendszer a microarray expressziós adatok elemzéséhez: regularizált t-teszt és génváltozások statisztikai következtetései  //  BIOINFORMATICS : Journal. - 2001. - Vol. 17 , sz. 6 . - P. 509-519 . — PMID 11395427 .
  23. Mayer Aladjem, Itamar Israeli-Ran ; Mária Bortman. Szekvenciális független komponenselemzés sűrűségbecslés  // IEEE-  tranzakciók neurális hálózatokon és tanulórendszereken : folyóirat. - 2018. - Kt. 29 , sz. 10 . - P. 5084-5097 . — PMID 29994425 .
  24. 1 2 Arfin SM stb. Globális génexpressziós profilozás Escherichia coli K12-ben. The Effects of integration host factor  (eng.)  // J Biol Chem  : Journal. - 2000. - Vol. 275. sz . 38 . - P. 29672-29684 . — PMID 10871608 .
  25. ↑ 1 2 3 4 5 6 David B. Allison. A keverékmodell megközelítés a microarray génexpressziós adatok elemzéséhez  //  Computational Statistics & Data Analysis : folyóirat. - 2002. - 20. évf. 39 , sz. 1 . - P. 1-20 . - doi : 10.1016/S0167-9473(01)00046-9 .
  26. 1 2 3 Thomas J Hardcastle és Krystyna A Kelly. baySeq: Empirikus Bayes-i módszerek a differenciális expresszió azonosítására szekvenciaszámlálási adatokban  //  BMC Bioinformatics  : folyóirat. - 2010. - 20. évf. 11 . - doi : 10.1186/1471-2105-11-422 .
  27. 1 2 3 Ning Leng, John A. Dawson, James A. Thomson, Victor Ruotti, Anna I. Rissman, Bart MG Smits, Jill D. Haag, Michael N. Gould, Ron M. Stewart és Christina Kendziorski. EBSeq: empirikus bayes hierarchikus modell az RNS-seq kísérletekben való következtetéshez  //  University of Wisconsin: Tech. Ismétlés. 226, Biostatisztikai és Orvosinformatikai Tanszék: folyóirat. - 2012. Archiválva : 2014. február 20.
  28. 1 2 3 Mark A. Van De Wiel, Gwenaël GR Leday, Luba Pardo, Håvard Rue, Aad W. Van Der Vaart, Wessel N. Van Wieringen. Az RNS-szekvenálási adatok Bayes-analízise többszörös zsugorodási prioritások becslésével  //  Biostatisztika : folyóirat. - 2012. - Kt. 14 , sz. 1 . - 113-128 . o . PMID 22988280 .
  29. 1 2 3 4 5 Mark D. Robinson, Davis J. McCarthy és Gordon K. Smyth. EdgeR: bioconductor csomag digitális génexpressziós adatok differenciális expressziós elemzéséhez  (angol)  // Bioinformatika : folyóirat. - 2010. - 20. évf. 26 , sz. 1 . - 139-140 . o . PMID 19910308 .
  30. 1 2 3 4 5 Yanming Di, Daniel W. Schafer, Jason S. Cumbie és Jeff H. Chang. Az NBP negatív binomiális modellje az RNS-seq differenciális génexpressziójának értékelésére  // Statisztikai alkalmazások a genetikában és a molekuláris biológiában   : folyóirat. - 2011. - 20. évf. 10 .
  31. 1 2 Paul L. Auer és Rebecca W. Doerge.  Kétlépcsős Poisson-modell az RNS- seq adatok tesztelésére  // Statisztikai alkalmazások a genetikában és a molekuláris biológiában : folyóirat. - 2011. - 20. évf. 10 . Archiválva az eredetiből 2011. június 12-én.
  32. Sonia Tarazona, Fernando García-Alcalde, Joaquin Dopazo, Alberto Ferrer és Ana Conesa.  Differenciális expresszió az RNS-seq-ben : a mélység kérdése  // Genome Research  : folyóirat. - 2011. - 20. évf. 21 . - P. 2213-2223 . - doi : 10.1101/gr.124321.111 .
  33. Li J és Tibshirani R. Konzisztens minták keresése: nem paraméteres megközelítés az RNS-seq adatok differenciális expressziójának azonosítására  //  Statistical Methods in Medical Research : folyóirat. - 2011. - PMID 22127579 .
  34. Rob Patro, Stephen M Mount, Carl Kingsford (2014) A Sailfish könnyű algoritmusok segítségével lehetővé teszi az RNS-seq leolvasásokból származó igazodásmentes izoforma kvantifikációt. Nature Biotechnology, doi : 10.1038/nbt.2862
  35. 1 2 Tarazona S., Furió-Tarí P., Turrà D., Di Pietro A., Nueda MJ, Ferrer A., ​​​​et al. Az RNA-seq differenciális expressziójának adatminőség-tudatos elemzése NOISeq R/Bioc csomaggal  (angol)  // Nucleic acids researchy : Journal. - 2015. - doi : 10.1093/nar/gkv711 .
  36. 1 2 Li J., Tibshirani R. Konzisztens minták keresése: nem paraméteres megközelítés az RNA-Seq adatok differenciális expressziójának azonosításához  //  Statisztikai módszerek az orvosi kutatásban : folyóirat. - 2013. - P. 519-536 . - doi : 10.1177/0962280211428386 .
  37. 1 2 3 Yu Okamura, Natsumi Tsuzuki, Shiori Kuroda, Ai Sato, Yuji Sawada, Masami Yokota Hirai és Masashi Murakami. A Pieris lepkék (Lepidoptera: Pieridae) lárvateljesítményében mutatkozó fajok közötti különbségek a gazdanövények glükozinolátprofiljainak különbségeihez kapcsolódnak   : folyóirat . - 2019. - 2. o . — PMID 31039584 .
  38. 1 2 3 Mollah MM1, Jamal R1, Mokhtar NM2, Harun R1, Mollah MN3. Hibrid egyirányú ANOVA megközelítés a differenciális génexpresszió robusztus és hatékony becsléséhez több mintával  // PLoS One  : folyóirat  . - 2015. - PMID 26413858 .
  39. Yang YH, Speed ​​​​TP (2003). "Összehasonlító mikrotömb-kísérletek tervezése és elemzése." A génexpressziós microarray adatok statisztikai elemzése”. Chapman & Hall., New York, 35-92. ISBN  1-58488-327-8 .
  40. Smyth, GK Lineáris modellek és empirikus Bayes-módszerek a differenciális expresszió értékelésére microarray kísérletekben   // Statisztikai alkalmazások a genetikában és a molekuláris biológiában  : folyóirat. - 2004. - 20. évf. 3 . - doi : 10.2202/1544-6115.1027 .
  41. Sandrine Dudoit, Juliet Popper Shaffer és Jennifer C. Boldrick. Többszörös hipotézis tesztelése Microarray-kísérletekben   // Statisztikai tudomány : folyóirat. - 2003. - 1. évf. 18 . - 71-103 . o . - doi : 10.0000/projecteuclid.org/euclid.ss/1056397487 .
  42. Nelder J., Wedderburn R. Generalized Linear Models  (neopr.)  // [Journal of the Royal Statistical Society]. A sorozat (Általános). - Blackwell Publishing, 1972. - V. 135 , 3. sz . - S. 370-384 . - doi : 10.2307/2344614 . .
  43. 1 2 Robinson MD, McCarthy DJ, Smyth GK. edgeR: a Bioconductor csomag digitális génexpressziós adatok differenciális expressziós elemzéséhez  (angol)  // Bioinformatika : folyóirat. - 2010. - 20. évf. 26 . - 139-140 . o . - doi : 10.1093/bioinformatika/btp616 .

Linkek