A génexpresszió kvantitatív elemzése - transzkriptomanalízis , egy gén transzkripciós aktivitásának mérése terméke, a legtöbb gén számára univerzális hírvivő RNS (mRNS) mennyiségének meghatározásával .
Ebben az esetben a génexpresszió végterméke általában fehérjék , nem pedig mRNS .
Módszerek az mRNS mennyiségének mérésére :
Az RNS-szekvenálás eredményeként egy olvasmánykönyvtár (vagy egy olvasási könyvtár) jön létre. Az olvasás hossza 25 és 200 nukleotid között változik a választott szekvenálási módszertől függően . Ezt követően a leolvasásokat a referenciagenomhoz hozzárendelik (vagy igazítják). A leolvasások a genom több régiójához igazíthatók egyszerre, vagy ugyanazon gén különböző izoformáihoz. A technológia csak a sejtben lévő transzkriptum relatív mennyiségének mérését teszi lehetővé . A legegyszerűbb megközelítés az annotált génmodellek egyedileg igazított leolvasásainak figyelembevétele. Ebben az esetben az RPKM [2] (leolvasások kilobázisonként millió leképezett leolvasásra) a transzkriptum kifejeződésének megfelelő kvantitatív mértéke [2] :
,
ahol az olvasások száma az átiraton, az átirat hossza és az olvasások teljes száma. Ez a képlet a maximális valószínűségi becslés az olvasások transzkriptumokra való leképezésének polinomiális modelljéhez [3]
Sok olvasatot azonban nem lehet egyértelműen feltérképezni . Például génduplikációkkal , mivel ebben az esetben nem világos, hogy pontosan hol kell feltérképezni a genomot . A magasabb rendű eukariótákban található gének szerkezetére vonatkozó információkat ( alternatív splicing , alternatív promóterek , különböző poliadenilációs helyek ) még modellszervezetekben sem vizsgálták kellőképpen , ami szintén megnehezíti az eredmények egyértelmű értelmezését. Ezért olyan megközelítéseket alkalmaznak, amelyek lehetővé teszik a feltérképezést splicing pontok létrehozásával [4] és a transzkriptom ezt követő összeállításával [5] .
Jelenleg sokféle modell létezik az átirat mennyiségének kiszámítására . a következő fő tulajdonságok alapján oszthatók fel [6] :
Jelenleg sokféle program létezik a génexpresszió kvantitatív elemzésére: Mandzsettagombok [7] , IsoEM, HTSeq, RSEM [8] , MISO. Ezeket a módszereket ugyanilyen aktívan használják egy transzkriptom mennyiségének becslésére, azonban az alapul szolgáló algoritmusok működésének bizonyos árnyalatai a helyzettől függően az egyik programot előnyben részesíthetik a másikkal szemben.
HTSeqEgy egyszerű megközelítés, amely megszámolja az adott genommal átfedésben lévő leolvasások számát . Ugyanakkor a program különféle definíciókat tartalmaz az olvasás és a gén metszéspontjának tényére. A további kifejezés az RPKM segítségével határozható meg [8] .
MandzsettagombokEbben az algoritmusban a cDNS -könyvtár először a genomra van leképezve , hogy egy másik TopHat programmal egy illesztést hozzon létre . Ezután az igazítás alapján egy gráfot építenek fel párosított cDNS -olvasásokkal azokon a csúcsokon, ahol az él megrajzolódik, ha két páros olvasás lehet ugyanabban az átiratban . A gráf alapján a lehetséges izoformákat visszaállítjuk (mint a gráf minimális borítását). Ennek eredményeként az olvasások leképezésre kerülnek a megszerkesztett átiratokhoz . A statisztikai modell keretein belül annak a valószínűsége , hogy egy nád egy izoformához tartozik, arányos az átirat mennyiségével , és ennek alapján szerkesztjük meg a maximum likelihood függvényt , ahol a maximális likelihood függvény maximuma a kívánt számnak felel meg. az átiratok [5] .
MISOA MISO (Mixture of Isoforms) egy valószínűségi keretrendszer, amely az RNS-Seq adatokból számszerűsíti az alternatív módon összeillesztett gének expressziós szintjét, és azonosítja a mintákban a differenciálisan szabályozott izoformákat vagy exonokat. A génizoformák számának becslésére szolgáló statisztikai modell ( MISO ) alapján . A MISO egy izoformakészlet kifejeződési szintjét véletlenszerű változónak tekinti, és ennek a változónak az értékei alapján értékeli az eloszlást. A becslési algoritmus mintaalapú, és a Markov-lánc Monte Carlo ("MCMC") módszereihez tartozik.
Szisztematikus hibák és reprodukálhatóságAz RNS szekvenálás eredményeként szisztematikus hibák lépnek fel, amelyek jelentősen befolyásolhatják az expresszió értékelését. Számos biokémiai jellemzőt nem lehet kimutatni és befolyásukat nem lehet figyelembe venni, azonban néhány hiba, mint például a nem véletlenszerű és nem egyenletes hosszirányú fragmentáció, bizonyos mértékig még figyelembe vehető [9] .
A replikákat hibajavításra használják. Kétféle másolat létezik: műszaki és biológiai. A technikai replikák ugyanazt a biológiai anyagot többszörösen szekvenálják . A biológiai replikák viszont különféle biológiai anyagok szekvenálását foglalják magukban. A szekvenált töredékeknek csak egy kis része olvasható ki. A leolvasások rögzített génre vonatkozó része némileg eltér a minta és a vizsgált kis rész esetében, ennek a résznek a véletlenszerű kiválasztása miatt. Ha egy adott gén leolvasásainak egy része a mintában egyenlő p-vel, akkor a leolvasások azon része, amely a génre esik, átlagos p-vel engedelmeskedik a binomiális vagy Poisson-eloszlásnak . A p. e részének értékeléséhez technikai jelzésekre van szükség. Biológiai replikák esetében az expresszió változását nem magyarázza a Poisson-eloszlás . Ebben az esetben negatív binomiális vagy általánosított Poisson-eloszlást használunk. Ez fenntartja azt a feltételezést, hogy a variáció az átlagos kifejezéstől függ . A biológiai replikák kis száma miatt a variációt különféle regressziós módszerekkel becsülik [10] .
A DNS-mikrochip egy kis felület, amelyen ismert szekvenciájú egyszálú DNS -fragmensek rakódnak le. Ezek a fragmensek próbaként működnek, amelyekkel a vizsgált mintából származó komplementer DNS-szálak hibridizálódnak. Két különböző típusú DNS-microarray létezik: oligonukleotid-microarray és cDNS-microarray [11] .
A cDNS microarray segítségével kényelmes a génexpressziós szintek változásainak tanulmányozása például különböző betegségek esetén. Két sejtmintából (kontroll és teszt) RNS -t izolálunk , amelyből reverz transzkripcióval cDNS -t nyernek . A kapott minták mindegyikét megfestik valamilyen festékkel (általában Cy3 -at és Cy5 -öt használnak ). A jelölt mintákat egyidejűleg a mikrochipre helyezzük, majd a nem hibridizált molekulák lemosása után pásztázó konfokális mikroszkóp segítségével mérjük a fluoreszcenciát [12] .
Amikor egy mintát egy oligonukleotid mikrochipen készítünk elő elemzésre , a cRNS szintetizálódik a kapott cDNS mátrixán jelölés (például biotin vagy fluoreszcein ) jelenlétében . Megemelt hőmérsékleti körülmények között a jelölt cRNS hibridizálódik a mikromátrixon lévő próbákkal. A normalizáláshoz a mutált oligonukleotid kötési értékeit kivonjuk az eredményül kapott adatelemzésből. Ezen túlmenően, mivel minden génhez körülbelül 25 különböző szondát hoznak létre, ezek végső értékeit ezen próbák normalizált intenzitásának átlagaként számítják ki [12] .
A Microarray hibridizáció egy nagyon hatékony módszer a tesztmintában lévő összes gén expressziós szintjének egyidejű értékelésére . Ennek a kutatási technikának a természete azonban olyan, hogy a kísérletben kapott értékek pontos elemzése szükséges a megbízható minőségi és mennyiségi adatok megszerzéséhez. Szükséges az adatok normalizálása és a jel-zaj arány maximalizálása, mivel az összehasonlított mintákban az expressziós profilok változása kicsi lehet [11] .
A feldolgozás előtt az adatok a különböző csatornák fluoreszcencia intenzitásának digitális képe . Mindenekelőtt a szubsztrát fluoreszcenciáját levonjuk az egyes minták fluoreszcenciájából. Két lehetőség közül választhat: vagy a szubsztrát fluoreszcenciáját közvetlenül mellette számítja ki minden mintánál, vagy a teljes mikrochipen számítja ki az átlagos szubsztrát fluoreszcenciát. Az első opciót tartjuk helyesebbnek, mivel a különböző microarray területek fluoreszcenciája eltérő lehet [12] .
A háttér kivonását a festékek fluoreszcencia intenzitásának normalizálása követi. A festékek fluoreszcenciája és próbákkal való fúziója függ a gén szekvenciájától, az egyes hibridizációk végrehajtásának körülményeitől , a mikrochip minőségétől, valamint a tárolás körülményeitől és időtartamától. A normalizálást vagy a housekeeping géneknek megfelelő minták fluoreszcenciája alapján végezzük, vagy a vizsgált sejtek számára szokatlan, ismert mennyiségű exogén mRNS bejuttatásával a mikrochipbe és a mintába . A megbízhatóbb értékek elérése érdekében azonos DNS - mintákat visznek fel ugyanazon mikrochip különböző területeire . A microarray minőségi indexét a különböző mintákban lévő azonos minták adatértékei közötti különbség szintje határozza meg [12] .
Mindezek ellenére azonban a kísérletekben kapott adatok nem a génexpresszió mennyiségi értékelését jelentik . Az egyik génre kapott eredmények laboratóriumonként és mikromátrixonként változhatnak. Az ilyen kísérletek lehetővé teszik az expressziós profilok minőségi változásainak értékelését különböző mintákban [11] .
Korábban a tudósok a különböző ráktípusokat csak az érintett szerv alapján osztályozták . A DNS microarray segítségével lehetővé válik a daganatok osztályozása a sejtek génaktivitási mintázatai szerint . Ez lehetővé teszi olyan gyógyszerek kifejlesztését, amelyek egy adott ráktípust céloznak meg . Ezenkívül a gyógyszerrel kezelt és kezeletlen sejtek expressziós profiljának elemzése lehetővé teszi a tudósok számára, hogy pontosan megértsék, hogyan hat a gyógyszer a sejtekre . Ezenkívül a vizsgált tumormintában gyakran különböző klónok sejtjei vannak , amelyek génexpressziós profiljában jelentősen eltérhetnek . A rosszindulatú daganatok egyes sejtjeinek génexpressziós szintjének értékelése pontosabban megjósolja a daganat és metasztázisai további fejlődését [13] .
Laboratóriumi vizsgálatok során a génexpresszió kvantitatív elemzésére szolgáló módszereket számos, különböző gének expressziójának vizsgálatával kapcsolatos kísérletben alkalmazzák . Azokban a kísérletekben, ahol a sejteket a normálistól eltérő körülmények között tartották, többnyire a génexpressziós profilokban tapasztaltak változásokat . Az ilyen vizsgálatok eredményei rávilágítanak a környezeti változásokra adott sejtválasz mechanizmusaira. Ezenkívül a génexpresszió szintje aktívan változik az embrionális és posztembrionális fejlődés során , amikor egyes fehérjéket másokkal helyettesítenek, amelyek szabályozzák a test növekedési és kialakulásának folyamatait. Számos gén expressziós szintjének együttes változása bármely paraméter megváltoztatásakor jelezheti e gének termékeinek kölcsönhatását a sejtben [13] .
A génexpresszió kvantitatív elemzése több szinten és különböző célokkal történik [14] , [15] :
1) Egyedi gén expressziójának változásának meghatározása a kísérlet (mintafeldolgozás) körülményeitől függően.
2) Gének klaszteranalízise általános funkcionalitás, interakció, közös szabályozás céljából. Ebben az esetben a méretcsökkentési módszereket és a vizualizációs módszereket alkalmazzák. Példaként: Főkomponens-elemzés és klaszterezés . A DNS- szekvenciákat elemzik , hogy megtalálják a szabályozó régiókat, motívumokat.
3) A megfigyelt mérési eredményeknek megfelelő gének és fehérjék közötti interakciós hálózatok azonosítása és megértése .
Így az expresszió változásainak elemzése a gének "változott" és "változatlan" gének csoportosításának tekinthető [14] .
A génexpresszió változásainak elemzése bonyolult lehet a rossz reprodukálhatóság miatt, amely a kísérlet különböző szintjein és különböző szakaszaiban kölcsönhatásba lépő nagyszámú, egymással összefüggő tényező miatt alakulhat ki. Minden variáció felosztható biológiai, kísérleti és technikai variációs forrásokra. A kapott eredmények variációinak technikai forrása a következők: a mikrochipek gyártási hibája, a képek előállításának és feldolgozásának technológiáinak különbségei, a jelkivonási és adatfeldolgozási módszerek [15] .
BiológiaiÚgy gondolják, hogy a variációk előfordulásához a legnagyobb mértékben a különböző sejtekben és sejtpopulációkban a génexpresszió egyéni szintjei közötti különbségek járulnak hozzá. Nemcsak a klinikai minták ( különböző típusú sejteket tartalmazó) között, hanem még a monoklonális „azonos” tenyészetek mintái között is , amelyek ugyanannak a sejtnek a klónjai és „azonos” körülmények között tartanak, vannak különbségek. Ezek a különbségek a mikrokörnyezeti hatásoknak (pl. egyenetlen tápanyagtartalom, hőmérsékleti gradiens), a tenyészetben lévő sejtek növekedési fázisában, a génexpresszió gyors változásának időszakaiban és sok más ellenőrizhetetlen véletlen hatásnak tulajdoníthatók, mint például a sejtkölcsönhatás és a véletlenszerű eloszlás. kisszámú transzkripciós faktor molekuláé (bizonyos gének expressziója jelentősen függhet néhány molekulától) [15] .
A transzkriptum másodlagos szerkezetének jelenléte az RNS megőrzését is befolyásolja [15] .
Kísérleti (mintaelőkészítés)A minta-előkészítés minden szakaszának szabványosítása elengedhetetlen (például a hőmérsékleti rezsim, a tápanyagok összetételének megváltoztatása, még az élő sejtek rövid távú centrifugálásával is változást okozhat az expressziós profilban) [15] . Bakteriális minták készítéséhez elengedhetetlen az RNS gyors lebomlása RNázok jelenlétében, ezért az abszolút sterilitást be kell tartani az RNS idő előtti lebomlásának elkerülése érdekében.
Az mRNS -minta elkészítésének legjobb stratégiája a minimális feldolgozási idő olyan körülmények között, amelyek "lefagyják" az mRNS szintjét a mintavétel időpontjában, valamint az RNázok [15] , az RNS-t lebontó enzimek aktivitásának gátlása. [15] .
A minták génexpressziós profiljának összehasonlításakor normalizálást alkalmazunk, figyelembe véve a kísérleti és biológiai variáció forrásait [16] :
A szisztematikus variációkhoz (amelyek azonos hatást gyakorolnak az összehasonlított mintákra) a következő módszereket alkalmazzák [16] :
Ugyanakkor a normalizálás egyszerű megközelítései csak az összehasonlított minták fragmenseinek teljes számát veszik figyelembe, és az expressziót fokozó gének kis száma jelentős számú expressziót csökkentő gén téves kimutatásához vezethet [16] .
Ezenkívül gyakran a leképezett töredékek számának értékeivel együtt vagy helyett az RPKM - Read Per Kilobase per Million Mapped read vagy az FPKM - Fragments Per Kilobase per Million Mapped read [16] értékeket használják .
MódszerekValamennyi normalizálási módszer feltételezi, hogy az összehasonlított mintákban a legtöbb gén azonos módon expresszálódik, és a csökkent expressziójú (downregulált) gének aránya nagyjából megegyezik a felszabályozottak arányával. TMM (Trimmed Mean of M-values) és a DESeq csomagban használatos [17] .
A keresés két mintacsoport összehasonlítását és olyan gének keresését használja, amelyek expressziós szintje jelentősen eltér a két csoport között. Minden gén esetében ellenőrizze, hogy megváltozott-e az expressziója. Tételezzük fel, hogy az adatok az egyes génekre vonatkozó ismételt mérések sorozata, amelyek a mért expressziós szintet vagy annak logaritmusát reprezentálják a vizsgálati ( kezelési ) és a kontroll (kontroll) mintákban. Az alkalmazott módszerek folyamatos ( t-próba ) és diszkrét (PPDE) módszerekre oszthatók [18] [19] .
A microarray -ekkel kapott adatok elemzésekor a kapott méréseket folytonos értékekként értelmezzük ( lognormális eloszlás ). Az RNS-Seq adatok elemzésekor Poisson , inverz binomiális, sőt béta-binomiális eloszlást is használnak [20] .
Rögzített küszöbérték a kifejezés relatív változásáhozA korai munkák egy olyan megközelítést alkalmaztak, amelyben egy gént akkor tekintettek differenciáltan kifejezettnek, ha az expressziójában bekövetkezett relatív változás meghalad egy bizonyos küszöböt (általában 2-t) [21] .
Egyszerű t-tesztA t-próba jól ismert kritérium az átlagok egyenlőségének értékelésére, figyelembe véve a variációt. A normalizált távolságot mind a kontroll-, mind a tesztminta mintaátlagai, valamint ezek szórása és , a [22] képlet alapján számítjuk ki.
,
hol és . Ismeretes, hogy a t eloszlás közel áll a Student-féle f szabadságfokszámú eloszláshoz, ahol [22]
.
Ha t túllép egy bizonyos küszöböt, a választott szignifikanciaszinttől függően, a gén expressziója megváltozott [22] .
Mivel a távolságot a t-próbában a minta szórásával normalizálják, ennek használata előnyösebb, mint a kifejezés relatív változásának rögzített küszöbértéke [22] .
A t-próba alkalmazásának fő problémája a mérési ismétlések kis számában és a kísérlet magas költségében vagy bonyolultságában rejlik [22] .
Regularizált t-tesztEzt a módszert egy gén variabilitásának becslésére használják más génekre vonatkozó információk alapján. A génexpresszió logaritmusának értékeit független normál eloszlásként modellezzük, a megfelelő eszközökkel és varianciákkal paraméterezve [23] .
,
ahol C az eloszlás normalizálására szolgáló állandó [23] .
A priori valószínűségek esetén és elfogadva - skálázott inverz gamma és - normál eloszlású [23] .
Kimutatták, hogy kapcsolat van az érték és a kifejezés variációja között. Az expresszió közeli értékeinél az expressziós variáció közeli értékei figyelhetők meg. Így lehetséges a Bayes-statisztikában a priori tudás alkalmazása annak érdekében, hogy jobb becsléseket kapjunk egyetlen gén expressziójának variációjáról, felhasználva jelentős számú más, hasonló expressziós szinttel rendelkező gén ugyanabban a kísérletben mért expressziós szintjét [23]. ] .
,
hol ,
,
,
A pontbecslésekhez az utólagos becslés (MP) vagy a módus (MAP - maximum a posteriori ) átlagát használjuk [24] .
Rugalmas megvalósításban a génexpresszió háttérvarianciáját úgy számítjuk ki, hogy figyelembe veszik a szóban forgó génnel szomszédos géneket, például 100 gént, amelyek egy szimmetrikus expressziós szint ablakba esnek [24] .
Ez a módszer ugyan nem szünteti meg az ismételt mérések szükségességét, de használatával már kis számú ismétlés mellett is jelentősen csökkenthető a fals pozitív leletek száma [24] .
A differenciális kifejezés valószínűségének becslésePPDE (Posterior Probability of Differential Expression), differenciális kifejezés utólagos valószínűsége [25] .
A mért adatok zajossága és változékonysága miatt eltérően expresszálódó gének fals pozitív és fals negatív leletei várhatók [26] .
A hamis pozitív arány meghatározásának intuitív módja az azonos kontrollmintából kapott mérések összehasonlítása, miközben a génexpresszió nem változhat [26] .
Ennek a megközelítésnek a formálisabb számítási megvalósítását is javasolják: az a priori tudás azon a megfigyelésen alapul, hogy ha a génexpresszióban nincs változás, akkor az egyes gének p - értékét egyenletesen kell elosztani 0 és 1 között (a bármely p érték alatti gének egyenlő p -vel, a fenti arány pedig 1 -p ) . Változások esetén a gének p - értékeinek eloszlása jobban „összehúzódik” a 0 felé, mint az 1 felé, vagyis lesz egy részhalmaza a „szignifikáns” p -értékekkel rendelkező, eltérően expresszált gének . Ezt az eloszlást egyenletes és nem egyenletes eloszlások súlyozott kombinációja modellezi. Minden gén esetében kiszámítjuk annak valószínűségét, hogy nem egyenletes eloszlással társul – PPDE [27] .
A modellezés során béta eloszlások keverékét használjuk [27] , ahol az egységes speciális eset [27] .
Általában az EM algoritmust használják a keverék tömegeinek meghatározására [27] .
Kiszámítjuk a differenciális kifejezés utólagos valószínűségét [27] .
A megvalósítás gyakran azt feltételezi, hogy a p - értékeket a t-próba eloszlásból kapjuk új adatként, és valószínűségi modellt épít fel velük [27] .
AlgoritmusokA differenciálisan expresszált gének elemzésére szolgáló módszerek/programok kiindulási adatai olyan mátrixok , amelyek az RNS-Seq kísérletben minden mintára génenként/exononként térképezett fragmentumok számát tartalmazzák. Általában a mintaadatokat közvetlenül használják (baySeq [28] , EBSeq [29] , ShrinkSeq [30] , edgeR [31] , DESeq [17] , NBPSeq [32] és TSPM [33] ), de vannak olyan algoritmusok, amelyek minták konvertálására és hibridizációs microarray-ekkel nyert adatok elemzésére tervezett algoritmusok felhasználásával (NOISeq [34] és SAMseq [35] ).
Az RNS -en lévő adatok feldolgozásának jelentős felgyorsítása lehetővé teszi a "könnyű algoritmusokat" a Sailfish [36]
Felismerték, hogy az egyes gének varianciaparamétereinek megbízható becslése kritikus fontosságú a differenciális expresszió elemzéséhez, és sok erőfeszítést tettek ebbe az irányba. Ennek a becslésnek a megszerzését bonyolítja a legtöbb RNS-seq kísérlet kis mintamérete, ami a gének közötti információmegosztást motiválja a pontosabb becslések elérése érdekében. Az első feltételezés az volt, hogy feltételeztük, hogy a variancia paraméter minden génre azonos, ami lehetővé tette annak becslését az összes rendelkezésre álló adat felhasználásával a feltételes maximum likelihood módszerrel. A DESeq, edgeR, NBPSeq a génadatok felosztását használja a variancia becslésére , a különbség a módszerben rejlik. Az edgeR kevésbé korlátozó megközelítést alkalmaz – a variancia meghatározása minden gén esetében megtörténik, de az egyéni becsléseket a súlyozott likelihood módszerrel, az e dgeR [31] , [17] , [32] súlyozott valószínűségi módszerrel „húzza” a teljes variancia értékére .
A legtöbb parametrikus modell (baySeq, DESeq, edgeR és NBPSeq) az inverz binomiális eloszlási modellt használja a többlet variancia magyarázatára [31] , [17] , [32] .
A TSPM (kétlépcsős Poisson-modell) a minták Poisson-modelljén alapul, kiegészítve egy kvázi-likelihood megközelítéssel az adatok többletvarianciájának leírására. Az első lépés, hogy minden egyes gént külön-külön tesztelünk a túlzott variancia szempontjából, hogy eldöntsük, melyik modellt használjuk a differenciális expressziós elemzéshez. A differenciális expressziós tesztelés aszimptotikus statisztikán alapul, amely feltételezi, hogy az egyes génekhez tartozó fragmentumok teljes száma nem túl kicsi. A szerzők azt javasolják, hogy dobják ki azokat a géneket, amelyeknél a fragmentumok teljes száma kevesebb, mint 10. Az is fontos, hogy a gének túlzott diszperzió nélkül jelen legyenek ezekben az adatokban [33] ).
A ShrinkSeq lehetővé teszi a felhasználó számára, hogy válasszon egy sor eloszlás közül, beleértve az inverz binomiális és inverz binomiális többletszámú nullákat [30] .
A DESeq, edgeR, NBPSeq a klasszikus hipotézis tesztelési megközelítést alkalmazza [31] , [32] . baySeq, EBSeq, ShrinkSeq Bayes-statisztikát használ [28] [29] [30] .
A DESeq-ben és az NBPSeq-ben a varianciabecsléseket az átlag és a variancia közötti megfigyelt kapcsolat lokális vagy parametrikus regresszióval történő modellezésével kapjuk . Az NBPSeq-ben a kapott varianciaértékeket használják, a DESeq-ben konzervatív megközelítést alkalmaznak - a legnagyobb varianciaértéket választják (egy becslésből a többi gének információinak elkülönítésével és egy egyedi gén varianciabecslésével) . Az edgeR-ben, DESeq-ben és NBPSeq-ben a differenciális kifejezés jelentőségét egyfajta egzakt teszttel (két csoport összehasonlítására) vagy egy általánosított lineáris modellel tesztelik [31] [17] [32] .
A baySeq-ben a felhasználó modellek gyűjteményét adja meg, amelyek csoportokra osztják a mintákat. A csoportban a főeloszlás azonos paramétereit feltételezzük. Az egyes modellek utólagos valószínűségét ezután mindegyik génre megbecsüljük . A gének teljes halmazából származó információt felhasználják az inverz binomiális eloszlás paramétereinek empirikus előzetes eloszlásának kialakításához [28] .
Az EBSeq hasonló megközelítést alkalmaz, de a paraméterpriorok paraméteres formáját veszi fel, a hiperparamétereket minden génen megosztva, és adatokból becsülik [29] .
Nem paraméteresA NOISeq és a SAMSeq nem paraméteres módszerek, és nem jelentik az adatok eloszlását [37] , [38] .
A SAMSeq a Wilcoxon statisztikán alapul, amelyet több, permutációkat használó adatkiértékelés során átlagolnak, hogy megbecsüljék az FDR-t (hamis felfedezési arány). Ezeket a pontszámokat használják az egyes gének q-értékének meghatározására [38] .
A NOISeq meghatározza a változás vörösségének eloszlását és az abszolút expressziós értékek különbségét a minták között különböző körülmények között, és összehasonlítja ezt az eloszlást az azonos feltételek melletti minták összehasonlításakor kapott eloszlással (ezt "zajeloszlásnak" nevezik). Röviden, minden génre kiszámolunk egy statisztikát, amelyet a zajeloszlásból származó pontok arányaként határozunk meg, amelyek kisebb enyhe változásnak és abszolút expressziós értékek különbségének felelnek meg, mint az eredeti adatokban a kérdéses gén esetében [37] .
Ha a génexpressziót több kísérletben hasonlítjuk össze, akkor vagy több páronkénti összehasonlítást végeznek, vagy olyan modelleket használnak, amelyek összehasonlítják a kísérleti csoportokat. Abban az esetben, ha a génexpresszióra gyakorolt Κ - hatásokat (például kezelés), Τ 0 …Τ κ-1 vesszük figyelembe, több alapvetően eltérő összehasonlítási terv alkalmazható [39] [40] .
Nagyszámú kísérlet összehasonlításakor szükséges a többszörös összehasonlítások korrekciója ( FDR , FWER , korrigált p-érték vagy mások) [43] , hogy kizárjuk annak lehetőségét, hogy véletlenül szignifikáns különbséget kapjunk a génexpresszióban. Nagyszámú kísérleti csoport (tényező) elemzésekor csak páronkénti összehasonlítás alkalmazása nem optimális, mivel jelentős időigényes. Ilyen esetekben ésszerűbb olyan modelleket alkalmazni, amelyek több tényező hatását is figyelembe veszik [39] [40] .
A több tényező hatását vizsgáló kísérletek lényegében ugyanazokat a matematikai megközelítéseket ( regresszióanalízis , Bayes-statisztika ) alkalmazzák, mint az egyváltozós elemzésnél, de a csoportos összehasonlítások összetettebb kialakításával. Íme néhány közülük [45] .