A dúsítás funkcionális hovatartozás szerinti elemzése

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2019. május 14-én felülvizsgált verziótól ; az ellenőrzések 2 szerkesztést igényelnek .

A funkcionális dúsítási analízis [1] ( angolul  gene set enrichment analysis, GSEA [2] ) olyan módszerek összessége , amelyek segítségével génkészletet társíthatunk a fenotípus változásával [2] . A fenotípusra vonatkozó meglévő adatok formalizálására az ilyen módszerek gyakran használnak korábban annotált génkészletek adatbázisait (például a Gene ontology (GO) projekt feltételei: molekuláris funkciók, biológiai folyamatok vagy sejtkomponensek [3] ). A módszer alkalmazásának (a program kiadásának) az eredménye ebben az esetben egy előre annotált halmaz, amelynek gyakorisága a bemeneti halmazban statisztikailag szignifikánsan eltér a háttértől (például gyakorisága a teljes genomban vagy egy másikban). gének halmaza). Az ilyen előjegyzett halmazokat felülreprezentáltnak (ha a frekvencia a háttér felett van) vagy alulreprezentáltnak (ha a frekvencia a háttér alatt van) nevezzük.

A GSEA fontos újítása a korábbi elemzési módszerekhez képest, hogy nemcsak az egyes gének adatait önállóan elemezheti, hanem a gének egymás közötti funkcionális kapcsolatait is figyelembe veszi. Egyes esetekben, például az egyes gének egyéni expressziójának enyhe változása esetén, a GSEA alkalmazása a módszer érzékenységének növekedéséhez és a differenciális expresszió teljesebb képéhez vezet [4] .

Ezt a megközelítést 2002-2003-ban egymástól függetlenül több tudóscsoport dolgozta ki, és széles körben elterjedt. Ezzel egy időben javasolták az első programokat a végrehajtására [5] [6] [7] [8] [9] [10] [11] .

Megjegyzendő, hogy a GSEA kifejezés többféle jelentésben is használatos: a cikkben tárgyalt módszerek széles osztályának neveként [2] , a metódusok szűkebb osztályának neveként [2] , egy külön program neveként [4 ] ] .

Háttér

A Human Genome Project megjelenésével felmerült az a probléma, hogy hogyan lehet nagy mennyiségű új információt értelmezni és elemezni régi módszerekkel. A génexpresszió elemzésére szolgáló módszerek megjelenése miatt a betegségekben szenvedők szövetében bekövetkező változások. A microarray-adatokat a szövetek molekuláris jellemzők szerinti osztályozására és a betegségek mechanizmusaira vonatkozó hipotézisek generálására használták, például a rákkutatásban , ahol gyakran figyeltek meg nagy változásokat az egyes gének expressziójában [12] . Ha azonban a génexpresszió változásai nem túl hangsúlyosak, a vizsgált gének nagy száma, az egyének közötti nagyfokú variabilitás és az emberi vizsgálatokban megszokott korlátozott mintaméret megnehezíti a valódi különbségek és a zaj elkülönítését. Sok gén részt vehet ugyanabban az anyagcsere-útvonalban , ezért a gének egy csoportján belüli expresszió teljes változása a fenotípusos expresszió különbségéhez vezet . A gének funkcionális csoportjainak reprezentációjának elemzése a géncsoportok expressziójának változásaira fókuszál, így ezzel a módszerrel megoldható az egyes gének expressziójában bekövetkező kis változások megtalálása [8] .

Megközelítések

A GSEA-probléma formalizálására és megoldására matematikai statisztika módszereit alkalmazzák : megbecsülik az egyes korábban annotált csoportokra számított statisztikai adatok jelentőségét [13] .

Általánosított GSEA algoritmus

Az általánosított GSEA algoritmus a következő lépéseket tartalmazza [13] :

  1. A korábban jegyzett géncsoportok statisztikáinak kiszámítása  - két módszer egyikét használják:
    • Globális teszt  – statisztikák készítése közvetlenül a bemeneti készletről minden előre megjegyzéssel ellátott csoporthoz, például a Hotelling vagy az ANCOVA
    • Génstatisztika kombinálása  - statisztika készítése az egyes génekre, amelyek alapján csoportstatisztika épül. Ezután sorrendben a következőket definiáljuk:
      1. Génstatisztikák  — a bemeneti adatok típusától függően különböző statisztikákat lehet kiválasztani a génekhez, például kísérlet jel-zaj arányát vagy az nyert valószínűségi arányt .
      2. A gének statisztikáinak transzformációja  — a gének statisztikái transzformálhatók: így a statisztika rangtranszformációja elvégezhető, vagy a statisztika értékétől függően az összes gén egy bizonyos részhalmaza kiválasztható további elemzésre
      3. Génkészlet-  statisztika – a fent kapott génstatisztikát egyesítik az előre megjegyzésekkel ellátott génkészletek statisztikáinak összeállításához: például a csoportstatisztikát a benne lévő gének statisztikáinak átlagaként határozzuk meg.
  2. Szignifikanciaértékelés  - a megszerkesztett statisztika fő és alternatív hipotéziseinek megfogalmazása , a statisztika jelentőségének értékelése. Mivel nagyszámú hipotézist tesztelnek ilyen módon (az egyes korábban annotált géncsoportok túl-/alulreprezentáltságáról), a szignifikanciabecslés gyakran tartalmaz egy korrekciót a többszörös teszteléshez .

A módszerek osztályozása

A fentebb tárgyalt általánosított algoritmus szempontjából a GSEA módszerek közötti különbség a különböző szakaszokban alkalmazott eljárások sorrendjében rejlik. Az általánosított algoritmus szerzői 261 eljáráskombinációt hasonlítottak össze [13] ; egy 2008-as áttekintés [14] szerzői 68 külön programot írnak le, amelyek ezeket a módszereket implementálják. Ez az áttekintés a módszerek három fő kategóriába való besorolását javasolja: egyedi dúsítási analízis (SEA), génkészlet-dúsítási elemzés (szűk értelemben vett GSEA) és moduláris dúsítási analízis (MEA), néhány program egynél több osztályba tartozik. Megjegyzendő, hogy a GSEA-problémának (tágabb értelemben) nincs általánosan elfogadott formális megfogalmazása, ami megnehezíti az eredmények értékelését és a módszerek összehasonlítását [2] .

Egyedi dúsítási elemzés

Szinguláris dúsítási analízis -  módszerek, amelyek bemenetként megkapják a jelölt géneket - a kutatók érdeklődésére számot tartó gének bizonyos részhalmazához kapcsolódó gének (például olyan gének, amelyek egy adott szignifikancia szinten jelentősen megváltoztatták az expressziót ( génstatisztika )), és csak ezután gének a funkcionális csoportok felülreprezentáltságát határozzák meg. Így ezek a módszerek lehetőséget adnak a kutatónak génstatisztikák kiválasztására és transzformáció végrehajtására - a statisztika értékétől függően válasszunk ki géneket, majd az előre annotált halmaz statisztikái a halmazban lévő gének száma alapján épülnek fel a jelölt gének. Statisztikai modellként a hipergeometrikus eloszlást , a binomiális eloszlást (nagy mintákhoz használják), a χ² -t , a Fisher-féle egzakt tesztet használják . A legtöbb esetben a statisztikai modellek közötti különbségek jelentéktelenek [15] .

Ez egy egyszerű és hatékony módszer, de az eredmény a jelölt gén szelekciós kritériumainak paramétereitől függ. Ráadásul a hatalmas számú gének miatt (a kísérlet tipikus eredménye több tízezer expressziós profil [9] ) a korábban annotált csoportok közötti kapcsolatok elveszhetnek [14] .

Ezen a módszeren alapuló programok: GoStat, GoMiner, GOTM, BinGO, GOtoolBox, GFinder, Onto-Express, GARBAN, FatiGO, BayGO [14] .

Génkészlet-dúsítási elemzés

A génkészlet- dúsítási analízis egy alternatív megközelítés, amely magában foglalja az összes gén rangsorolását ( transzformációját ) annak a tulajdonságnak a megnyilvánulási foka szerint ( génstatisztika ), amelyen az elemzés történik .  Ebben az esetben a gének teljes készletét veszik figyelembe, nem csak a legjelentősebb géneket. Olyan csoportstatisztikák használatosak , mint a Kolmogorov -statisztika , Student-féle t-statisztika , Mann-Whitney U-statisztika , csoportrang - medián [2] .

A fő előnye, hogy ez a módszer a kísérletekből nyert összes információt felhasználja. Bemenetként azonban minden génhez meg kell határozni egy funkcionális csoportot, ami gyakran nehéz feladat. A módszer alapjául szolgáló feltételezés, miszerint a lista ellentétes végéről származó gének nagyobb mértékben járulnak hozzá a biológiai funkcióhoz, nem mindig igaz, a szabályozó fehérjék gyakran kissé megváltoztatják expressziójukat, de ez jelentős következményekkel jár [14] .

Ezen a metóduson alapuló programok: GSEA (programnév), CapMap, FatiScan, ADGO, ermineJ, PAGE, iGA, GO-Mapper, GOdist, FINA, T-profiler, MetaGP [14] .

Moduláris dúsítási elemzés

Moduláris dúsítási analízis ( eng.  modular enrichment analysis ) - olyan módszerek, amelyek bemenetként, mint az egyedi dúsítás elemzése, a jelölt gének listáját veszik fel, de ettől eltérően a felülreprezentáltság jelentőségének értékelésekor (azaz a meghatározás szakaszaiban) génhalmaz statisztikája és a szignifikancia értékelése ) a GO kifejezések kapcsolatát veszi figyelembe. Ehhez például a Kappa statisztikai -t használjuk . Ily módon a gének bemeneti halmazának olyan függvénye írható le, amely nem felel meg egyetlen kifejezésnek. A módszer korlátja, hogy az erős szomszédsági kapcsolatok nélküli géneket kizárják az elemzésből [14] .

Ezen a módszeren alapuló programok: ADGO, GeneCodis, ProfCom, topGO, Ontologizer, POSOC, DAVID, GoToolBox [14] .

Alkalmazások

Ezeket a módszereket olyan kísérletek eredményeinek elemzésére használják, amelyek egy bizonyos génlistát képviselnek, amely különbözik a teljes génmintától. Például a funkcionális dúsítási analízist gyakran alkalmazzák olyan gének esetében, amelyek különböző körülmények között eltérően expresszálódnak , ilyenkor az a feladat, hogy az expressziós profilokból információt kinyerjenek bármilyen biológiai mechanizmusról

Ennek a módszernek egy fontos alkalmazási területe [3] az egész genomra kiterjedő asszociációs keresés – a beteg és egészséges genotípusok összehasonlítása annak érdekében, hogy megtalálják a páciens genomjában felülreprezentált egynukleotidos polimorfizmusokat (SNP-ket) , amelyek összefüggésbe hozhatók adott állapot. A gének funkcionális csoportjainak reprezentációjának elemzésének ez az alkalmazása nemcsak a betegségekhez kapcsolódó SNP-k felfedezésében segít, hanem segít a betegségek releváns útvonalainak és mechanizmusainak feltárásában is [16] . A GSEA-t például olyan betegségek tanulmányozására használták, mint a spontán koraszülés [17] , veserák [18] , depresszió [19] , neosporosis [20] , skizofrénia [21] és sok más.

Jegyzetek

  1. Sun GP , ​​Jiang T. , Xie PF , Lan J. , Sun GP , ​​Jiang T. , Xie PF , Lan J. Parodontitissel összefüggő gének azonosítása koexpressziós hálózatok segítségével  // Molecular Biology. - 2016. - T. 50 , 1. sz . - S. 143-150 . — ISSN 0026-8984 . - doi : 10.7868/S0026898416010195 .
  2. ↑ 1 2 3 4 5 6 Hung J.-H. , Yang T.-H. , Hu Z. , Weng Z. , DeLisi C. Génkészlet -dúsító elemzés: teljesítményértékelés és használati útmutatók  //  Briefings in Bioinformatics. - 2011. - szeptember 7. ( 13. évf. , 3. sz.). - P. 281-291 . — ISSN 1467-5463 . doi : 10.1093 / bib/bbr049 .
  3. 1 2 Mooney Michael A. , Wilmot Beth. Génkészlet-elemzés: lépésről lépésre szóló útmutató  //  American Journal of Medical Genetics B rész: Neuropsychiatric Genetics. - 2015. - június 8. ( 168. évf. , 7. sz.). - P. 517-527 . — ISSN 1552-4841 . - doi : 10.1002/ajmg.b.32328 .
  4. ↑ 1 2 Subramanian A. , Tamayo P. , Mootha VK , Mukherjee S. , Ebert BL , Gillette MA , Paulovich A. , Pomeroy SL , Golub TR , Lander ES , Mesirov JP Génkészlet dúsítási elemzés: A tudásalapú megközelítés genom-wide expressziós profilok értelmezése  (angol)  // Proceedings of the National Academy of Sciences. - 2005. - szeptember 30. ( 102. évf. , 43. sz.). - P. 15545-15550 . — ISSN 0027-8424 . - doi : 10.1073/pnas.0506580102 .
  5. Rhodes Daniel R , Chinnaiyan Arul M. A ráktranszkriptom integrált elemzése  //  Nature Genetics. - 2005. - június ( 37. köt. , S6. sz. ). -P.S31- S37 . — ISSN 1061-4036 . - doi : 10.1038/ng1570 .
  6. Doniger Scott W , Salomonis Nathan , Dahlquist Kam D , Vranizan Karen , Lawlor Steven C , Conklin Bruce R. [1]  //  Genome Biology. - 2003. - 1. évf. 4 , sz. 1 . — P.R7 . — ISSN 1465-6906 . - doi : 10.1186/gb-2003-4-1-r7 .
  7. Zeeberg Barry R , ​​Feng Weimin , Wang Geoffrey , Wang May D , Fojo Anthony T , Sunshine Margot , Narasimhan Sudarshan , Kane David W , Reinhold William C , Lababidi Samir , Bussey Kimberly J , Riss N. Joseph , We Barrett J. [2]  (angol)  // Genome Biology. - 2003. - 1. évf. 4 , sz. 4 . — P.R28 . — ISSN 1465-6906 . - doi : 10.1186/gb-2003-4-4-r28 .
  8. ↑ 1 2 Mootha Vamsi K , Lindgren Cecilia M , Eriksson Karl-Fredrik , Subramanian Aravind , Sihag Smita , Lehar Joseph , Puigserver Pere , Carlsson Emma , Ridderstråle Martin , Laurila Esa , Houstis J. , Nick Mesterson Nicholas Jill P , Golub Todd R , Tamayo Pablo , Spiegelman Bruce , Lander Eric S , Hirschhorn Joel N , Altshuler David , Groop Leif C. Az oxidatív foszforilációban részt vevő PGC-1α-reszponzív gének koordináltan leszabályozódnak humán cukorbetegségben  /  Naturesh Genetika. - 2003. - június 15. ( 34. évf. , 3. sz.). - 267-273 . o . — ISSN 1061-4036 . - doi : 10.1038/ng1180 .
  9. 1 2 Draghici S. Onto-Tools, a modern biológus eszközkészlete: Onto-Express, Onto-Compare, Onto-Design and Onto-Translate  //  Nucleic Acids Research. - 2003. - július 1. ( 31. évf. , 13. sz.). - P. 3775-3781 . — ISSN 1362-4962 . - doi : 10.1093/nar/gkg624 .
  10. Al-Shahrour F. , Diaz-Uriarte R. , Dopazo J. FatiGO: webeszköz a génontológiai kifejezések és a géncsoportok jelentős asszociációinak megtalálásához   // Bioinformatika . - 2004. - január 22. ( 20. évf. , 4. sz.). - P. 578-580 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatika/btg455 .
  11. Volinia S. , Evangelisti R. , Francioso F. , Arcelli D. , Carella M. , Gasparini P. GOAL: Automated Gene Ontology analysis of expression profiles  //  Nucleic Acids Research. - 2004. - július 1. ( 32. köt. , no. Web Server ). - P.W492-W499 . — ISSN 0305-1048 . doi : 10.1093 / nar/gkh443 .
  12. Golub TR A rák molekuláris osztályozása: osztályfelfedezés és osztály-előrejelzés génexpresszió-monitoring segítségével   // Tudomány . - 1999. - október 15. ( 286. évf. , 5439. sz.). - P. 531-537 . — ISSN 0036-8075 . - doi : 10.1126/tudomány.286.5439.531 .
  13. ↑ 1 2 3 4 Ackermann Marit , Strimmer Korbinian. Általános moduláris keretrendszer a génkészlet-dúsítási elemzéshez  (angol)  // BMC Bioinformatics. - 2009. - február 3. ( 10. évf. , 1. sz.). — ISSN 1471-2105 . - doi : 10.1186/1471-2105-10-47 .
  14. ↑ 1 2 3 4 5 6 7 Huang Da Wei , Sherman Brad T. , Lempicki Richard A. Bioinformatikai gazdagító eszközök: utak a nagy génlisták átfogó funkcionális elemzéséhez  //  Nucleic Acids Research. - 2008. - november 25. ( 37. évf. , 1. sz.). - 1-13 . o . — ISSN 1362-4962 . - doi : 10.1093/nar/gkn923 .
  15. Khatri P. , Draghici S. A génexpressziós adatok ontológiai elemzése: jelenlegi eszközök, korlátok és nyitott problémák   // Bioinformatika . - 2005. - június 30. ( 21. évf. , 18. sz.). - P. 3587-3595 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatika/bti565 .
  16. Holden Marit , Deng Shiwei , Wojnowski Leszek , Kulle Bettina. GSEA-SNP: génkészlet-dúsítási elemzés alkalmazása az egész genomra kiterjedő asszociációs vizsgálatokból származó SNP-adatokra   // Bioinformatika . - 2008. - október 14. ( 24. évf. , 23. sz.). - P. 2784-2785 . — ISSN 1460-2059 . - doi : 10.1093/bioinformatika/btn516 .
  17. Manuck Tracy A. , Watkins Scott , Esplin M. Sean , Parry Samuel , Zhang Heping , Huang Hao , Biggio Joseph R. , Bukowski Radek , Saade George , Andrews William , Baldwin Don , Sadovsky Yoel , Reddy Uma , Var , Ilenerkis John Michael W. , Jorde Lynn B. , Yandell Mark. 242: A spontán koraszülés anyai exome variációinak génkészlet-dúsítási vizsgálata (SPTB  )  // American Journal of Obstetrics and Gynecology. - 2016. - január ( 214. évf. , 1. sz.). - P.S142-S143 . — ISSN 0002-9378 . - doi : 10.1016/j.ajog.2015.10.280 .
  18. Maruschke Matthias , Hakenberg Oliver W , Koczan Dirk , Zimmermann Wolfgang , Stief Christian G , Buchner Alexander. A metasztatikus vesesejtes karcinóma expressziós profilja génkészlet-dúsítási elemzéssel  (angol)  // International Journal of Urology. - 2013. - május 2. ( 21. évf. , 1. sz.). - P. 46-51 . — ISSN 0919-8172 . - doi : 10.1111/iju.12183 .
  19. A _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ . Az aktivált immun-gyulladásos utak régóta fennálló depressziós tünetekkel járnak: Bizonyítékok a Young Finns Study génkészlet-dúsítási elemzéseiből  //  Journal of Psychiatric Research. - 2015. - december ( 71. köt. ). - 120-125 . o . — ISSN 0022-3956 . - doi : 10.1016/j.jpsychires.2015.09.017 .
  20. Nishimura Maki , Tanaka Sachi , Ihara Fumiaki , Muroi Yoshikage , Yamagishi Junya , Furuoka Hidefumi , Suzuki Yutaka , Nishikawa Yoshifumi . Transzkriptom és hisztopatológiai változások a Neospora caninummal fertőzött egéragyban  //  Tudományos jelentések. - 2015. - január 21. ( 5. köt. , 1. sz.). — ISSN 2045-2322 . - doi : 10.1038/srep07936 .
  21. Hass Johanna , Walton Esther , Wright Carrie , Beyer Andreas , Scholz Markus , Turner Jessica , Liu Jingyu , Smolka Michael N. , Roessner Veit , Sponheim Scott R. , Gollub Randy L. , Calhoun Vince D. Stefan , E . A DNS-metiláció és a skizofréniával kapcsolatos köztes fenotípusok közötti összefüggések – A génkészlet-dúsítási elemzés  //  Progress in Neuro-Psychopharmacology and Biological Psychiatry. - 2015. - június ( 59. köt. ). - 31-39 . o . — ISSN 0278-5846 . - doi : 10.1016/j.pnpbp.2015.01.006 .