A "Gene Ontology" ( Eng. Gene Ontology vagy GO ) egy bioinformatikai projekt, amelynek célja az összes biológiai faj génjeinek és géntermékeinek annotációjához egységes terminológia létrehozása [1] .
A projekt célja a gének és termékeik bizonyos attribútumlistájának fenntartása és kiegészítése , a gének és termékek annotációinak összeállítása, a projekt adatbázisával való munkavégzéshez szükséges eszközök kifejlesztése , valamint az új kísérleti adatok elemzése, különös tekintettel az adatok elemzésére . a gének funkcionális csoportjainak ábrázolása . Érdemes megjegyezni, hogy a GO projekt egy jelölőnyelvet hozott létre az adatok osztályozására (információ a génekről és termékeikről, azaz az RNS-ről és a fehérjékről, valamint ezek funkcióiról), amely lehetővé teszi a géntermékekről szóló szisztematikus információk gyors megtalálását [2 ] [3] [ 4] .
A "Gene Ontology" egy nagyobb osztályozási projekt része - "Open Biomedical Ontologies" ( OBO ) [5] .
A számítástechnikában az ontológiákat bizonyos tudásterületek formalizálására használják a valós világ objektumairól és a köztük lévő kapcsolatokról szóló adatrendszer (az úgynevezett tudásbázis ) segítségével. A biológiában és a kapcsolódó tudományágakban felmerült az univerzális terminológiai standard hiányának problémája. A hasonló fogalmakat kifejező , de különböző biológiai fajokra , kutatási területekre vagy akár különböző tudóscsoportokon belül használt kifejezések alapvetően eltérő jelentéssel bírhatnak, ami megnehezíti az adatcserét . Ebben a vonatkozásban a Gene Ontology projekt feladata az volt, hogy olyan terminusokat hozzon létre, amelyek tükrözik a gének és termékeik tulajdonságait, és bármely organizmusra alkalmazhatók [2] [3] [4] .
A "Gene Ontology"-t 1998-ban hozta létre egy tudós konzorcium, akik három modellszervezet genomját tanulmányozták : Drosophila melanogaster (gyümölcslégy), Mus musculus (egér) és Saccharomyces cerevisiae (sütőélesztő) [6] . Azóta számos más modell organizmusok adatbázisa csatlakozott a GO Konzorciumhoz, ezzel nemcsak az annotációs adatbázis bővítéséhez, hanem az adatok megtekintésére és alkalmazására szolgáló szolgáltatások létrehozásához is hozzájárult.
A GO Consortium ( GOC ) biológiai adatbázisok és kutatócsoportok összessége, amelyek aktívan részt vesznek a Gene Ontology projektben [7] . Számos adatbázist tartalmaz különféle modell organizmusokhoz, általános fehérje adatbázisokat, szoftverfejlesztő csapatokat és Gene Ontology szerkesztőket.
A Gene Ontology egy nagyszabású és gyorsan fejlődő projekt. 2011 szeptemberéig a Gene Ontology több mint 33 ezer kifejezést és mintegy 12 millió géntermék annotációt tartalmazott, amelyek több mint 360 ezer élő szervezetre vonatkoztak [2] . 2016 után a kifejezések száma meghaladta a 44 ezer példányt, míg az ebben a tudásbázisban annotált organizmusok száma meghaladta a 460 ezer egyedet [3]
Az elmúlt néhány évben a GO Konzorcium számos ontológiai változtatást hajtott végre a GO annotációk mennyiségének, minőségének és specifikusságának növelése érdekében. 2013-ra a kommentárok száma meghaladta a 96 milliót. A kommentárok minőségét automatizált minőségellenőrzésekkel javították. A GO adatbázisban megjelenített adatok annotációja is javult, új kifejezések kerültek be. [4] . 2007-ben létrejött egy új szolgáltatás, az InterMine [8] , amelynek célja a nagyszámú, egymástól eltérő forrásból származó genomikai adatok integrálása, valamint olyan számítási feladatok megkönnyítése, mint a meghatározott genomiális régiók keresése és statisztikai vizsgálatok elvégzése. A projektet eredetileg a Drosophila adatainak integrálására hozták létre, de mára számos modellszervezetet tartalmaz. Az elmúlt években zajlott a LEGO szolgáltatás (Linked Expressions using the Gene Ontology) fejlesztése, amely lehetővé teszi a GO adatbázisban található különféle annotációk kölcsönhatásának feltárását, a gének és funkcióik általánosabb modelljébe való kombinálását [3 ] .
Meg kell érteni, hogy a „génontológia” összetett biológiai jelenségeket ír le, nem pedig meghatározott biológiai objektumokat. A Gene Ontology adatbázis három független szótárat tartalmaz [1] [9] :
A "Gén Ontológia" minden egyes kifejezésének számos attribútuma van: egyedi digitális azonosító, név, szótár, amelyhez a kifejezés tartozik, és definíció. A kifejezéseknek lehetnek szinonimái, amelyek a fogalom jelentésének pontosan megfelelő, tágabb, szűkebb és a kifejezéssel valamilyen kapcsolatban állókra oszlanak. Olyan attribútumok is jelen lehetnek, mint a forrásokra, más adatbázisokra mutató hivatkozások, valamint a [1] [9] kifejezés jelentésére és használatára vonatkozó megjegyzések .
Az ontológia az irányított aciklikus gráf elvén épül fel : minden tag más típusú kapcsolaton keresztül kapcsolódik egy vagy több másik taghoz . A következő típusú kapcsolatok léteznek [1] :
Példa a GO projekt egyik kifejezésére [10] :
azonosító: GO:0043417 megnevezése: a vázizomszövet regenerációjának negatív szabályozása névtér: biológiai_folyamat def: "Minden olyan folyamat, amely leállítja, megakadályozza vagy csökkenti a vázizomzat regenerációjának gyakoriságát, sebességét vagy mértékét." [GOC:jl] szinonimája: "a vázizom regeneráció leszabályozása" PONTOS [] szinonimája: "a vázizom regeneráció leszabályozása" PONTOS [] szinonimája: "a vázizom regeneráció leszabályozása" PONTOS [] szinonimája: "a vázizomzat regenerációjának gátlása" SZŰK [] is_a:GO:0043416 ! a vázizomszövet regenerációjának szabályozása is_a: GO:0048640 ! a fejlődési növekedés negatív szabályozása kapcsolat: negatívan_szabályoz GO:0043403 ! vázizomszövet regenerációA Gene Ontology adatbázist folyamatosan módosítják és kiegészítik mind a GO projekt kurátorai, mind más kutatók. A javasolt felhasználói módosításokat a projektszerkesztők felülvizsgálják, és a módosítások jóváhagyása esetén alkalmazzák [9] .
A teljes adatbázist tartalmazó fájl [10] különböző formátumokban beszerezhető a hivatalos Gene Ontology weboldalról, és a feltételek online is elérhetőek az AmiGO Gene Ontology böngésző segítségével. Ezenkívül egy adott kifejezéshez kapcsolódó géntermékek adattömbjének kinyerésére is használható. Az oldalról letöltheti a GO kifejezések más osztályozási rendszereknek való megfelelésének térképeit is [11] .
A genom annotáció célja, hogy információt szerezzen a géntermékek tulajdonságairól. A GO annotációk a „génontológia” kifejezést használják erre. A GO Konzorcium tagjai felteszik annotációikat a Gene Ontology weboldalra, ahol a kommentárok közvetlenül letölthetők vagy megtekinthetők az AmiGO böngészőben [12] .
A génannotáció a következő adatokat tartalmazza: a géntermék neve és azonosítója; a megfelelő GO kifejezés; az annotáció alapjául szolgáló adatok típusa ( bizonyíték kód ); link a forráshoz; valamint a megjegyzés készítője és dátuma. Azokhoz az adattípusokhoz, amelyek egy annotáció érvényességét jelzik ( bizonyítékkód ), létezik egy speciális ontológia, amely az OBO projekthez kapcsolódik [13] . Különféle megjegyzésmódokat tartalmaz, manuális és automatikus egyaránt. Például [1] :
2012 szeptemberéig az összes génontológiai annotáció több mint 99%-át automatikusan megkapták [4] . Mivel az ilyen megjegyzéseket nem ellenőrzik manuálisan, a GO Consortium kevésbé tartja megbízhatónak, és csak töredékük érhető el az AmiGO böngészőben. Az annotációk teljes adatbázisa letölthető a Gene Ontology weboldaláról.
Az AmiGO [9] egy webalkalmazás (GO szolgáltatás), amely lehetővé teszi a felhasználók számára a GO kifejezések és géntermék-annotációk lekérdezését, megtalálását és megjelenítését. Ezen kívül az alkalmazás tartalmazza a BLAST eszközt (ami az AmiGO 1-ben elérhető, az AmiGO 2-ben eltávolították), a nagy adathalmazok elemzését lehetővé tevő szolgáltatásokat és egy interfészt a GO adatbázisban való közvetlen kereséshez [14] . Az AmiGO online használható a Gene Ontology webhelyen a GO Konzorcium által biztosított adatok eléréséhez, vagy letölthető és telepíthető helyi alkalmazáshoz bármely GO-stílusú adatbázisba. Az AmiGO 2 egy nyílt forráskódú és ingyenes szoftver .
A vizualizáció lehetőséget ad a felhasználónak olyan grafikon felépítésére, amely egy adott GO kifejezés génontológiáját jellemzi. Két beviteli formátum létezik [15] :
JSON beviteli példa:
{"GO:0002244":{"title": "foo", "test": "bár", "fill": "#ccccf", "font": "#0000ff", "border":"red"}, "GO:0005575":{"title":"egyedül", "test":""}, "GO:0033060":{}}A színnel való kapcsolat kódolása:
Hozzáállás | Szín |
---|---|
egy | kék |
része | világoskék |
fejlődik_ból | barna |
szabályozza | fekete |
negatívan_szabályozza | piros |
pozitívan_szabályozza | zöld |
A terminus vizualizálása egy gráf felépítéséből áll az eredeti GO kifejezést reprezentáló csomópontból egy gyökércsomópontig, amelyet a három fő szókincs egyikének neve jelöl: biológiai folyamatok , molekuláris funkciók és sejtkomponensek [1] [9] .
Adatok áttekintéseAmellett, hogy képes egy kifejezés GO gén ontológiáját megjelenítő grafikonok létrehozására, az AmiGO számos olyan eszközt is megvalósít, amely képet ad a felhasználónak a projekt GO adatairól. Köztük [14] :
A GOOSE [16] egy online SQL lekérdező környezet , amely az AmiGO szolgáltatás felhasználói számára elérhető adatkészletek létrehozásához. Ez a szolgáltatás SQL szintaxist használ a GO adatbázis különböző lekérdezéseihez. EBI (Egyesült Királyság, Cambridge), Berkeley BOP és Berkeley BOP (lite) tükrök (mindkettő a kaliforniai Berkeleyben található) szintén elérhetők a rendszerterhelés csökkentése érdekében.
A lekérdezés kézi írása mellett lehetőség van sablonok használatára a feladat részleges egyszerűsítésére. Az alábbiakban egy tipikus adatbázis-lekérdezés látható (a cellás komponens maximális famélységének keresése) [16] :
SELECT távolságnak max. graph_path, term WHERE graph_path.term2_id =term.id és term.term_type = 'celluláris_komponens' RENDELÉS távolság szerint limit1;A GO adatbázisa összetett felépítésű, és sok táblázatból áll. Főbb adatbázisok [16] :
A következő adatexportálási formátumok lehetségesek egy lekérdezés eredményeként [16] :
A PANTHER ( P protein Analysis TH rough Evolutionary R relationships ) a hozzájuk funkcionálisan hasonló gén/fehérje családok és alcsaládok hatalmas adatbázisa, amely a géntermékek funkcionális spektrumának osztályozására használható [ 17] . A PANTHER a GO projekt része, melynek fő célja a fehérjék és génjeik osztályozása.
A PANTHER-ben az adatbázist nem csak a projekt munkatársai szerkesztik, hanem az osztályozási algoritmusok is. A fehérjéket családjuk (és alcsaládjuk), molekuláris funkciójuk vagy biológiai folyamatuk szerint osztályozzák [17] .
A PANTHER fő alkalmazása a megmagyarázhatatlan gének funkcióinak tisztázása bármely szervezetben az evolúciós kapcsolataik alapján, amelyeknek a funkciója ismert az adatbázisban. Génfunkciók, ontológia és statisztikai elemzési módszerek segítségével a PANTHER lehetővé teszi a biológusok számára, hogy nagy adatokat, szekvenálási vagy génexpressziós vizsgálatokkal nyert teljes genomokat elemezzenek [18] .
A PANTHER webhelyen [18] elérhető főbb eszközök a következők:
A GO Slimmer [19] egy olyan eszköz, amely részletes génkészlet-annotációkat térképez fel egy vagy több magasabb szintű szülői kifejezéshez (GO slim kifejezések). A GO slim kifejezések a GO ontológia csonkolt változatai, amelyek a teljes GO kifejezések egy részhalmazát tartalmazzák bizonyos alacsony szintű kifejezések részletes leírása nélkül.
A GO Slimmer használata lehetővé teszi GO genom annotációk bemutatását, expressziós microarray-ek eredményeinek elemzését, vagy komplementer DNS-gyűjteményeket, amikor a géntermékek funkcióinak kiterjedt osztályozására van szükség [19] .
Ennek az algoritmusnak az eredményét három oszlop ábrázolja [19] :
Ennek az eszköznek az AmiGO verziója a map2slim [19] Perl szkriptben van megírva . A projekt kurátorai megjegyzik, hogy a GO slimmer szolgáltatás jelenleg be van töltve, és a lenyűgöző méretű bemeneti adatok hátrányosan befolyásolhatják a működését. A bemeneti szekvenciák feldolgozására szolgáló szolgáltatás működési ideje korlátozott.
BLASTA BLAST ( Basic L ocal Alignment Search Tool ) számítógépes programok családja , amelyek olyan fehérjék vagy nukleinsavak homológjait keresik, amelyek szekvenciája ismert, igazítás segítségével. A BLAST segítségével a kutató összehasonlíthatja a birtokában lévő szekvenciát az adatbázisból származó szekvenciákkal, és megtalálhatja az adotthoz leginkább hasonlót, amelyek a feltételezett homológok lesznek.
Ennek az eszköznek az AmiGO 1-ben való megvalósítását a St. Louis-i Washington Egyetem (St. Louis-i Washington Egyetem) által kifejlesztett WU-BLAST csomag formájában mutatjuk be. [húsz]
Az AmiGO 2-ben ezt az eszközt (GO BLAST) eltávolították, de használhatja a keresést az AmiGO 1 -ben . Az eszköz lehetővé teszi a keresési eredmények szűrését géntermék, adatbázis, taxonómiai hovatartozás, GO szótár, OBO annotáció szerint.
Term MatrixA Term Matrix [21] (kifejezések mátrixa) egy AmiGO eszköz a kifejezések géntermelésének hasonlóságára vonatkozó információk tanulmányozására. Munkája eredménye egy mátrix, amelynek elemei egy adott GO kifejezéspárhoz annotált géntermékek száma. A [21] függvény használatához meg kell adnia a GO azonosítók listáját, hogy látni lehessen a közös megjegyzéseket – a közös géntermékek számát a kifejezéspárok szerint. Lehetőség van konkrét fajok vagy taxonok megadására. A hőtérkép színezése történhet feketétől fehérig történő gradáció formájában, vagy a térkép szabványos palettájával.
Az OBO-Edit [22] egy nyílt forráskódú ontológiaszerkesztő, amelyet a GO Consortium fejlesztett és karbantart. Java nyelven van megvalósítva, és gráf alapú megközelítést használ az ontológiák megjelenítésére és szerkesztésére. Az OBO-Edit felhasználóbarát kereső- és szűrőfelülettel rendelkezik, amely lehetővé teszi a GO kifejezések részhalmazainak megjelenítését és elkülönítését. A felület testreszabható a felhasználó igényei szerint. Az OBO-Edit lehetővé teszi új kapcsolatok automatikus létrehozását is a meglévő kapcsolatok és tulajdonságaik alapján. Bár az OBO-Edit-et orvosbiológiai ontológiákhoz fejlesztették ki, bármilyen ontológia megtekintésére és szerkesztésére használható.
A PAINT [23] ( Phylogenetic Annotation and IN ference Tool ) egy JAVA alkalmazás, amely a Reference Genome Annotation Project része, és a „ tranzitív annotáció ” elvén alapul. A tranzitív annotáció fogalma abból áll, hogy az egyik gén kísérletileg megállapított funkcióját hozzárendeljük a másikhoz, nukleotidszekvenciáik hasonlósága miatt.
A PAINT segítségével a felhasználó felfedezheti egy adott családból származó gének kísérleti annotációit, és felhasználhatja ezeket az információkat arra, hogy új megjegyzésekre következtessen a még nem kellőképpen feltárt géncsalád tagjaira vonatkozóan [3] . A PAINT eszköz lehetővé teszi olyan modell felépítését, amely megmagyarázza egy adott génfunkció öröklődését vagy elvesztését a filogenetikai fák egyes ágain belül . Az ezzel a modellel generált új megjegyzésekre Biológiai ősökből következtetve (Inferred from Biological Ancestry, IBA) [1] hivatkozunk .
Ez az alkalmazás ingyenesen letölthető a Githubon.