GENCODE | |
---|---|
Tartalom | |
Leírás | Gének és génváltozatok enciklopédiája |
Adattípus | Humán és egér gének annotációi GTF/GFF3 formátumban |
Kapcsolatok | |
Kutatóközpont | Sanger Institute (Welcome Trust Sanger Institute) |
A szerzők | Harrow J és munkatársai [1] |
Kiadási dátum | 2012. szeptember |
Elérhetőség | |
Weboldal | GENCODE |
Egyéb | |
Engedély | Nyílt hozzáférésű |
Kiadási gyakoriság |
Humán genom - 3 havonta egyszer Egér genom - 6 havonta egyszer |
Változat | GENCODE 28 (humán genom), M17 (egér genom) |
A GENCODE egy genomikai kutatási projekt, amely az Encyclopedia of DNA Elements (ENCODE) [2] projekt része .
A GENCODE-ot az ENCODE projekt kísérleti szakaszának részeként hozták létre, hogy azonosítsák és feltérképezzék az összes fehérjét kódoló gént az ENCODE könyvtárból [3] . Most a projekt célja, hogy a gének és variánsaik enciklopédiáját hozzon létre a humán és egér genomban található szerkezeti jellemzőik teljes leírásával , számítógépes analízis, kézi annotáció és kísérleti ellenőrzés módszereivel [4] .
A projekt végső célja egy olyan annotációs bázis létrehozása, amely magában foglalja az összes fehérjét kódoló lókuszt alternatív transzkriptumokkal [5] , a nem kódoló lókuszt a detektált transzkriptumokkal [6] és a pszeudogéneket [7] .
2003 szeptemberében a Nemzeti Humán Genomkutató Intézet ( NHGRI ) elindította az ENCODE nyilvános kutatókonzorciumot , hogy az emberi genom összes funkcionális elemét azonosítsa. Ez a projekt az Egyesült Államok Nemzeti Egészségügyi Szervezete ( NIH ) által 1990- ben elindított Human Genome Project [ 8] folytatása . A projekt célja az emberi DNS- szekvencia megfejtése volt . 2003-ban publikálták az eredményeket, és a tudományos közösség érdeklődését fejezte ki az emberi genom funkcionális elemeinek tanulmányozása iránt, hogy jobban megértsék egyes betegségek kialakulásának mechanizmusait. Ennek érdekében indították el az ENCODE projektet. Három szakaszra oszlott: a pilot (kezdeti) szakaszra, a módszertan kidolgozására és a produktív szakaszra [9] . A kísérleti szakaszban a humán genomból mintegy 30 Mb vizsgálatát tervezték , és a kapott eredményeket a jövőben figyelembe veszik az emberi genom többi részének elemzésekor [9] . Az ismert fehérjekódoló gének feltérképezésére a genom ezen fragmentumára létrehozták a GENCODE projektet [3] .
2005 áprilisában adták ki a GENCODE első változatát az emberi genom 44 lókuszához annotálva [3] . 416 ismert genomi lókuszt, 26 új fehérjét kódoló lókuszt, 82 átírt és 170 pszeudogén lókuszt írt le . A második kiadás (2005. október 14.) frissítette és megerősítette a korábban jegyzett lókuszokkal kapcsolatos információkat, főként a RACE és RT-PCR kísérleti adatainak köszönhetően [3] .
2007 júniusában befejeződött az ENCODE kísérleti szakasza [10] . A projektet sikeresnek tekintették, és a Welcome Trust Sanger Institute támogatást kapott az NHGRI-től a GENCODE projekt kiterjesztésére [11] .
2012-ben jelent meg a GENCODE 7 legnagyobb kiadása (a 2011. decemberi adatok alapján), amely egyesítette az automatikus Ensembl annotációt és a kézi annotációt. 2013 óta a GENCODE második támogatásban részesült az emberi genom annotációjával, valamint az egér genom annotációjával kapcsolatos munka folytatására az egér és az emberi genom összehasonlító vizsgálatához [11] .
2018 áprilisában megjelent a GENCODE 28 (2017 novemberéig feldolgozott adatokat tartalmaz) [12] .
A GENCODE projektben megoldott feladatok a genetikai ismeretek bővülésével a tudományos közösség előtt merültek fel. Ezek a feladatok főszabály szerint a genetikai terminusok definícióinak pontosításával és a korábban nem alapos vizsgálatnak alávetett genomiális régiók funkcióinak vizsgálatával kapcsolódtak. Az alábbiakban példákat mutatunk be a GENCODE [11] -en belül feltárt érdekes kérdésekre és témákra .
A „ gén ” fogalmának meghatározásának feladata a tudósok előtt áll mindvégig, mióta a kutatók az öröklődés kérdésein gondolkodnak. Az 1900-as években a gént az öröklődés egyfajta diszkrét egységének tekintették, majd a gént kezdték a fehérje bioszintézis alapjául tekinteni , és az utóbbi időben ezt a fogalmat kiterjesztették egy RNS -be átírt genomi fragmentumra [13] . Bár a gén meghatározása jelentősen fejlődött az elmúlt évszázad során, sok tudós számára összetett és ellentmondásos téma maradt. Az ENCODE projektek és különösen a GENCODE fejlesztése során a definíció még problémásabb aspektusait is részletesebben leírták - mint például az alternatív splicing , intergénikus régiók, valamint a szórt szabályozás bonyolult mintái , a nem kódoló régiók konzervativizmusa. és a nem kódoló RNS-t termelő gének bősége . Mivel a GENCODE projekt globális célja a gének és génváltozatok enciklopédiájának létrehozása, ezek a problémák azt az igényt támasztották, hogy a projekt frissített definíciót adjon a gén fogalmára [13] .
A pszeudogének olyan fehérjét kódoló (vagy hasonló) DNS-szekvenciák, amelyekben deléció vagy kereteltolódás történt [14] . A legtöbb genomi adatbázisban ismertebb fehérjekódoló szekvenciák annotációs melléktermékeiként szerepelnek. A közelmúltbeli elemzések azonban kimutatták, hogy a pszeudogén némelyike nem csak expresszálódik, hanem funkcionál is, és szerepet játszik különböző biológiai folyamatokban [15] . A pszeudogének leírásának bonyolultságára a GENCODE-on belül a kutatók automatizált, manuális és kísérleti módszerekkel létrehozták a pszeudogének ontológiáját, hogy összekapcsolják különböző tulajdonságaikat, beleértve a szekvenciatulajdonságokat, az evolúciót és a lehetséges biológiai funkciót [4] . Az annotált pszeudogének száma a GENCODE minden egyes új verziójával nő (lásd a fő statisztikákat ).
A GENCODE projekt egyik kiemelt kutatási területe a hosszú, nem kódoló RNS (lncRNS) biológiai jelentőségének vizsgálata. Az emberi lncRNS-expresszió jobb megértése és tanulmányozása érdekében a GENCODE-on belül elindítottak egy alprojektet, amelynek célja egyedi microarray-k kifejlesztése volt az ilyen transzkriptumok számszerűsítésére az lncRNS annotációban [6] . Számos ilyen platform készült az Agilent Technologies eArray rendszerrel, és szabványos Agilent formátumban érhetők el [ 16] .
A GENCODE-ban (különösen a GENCODE 7-es verziójában) bemutatott, hosszú, nem kódoló RNS-ek adatkészlete a legnagyobb az összes bemutatott lncRNS-adatkészlet közül. Ugyanakkor alig van átfedésben más meglévő adatkészletekkel [6] . Az lncRNS-ként jegyzett transzkriptumok a következő típusokba sorolhatók a genomban elfoglalt helyük alapján a fehérjét kódoló génekhez képest:
A táblázat azokat az intézményeket mutatja, amelyek részvételét a GENCODE honlapján bejelentették [18] .
Kísérleti fázis | Projekt méretezés | Második fázis (folyamatban) |
---|---|---|
Sanger Institute , Cambridge, Egyesült Királyság | Sanger Institute , Cambridge, Egyesült Királyság | Sanger Institute , Cambridge, Egyesült Királyság |
Városi Orvosi Kutatóintézet (IMIM), Barcelona, Katalónia | Genomikai Szabályozási Központ ( CRG ), Barcelona, Katalónia | Genomikai Szabályozási Központ ( CRG ), Barcelona, Katalónia |
Genfi Egyetem , Svájc | Lausanne-i Egyetem , Svájc | Lausanne-i Egyetem , Svájc |
Kaliforniai Egyetem , Berkeley, USA | Santa Cruz Egyetem ( UCSC ), Kalifornia, USA | Santa Cruz Egyetem ( UCSC ), Kalifornia, USA |
Európai Bioinformatikai Intézet, Hinkston, Egyesült Királyság | Massachusetts Institute of Technology (MIT), Boston, USA | Massachusetts Institute of Technology (MIT), Boston, USA |
Yale Egyetem , New Haven, Egyesült Államok | Yale Egyetem , New Haven, Egyesült Államok | |
Spanyol Nemzeti Rákkutató Központ ( CNIO ), Madrid, Spanyolország | Spanyol Nemzeti Rákkutató Központ ( CNIO ), Madrid, Spanyolország | |
Washingtoni Egyetem ( WashU ), St. Louis, USA | Európai Bioinformatikai Intézet , Cambridge, Egyesült Királyság |
A GENCODE annotációkban található adatok teljessége folyamatosan növekszik. Az alábbiakban a GENCODE 28-as verzió [19] statisztikáit közöljük . Ez a verzió megfelel az Ensembl 92 kiadásnak, és tartalmaz egy megjegyzést, amely a GRCh38 emberi genom összeállításhoz készült , de elérhető a GRCh37 szerelvényhez is .
Kategóriák | Teljes | Kategóriák | Teljes |
---|---|---|---|
A gének teljes száma | 58 381 | Összes átirat | 203 835 |
Fehérjekódoló gének | 19 901 | Fehérjekódoló átiratok: | 82 335 |
Hosszú, nem kódoló RNS gének | 15 779 | - teljes fehérjét kódol | 56 541 |
Kis, nem kódoló RNS gének | 7 569 | - fehérjefragmenst kódol | 25 794 |
Pszeudogének : | 14 723 | Nonszensz által közvetített bomlási átiratok | 14 889 |
- feldolgozott pszeudogének | 10 693 | Hosszú, nem kódoló RNS-lókuszok átiratai | 28 468 |
- nyers pszeudogének | 3 519 | ||
- egységes pszeudogének | 218 | ||
- polimorf pszeudogének | 38 | ||
- pszeudogének | tizennyolc | ||
Immunglobulin T-sejt receptor génszegmensek : | 645 | Különálló megjegyzések teljes száma | 61 132 |
- fehérjét kódoló szegmensek | 408 | Egynél több megjegyzéssel rendelkező gének száma | 13 641 |
- pszeudogének | 237 |
A GENCODE négy fő kiadásának összehasonlító statisztikái a jobb oldali grafikonon láthatók [20] .
Az adatok arra utalnak, hogy a genom lefedettsége (a detektált és annotált lókuszok száma) folyamatosan növekszik. Ezzel párhuzamosan csökken a fehérjét kódoló gének aránya az annotáltak között, elsősorban a poli(A) -hely annotáció és a génexpressziós sapka analízis ( CAGE ) eredményeinek köszönhetően [4] . Ezzel egyidejűleg a hosszú, nem kódoló RNS- ekkel annotált pszeudogének és lókuszok száma növekszik .
A GENCODE projekt kézi és automatikus annotációt használt. Az eredmények ellenőrzéséhez laboratóriumi kísérletek adatait [21] használtuk fel .
Az Ensembl -átiratokról az automatikus génannotációval nyert információk nyilvános adatbázisokból származó fehérje- és mRNS-szekvenciákra vonatkozó kísérleti adatokon alapultak [22] . A fehérjét kódoló régiók mellett a nem transzlált régiókat, a hosszú, nem kódoló RNS-eket és a rövid, nem kódoló RNS-eket annotáltuk [4] .
A HAVANA (Human and Vertebrate Analysis and Annotation) egy kutatócsoport, amely a GENCODE projektben [3] [4] kézi átírás-annotációt végez .
A HAVANA-csoporton kívül a GENCODE konzorcium számos más csoportot is magában foglalt, amelyek az annotált lókuszokat Ensembl programokkal elemezték, és segítettek a jegyzőket a hiányzó vagy helytelenül jegyzett lókuszok azonosításában, beleértve az illesztési helyeket is . Az AnnoTrack [24] nyomkövető rendszert használták a csoportok közötti információcserére . Az eljárás során RNS-szekvenálási kísérletek , CAGE és Ditag adatait is felhasználták [25] .
A projektben hivatalosan részt vevő csoportokon kívül független kutatók is dolgoztak a GENCODE annotáció minőségének javításán [26] .
Összevonva az összes automatikus és kézi annotációval generált átírási modellt összehasonlították az átfedő átiratok tekintetében. A talált eltéréseket az AnnoTrack rendszer [4] segítségével észleltük .
Az automatikus annotáció nem mindig tekinthető helyesnek (például az automatikus annotáció eseteinek csak 45%-ában jósolják meg helyesen az összes alternatív átiratot [4] ). Az annotáció eltérése esetén a HAVANA annotáció részesült előnyben, mivel a manuális annotáció összetett esetekben a genomikai kontextus, az irodalom elemzését és a Mus musculus kísérleti adatok felhasználását jelentette . Ilyen esetekben azonban a mindkét megjegyzési módszerrel nyert információ megmarad [4] .
Az átiratokhoz a GENCODE-transzkriptumnak az Ensembl -től és az UCSC -től kapott mRNS- illesztési és expressziós markerszekvenciákkal (EST) való összehasonlítása alapján van hozzárendelve egy támogatási szint . Ennek eredményeként az egyes átiratok annotációi manuálisan definiált, automatikusan definiált vagy összevont annotációkra oszlanak, vagyis olyanokra, amelyeknél az automatikus módszer és a kézi annotációs módszer is ugyanazt az eredményt adta [4] .
Az emberi szövetek ( agy , szív , vese , here , máj , lép , tüdő és vázizomzat ) kettős szálú cDNS-eit cDNS - amplifikációval állítottuk elő . A tisztított DNS-t egy genomiális könyvtár létrehozására használták fel az Illumina "Genomic DNA sample prep kit" segítségével. A könyvtárat az Illumina Genome Analyzer 2 platformon szekvenáltuk , a Reed-eket (mindegyik 35 vagy 75 nt ) a hg19 összeállítás referencia humán genomjához térképeztük, és a Bowtie szoftver segítségével megjósoltuk az amplikonokat . Az átiratokat csak olyan leolvasások validálták, amelyek egyértelműen a genomhoz kapcsolódnak. Az exon junction helyek akkor tekinthetők megbízhatónak, ha legalább 10 leolvasást térképeztek fel, amelyek legalább 4 (35 nukleotid hosszú leolvasás esetén) vagy 8 (75 nukleotid hosszú leolvasás esetén) nukleotidot tartalmaztak mind a két exonban, amelyeket egy splicing hely választ el [4] .
Egyéb megközelítésekAz APPRIS (CNIO) webszolgáltatást használták az alternatív génátiratok megjegyzésére . Az APPRIS a gén fehérjetermékére és a közeli rokon fajok ortológjaira vonatkozó információk alapján egy változatot választ ki "fő izoformának" . Az APPRIS-t széles körben használták az ENCODE projekt felnagyításában és más fajok ( Mus sp. , Danio sp. , Rattus sp. ) genomjának annotálásában [27] .
A PhyloCSF programot használták kódoló szekvenciák keresésére az RNS szekvenálási adatokból automatikusan megjósolt transzkriptumokban. Evolúciós mintázatelemzésen alapul, amely a transzkriptumot az UCSC gerinces exonjaihoz igazítja (beleértve 33 placentális emlőst) [4] .
A GENCODE-ban található emberi génkészlet jelenlegi verziója annotációs fájlokat ( GTF és GFF3 formátumban ), FASTA fájlokat és METADATA fájlokat tartalmaz, amelyek a GENCODE annotációhoz vannak társítva minden genomiális régióhoz [12] . Korrelációban állnak a referencia kromoszómával , és külön fájlokban tárolják, amelyek tartalmazzák: génannotációt , a HAVANA csoport által jegyzett poliadenilációs helyeket , a Yale Egyetem és a Santa Cruz Egyetem (USA) algoritmusai által megjósolt pszeudogéneket , hosszú, nem kódoló RNS-eket, és a tRNS-Scan által megjósolt tRNS -struktúrák [12] .
A GENCODE adatkészletben lévő összes gén a megjegyzés típusa szerint három kategóriába sorolható [4] :
A gének és az átiratok az "ismert", "új" és "feltételezett" státuszhoz vannak rendelve attól függően, hogy más nagyobb adatbázisokban milyen reprezentációt mutatnak, és milyen alapokat használnak az őket alkotó átiratok létrehozásához [4] .
Ismert: Jelen van a HUGO Gene Nomenclature Committee (HGNC) és a RefSeq [4] adatbázisokban .
Újdonság : Nem található meg a HGNC vagy a RefSeq adatbázisokban, de jól alátámasztja akár az adott lókuszra jellemző átirat, akár a paralóg vagy ortológ lókuszban való jelenlétének bizonyítéka [4] .
Feltételezett: Nem található meg a GNNC vagy a RefSeq adatbázisokban, de egy rövidebb és ritkább átirat létezésére vonatkozó bizonyítékok alátámasztják [4] .
Az Ensembl projekt az ENCODE projekt fontos része, és egy genomböngésző, amely lehetővé teszi a genom összeállítását és az ENCODE projekt összes adatát, különösen a GENCODE projektben megjelölt genomi régiókat [28] .
Az RGASP (The RNA-seq Genome Annotation Assessment Project) a GENCODE konzorcium keretein belül szervezett projekt az EGASP (ENCODE Genome Annotation Assessment Project) gén-előrejelzéssel foglalkozó workshopja után. Két munkaértekezletet tartottak az RNS-szekvenálás eredményeinek elemzésére , valamint annak különböző (módszertani és technikai) vonatkozásaira. A projekt első két szakaszának egyik legjelentősebb megállapítása az olvasás és a kapott gén-előrejelzés minőségének összefüggésének fontossága volt. 2014-ben került megrendezésre az RGASP workshopok harmadik szekciója, ahol a fő hangsúly a genom leolvasásának feltérképezésén volt. A projekt szoftvert biztosított az átirat annotációjához (detektálás, rekonstrukció és az átiratok számának kiszámítása) [29] .