GENCODE

GENCODE
Tartalom
Leírás Gének és génváltozatok enciklopédiája
Adattípus Humán és egér gének annotációi GTF/GFF3 formátumban
Kapcsolatok
Kutatóközpont Sanger Institute (Welcome Trust Sanger Institute)
A szerzők Harrow J és munkatársai [1]
Kiadási dátum 2012. szeptember
Elérhetőség
Weboldal GENCODE
Egyéb
Engedély Nyílt hozzáférésű
Kiadási gyakoriság Humán genom - 3 havonta
egyszer Egér genom - 6 havonta egyszer
Változat GENCODE 28 (humán genom), M17 (egér genom)

A GENCODE  egy genomikai kutatási projekt, amely az Encyclopedia of DNA Elements (ENCODE) [2] projekt része .

A GENCODE-ot az ENCODE projekt kísérleti szakaszának részeként hozták létre, hogy azonosítsák és feltérképezzék az összes fehérjét kódoló gént az ENCODE könyvtárból [3] . Most a projekt célja, hogy a gének és variánsaik enciklopédiáját hozzon létre a humán és egér genomban található szerkezeti jellemzőik teljes leírásával , számítógépes analízis, kézi annotáció és kísérleti ellenőrzés módszereivel [4] .

A projekt végső célja egy olyan annotációs bázis létrehozása, amely magában foglalja az összes fehérjét kódoló lókuszt alternatív transzkriptumokkal [5] , a nem kódoló lókuszt a detektált transzkriptumokkal [6] és a pszeudogéneket [7] .

Történelem

2003 szeptemberében a Nemzeti Humán Genomkutató Intézet ( NHGRI ) elindította az ENCODE nyilvános kutatókonzorciumot , hogy az emberi genom összes funkcionális elemét azonosítsa. Ez a projekt az Egyesült Államok Nemzeti Egészségügyi Szervezete ( NIH ) által 1990- ben elindított Human Genome Project [ 8] folytatása . A projekt célja az emberi DNS- szekvencia megfejtése volt . 2003-ban publikálták az eredményeket, és a tudományos közösség érdeklődését fejezte ki az emberi genom funkcionális elemeinek tanulmányozása iránt, hogy jobban megértsék egyes betegségek kialakulásának mechanizmusait. Ennek érdekében indították el az ENCODE projektet. Három szakaszra oszlott: a pilot (kezdeti) szakaszra, a módszertan kidolgozására és a produktív szakaszra [9] . A kísérleti szakaszban a humán genomból mintegy 30 Mb vizsgálatát tervezték , és a kapott eredményeket a jövőben figyelembe veszik az emberi genom többi részének elemzésekor [9] . Az ismert fehérjekódoló gének feltérképezésére a genom ezen fragmentumára létrehozták a GENCODE projektet [3] .  

2005 áprilisában adták ki a GENCODE első változatát az emberi genom 44 lókuszához annotálva [3] . 416 ismert genomi lókuszt, 26 új fehérjét kódoló lókuszt, 82 átírt és 170 pszeudogén lókuszt írt le . A második kiadás (2005. október 14.) frissítette és megerősítette a korábban jegyzett lókuszokkal kapcsolatos információkat, főként a RACE és RT-PCR kísérleti adatainak köszönhetően [3] .

2007 júniusában befejeződött az ENCODE kísérleti szakasza [10] . A projektet sikeresnek tekintették, és a Welcome Trust Sanger Institute támogatást kapott az NHGRI-től a GENCODE projekt kiterjesztésére [11] .

2012-ben jelent meg a GENCODE 7 legnagyobb kiadása (a 2011. decemberi adatok alapján), amely egyesítette az automatikus Ensembl annotációt és a kézi annotációt. 2013 óta a GENCODE második támogatásban részesült az emberi genom annotációjával, valamint az egér genom annotációjával kapcsolatos munka folytatására az egér és az emberi genom összehasonlító vizsgálatához [11] .

2018 áprilisában megjelent a GENCODE 28 (2017 novemberéig feldolgozott adatokat tartalmaz) [12] .

Feladatok

A GENCODE projektben megoldott feladatok a genetikai ismeretek bővülésével a tudományos közösség előtt merültek fel. Ezek a feladatok főszabály szerint a genetikai terminusok definícióinak pontosításával és a korábban nem alapos vizsgálatnak alávetett genomiális régiók funkcióinak vizsgálatával kapcsolódtak. Az alábbiakban példákat mutatunk be a GENCODE [11] -en belül feltárt érdekes kérdésekre és témákra .

A "gén" kifejezés meghatározása

A „ gén ” fogalmának meghatározásának feladata a tudósok előtt áll mindvégig, mióta a kutatók az öröklődés kérdésein gondolkodnak. Az 1900-as években a gént az öröklődés egyfajta diszkrét egységének tekintették, majd a gént kezdték a fehérje bioszintézis alapjául tekinteni , és az utóbbi időben ezt a fogalmat kiterjesztették egy RNS -be átírt genomi fragmentumra [13] . Bár a gén meghatározása jelentősen fejlődött az elmúlt évszázad során, sok tudós számára összetett és ellentmondásos téma maradt. Az ENCODE projektek és különösen a GENCODE fejlesztése során a definíció még problémásabb aspektusait is részletesebben leírták - mint például az alternatív splicing , intergénikus régiók, valamint a szórt szabályozás bonyolult mintái , a nem kódoló régiók konzervativizmusa. és a nem kódoló RNS-t termelő gének bősége . Mivel a GENCODE projekt globális célja a gének és génváltozatok enciklopédiájának létrehozása, ezek a problémák azt az igényt támasztották, hogy a projekt frissített definíciót adjon a gén fogalmára [13] .

Pseudogenes

A pszeudogének olyan fehérjét kódoló (vagy hasonló) DNS-szekvenciák, amelyekben deléció vagy kereteltolódás történt [14] . A legtöbb genomi adatbázisban ismertebb fehérjekódoló szekvenciák annotációs melléktermékeiként szerepelnek. A közelmúltbeli elemzések azonban kimutatták, hogy a pszeudogén némelyike ​​nem csak expresszálódik, hanem funkcionál is, és szerepet játszik különböző biológiai folyamatokban [15] . A pszeudogének leírásának bonyolultságára a GENCODE-on belül a kutatók automatizált, manuális és kísérleti módszerekkel létrehozták a pszeudogének ontológiáját, hogy összekapcsolják különböző tulajdonságaikat, beleértve a szekvenciatulajdonságokat, az evolúciót és a lehetséges biológiai funkciót [4] . Az annotált pszeudogének száma a GENCODE minden egyes új verziójával nő (lásd a fő statisztikákat ).

Hosszú, nem kódoló RNS (lncRNS)

A GENCODE projekt egyik kiemelt kutatási területe a hosszú, nem kódoló RNS (lncRNS) biológiai jelentőségének vizsgálata. Az emberi lncRNS-expresszió jobb megértése és tanulmányozása érdekében a GENCODE-on belül elindítottak egy alprojektet, amelynek célja egyedi microarray-k kifejlesztése volt az ilyen transzkriptumok számszerűsítésére az lncRNS annotációban [6] . Számos ilyen platform készült az Agilent Technologies eArray rendszerrel, és szabványos Agilent formátumban érhetők el [ 16] .

A GENCODE-ban (különösen a GENCODE 7-es verziójában) bemutatott, hosszú, nem kódoló RNS-ek adatkészlete a legnagyobb az összes bemutatott lncRNS-adatkészlet közül. Ugyanakkor alig van átfedésben más meglévő adatkészletekkel [6] . Az lncRNS-ként jegyzett transzkriptumok a következő típusokba sorolhatók a genomban elfoglalt helyük alapján a fehérjét kódoló génekhez képest:

  1. Antiszensz RNS : olyan lókusz, amelyre vonatkozóan legalább egy transzkriptumot találtak, amely átfedésben van egy fehérjét kódoló gén exonjával az ellenkező szálon, vagy bármely gén antiszensz szabályozására vonatkozóan publikáltak adatok;
  2. Hosszú intergénikus, nem kódoló RNS ( lincRNS [17] );
  3. "Átfedő": egy fehérjét kódoló gént tartalmazó lókusz egy intronban, ugyanazon a szálon;
  4. "Intron": egy intronon belül elhelyezkedő lókusz, amely nem fedi át ugyanazon a szálon lévő exonokkal;
  5. Feldolgozott transzkriptum: olyan lókusz, amelynek egyetlen átirata sem tartalmaz nyitott olvasási keretet , és amely összetett szerkezete miatt nem rendelhető egyik korábbi kategóriához sem.

Fő közreműködők

A táblázat azokat az intézményeket mutatja, amelyek részvételét a GENCODE honlapján bejelentették [18] .

Kísérleti fázis Projekt méretezés Második fázis (folyamatban)
Sanger Institute , Cambridge, Egyesült Királyság Sanger Institute , Cambridge, Egyesült Királyság Sanger Institute , Cambridge, Egyesült Királyság
Városi Orvosi Kutatóintézet (IMIM), Barcelona, ​​Katalónia Genomikai Szabályozási Központ ( CRG ), Barcelona, ​​Katalónia Genomikai Szabályozási Központ ( CRG ), Barcelona, ​​Katalónia
Genfi Egyetem , Svájc Lausanne-i Egyetem , Svájc Lausanne-i Egyetem , Svájc
Kaliforniai Egyetem , Berkeley, USA Santa Cruz Egyetem ( UCSC ), Kalifornia, USA Santa Cruz Egyetem ( UCSC ), Kalifornia, USA
Európai Bioinformatikai Intézet, Hinkston, Egyesült Királyság Massachusetts Institute of Technology (MIT), Boston, USA Massachusetts Institute of Technology (MIT), Boston, USA
Yale Egyetem , New Haven, Egyesült Államok Yale Egyetem , New Haven, Egyesült Államok
Spanyol Nemzeti Rákkutató Központ ( CNIO ), Madrid, Spanyolország Spanyol Nemzeti Rákkutató Központ ( CNIO ), Madrid, Spanyolország
Washingtoni Egyetem ( WashU ), St. Louis, USA Európai Bioinformatikai Intézet , Cambridge, Egyesült Királyság

Alapstatisztika

A GENCODE annotációkban található adatok teljessége folyamatosan növekszik. Az alábbiakban a GENCODE 28-as verzió [19] statisztikáit közöljük . Ez a verzió megfelel az Ensembl 92 kiadásnak, és tartalmaz egy megjegyzést, amely a GRCh38 emberi genom összeállításhoz készült , de elérhető a GRCh37 szerelvényhez is .

Kategóriák Teljes Kategóriák Teljes
A gének teljes száma 58 381 Összes átirat 203 835
Fehérjekódoló gének 19 901 Fehérjekódoló átiratok: 82 335
Hosszú, nem kódoló RNS gének 15 779 - teljes fehérjét kódol 56 541
Kis, nem kódoló RNS gének 7 569 - fehérjefragmenst kódol 25 794
Pszeudogének : 14 723 Nonszensz által közvetített bomlási átiratok 14 889
- feldolgozott pszeudogének 10 693 Hosszú, nem kódoló RNS-lókuszok átiratai 28 468
- nyers pszeudogének 3 519
- egységes pszeudogének 218
- polimorf pszeudogének 38
- pszeudogének tizennyolc
Immunglobulin T-sejt receptor génszegmensek : 645 Különálló megjegyzések teljes száma 61 132
- fehérjét kódoló szegmensek 408 Egynél több megjegyzéssel rendelkező gének száma 13 641
- pszeudogének 237

A GENCODE verziók összehasonlítása

A GENCODE négy fő kiadásának összehasonlító statisztikái a jobb oldali grafikonon láthatók [20] .

Az adatok arra utalnak, hogy a genom lefedettsége (a detektált és annotált lókuszok száma) folyamatosan növekszik. Ezzel párhuzamosan csökken a fehérjét kódoló gének aránya az annotáltak között, elsősorban a poli(A) -hely annotáció és a génexpressziós sapka analízis ( CAGE ) eredményeinek köszönhetően [4] . Ezzel egyidejűleg a hosszú, nem kódoló RNS- ekkel annotált pszeudogének és lókuszok száma növekszik .

Módszertan

A GENCODE projekt kézi és automatikus annotációt használt. Az eredmények ellenőrzéséhez laboratóriumi kísérletek adatait [21] használtuk fel .

Automatikus megjegyzés (ENSEMBL)

Az Ensembl -átiratokról az automatikus génannotációval nyert információk nyilvános adatbázisokból származó fehérje- és mRNS-szekvenciákra vonatkozó kísérleti adatokon alapultak [22] . A fehérjét kódoló régiók mellett a nem transzlált régiókat, a hosszú, nem kódoló RNS-eket és a rövid, nem kódoló RNS-eket annotáltuk [4] .

Annotáció kézzel (HAVANA csoport)

A HAVANA (Human and Vertebrate Analysis and Annotation) egy kutatócsoport, amely a GENCODE projektben [3] [4] kézi átírás-annotációt végez .

A HAVANA-csoporton kívül a GENCODE konzorcium számos más csoportot is magában foglalt, amelyek az annotált lókuszokat Ensembl programokkal elemezték, és segítettek a jegyzőket a hiányzó vagy helytelenül jegyzett lókuszok azonosításában, beleértve az illesztési helyeket is . Az AnnoTrack [24] nyomkövető rendszert használták a csoportok közötti információcserére . Az eljárás során RNS-szekvenálási kísérletek , CAGE és Ditag adatait is felhasználták [25] .

A projektben hivatalosan részt vevő csoportokon kívül független kutatók is dolgoztak a GENCODE annotáció minőségének javításán [26] .

Kézi és automatikus megjegyzések kombinálása

Összevonva az összes automatikus és kézi annotációval generált átírási modellt összehasonlították az átfedő átiratok tekintetében. A talált eltéréseket az AnnoTrack rendszer [4] segítségével észleltük .

Az automatikus annotáció nem mindig tekinthető helyesnek (például az automatikus annotáció eseteinek csak 45%-ában jósolják meg helyesen az összes alternatív átiratot [4] ). Az annotáció eltérése esetén a HAVANA annotáció részesült előnyben, mivel a manuális annotáció összetett esetekben a genomikai kontextus, az irodalom elemzését és a Mus musculus kísérleti adatok felhasználását jelentette . Ilyen esetekben azonban a mindkét megjegyzési módszerrel nyert információ megmarad [4] .

Minőségértékelés

Az átiratokhoz a GENCODE-transzkriptumnak az Ensembl -től és az UCSC -től kapott mRNS- illesztési és expressziós markerszekvenciákkal (EST) való összehasonlítása alapján van hozzárendelve egy támogatási szint . Ennek eredményeként az egyes átiratok annotációi manuálisan definiált, automatikusan definiált vagy összevont annotációkra oszlanak, vagyis olyanokra, amelyeknél az automatikus módszer és a kézi annotációs módszer is ugyanazt az eredményt adta [4] .

A GENCODE 7 főbb megközelítései

Az eredmények erősítése, szekvenálása, feltérképezése és validálása

Az emberi szövetek ( agy , szív , vese , here , máj , lép , tüdő és vázizomzat ) kettős szálú cDNS-eit cDNS - amplifikációval állítottuk elő . A tisztított DNS-t egy genomiális könyvtár létrehozására használták fel az Illumina "Genomic DNA sample prep kit" segítségével. A könyvtárat az Illumina Genome Analyzer 2 platformon szekvenáltuk , a Reed-eket (mindegyik 35 vagy 75 nt ) a hg19 összeállítás referencia humán genomjához térképeztük, és a Bowtie szoftver segítségével megjósoltuk az amplikonokat . Az átiratokat csak olyan leolvasások validálták, amelyek egyértelműen a genomhoz kapcsolódnak. Az exon junction helyek akkor tekinthetők megbízhatónak, ha legalább 10 leolvasást térképeztek fel, amelyek legalább 4 (35 nukleotid hosszú leolvasás esetén) vagy 8 (75 nukleotid hosszú leolvasás esetén) nukleotidot tartalmaztak mind a két exonban, amelyeket egy splicing hely választ el [4] .

Egyéb megközelítések

Az APPRIS (CNIO) webszolgáltatást használták az alternatív génátiratok megjegyzésére . Az APPRIS a gén fehérjetermékére és a közeli rokon fajok ortológjaira vonatkozó információk alapján egy változatot választ ki "fő izoformának" . Az APPRIS-t széles körben használták az ENCODE projekt felnagyításában és más fajok ( Mus sp. , Danio sp. , Rattus sp. ) genomjának annotálásában [27] .

A PhyloCSF programot használták kódoló szekvenciák keresésére az RNS szekvenálási adatokból automatikusan megjósolt transzkriptumokban. Evolúciós mintázatelemzésen alapul, amely a transzkriptumot az UCSC gerinces exonjaihoz igazítja (beleértve 33 placentális emlőst) [4] .

Az adatok rendszerezése

A GENCODE-ban található emberi génkészlet jelenlegi verziója annotációs fájlokat ( GTF és GFF3 formátumban ), FASTA fájlokat és METADATA fájlokat tartalmaz, amelyek a GENCODE annotációhoz vannak társítva minden genomiális régióhoz [12] . Korrelációban állnak a referencia kromoszómával , és külön fájlokban tárolják, amelyek tartalmazzák: génannotációt , a HAVANA csoport által jegyzett poliadenilációs helyeket , a Yale Egyetem és a Santa Cruz Egyetem (USA) algoritmusai által megjósolt pszeudogéneket , hosszú, nem kódoló RNS-eket, és a tRNS-Scan által megjósolt tRNS -struktúrák [12] .

Annotáció szint meghatározása

A GENCODE adatkészletben lévő összes gén a megjegyzés típusa szerint három kategóriába sorolható [4] :

  • 1. szint (locus validált): Tartalmazza a manuálisan jegyzett és RT-PCR szekvenálással kísérletileg igazolt átiratokat, valamint három különböző módszerrel validált pszeudogéneket [4] .
  • 2. szint (manuálisan jegyzett lókusz): ide tartoznak a csak a HAVANA csapata által manuálisan jegyzett átiratok, valamint az automatizált Ensembl protokollal [4] kapott modellekkel egyeztetett átiratok .
  • 3. szint (automatikusan jegyzett lókusz): csak az Ensembl [4] automatikus annotációja által megjósolt átiratokat vagy pszeudogéneket tükrözi .

Egy gén/átirat állapotának meghatározása

A gének és az átiratok az "ismert", "új" és "feltételezett" státuszhoz vannak rendelve attól függően, hogy más nagyobb adatbázisokban milyen reprezentációt mutatnak, és milyen alapokat használnak az őket alkotó átiratok létrehozásához [4] .

Ismert: Jelen van a HUGO Gene Nomenclature Committee (HGNC) és a RefSeq [4] adatbázisokban .

Újdonság : Nem található meg a HGNC vagy a RefSeq adatbázisokban, de jól alátámasztja akár az adott lókuszra jellemző átirat, akár a paralóg vagy ortológ lókuszban való jelenlétének bizonyítéka [4] .

Feltételezett: Nem található meg a GNNC vagy a RefSeq adatbázisokban, de egy rövidebb és ritkább átirat létezésére vonatkozó bizonyítékok alátámasztják [4] .

A GENCODE-hoz kapcsolódó projektek

Együttes

Az Ensembl projekt az ENCODE projekt fontos része, és egy genomböngésző, amely lehetővé teszi a genom összeállítását és az ENCODE projekt összes adatát, különösen a GENCODE projektben megjelölt genomi régiókat [28] .

RGASP

Az RGASP (The RNA-seq Genome Annotation Assessment Project) a GENCODE konzorcium keretein belül szervezett projekt az EGASP (ENCODE Genome Annotation Assessment Project) gén-előrejelzéssel foglalkozó workshopja után. Két munkaértekezletet tartottak az RNS-szekvenálás eredményeinek elemzésére , valamint annak különböző (módszertani és technikai) vonatkozásaira. A projekt első két szakaszának egyik legjelentősebb megállapítása az olvasás és a kapott gén-előrejelzés minőségének összefüggésének fontossága volt. 2014-ben került megrendezésre az RGASP workshopok harmadik szekciója, ahol a fő hangsúly a genom leolvasásának feltérképezésén volt. A projekt szoftvert biztosított az átirat annotációjához (detektálás, rekonstrukció és az átiratok számának kiszámítása) [29] .

Jegyzetek

  1. Williams FM , Scollen S. , Cao D. , Memari Y. , Hyde CL , Zhang B. , Sidders B. , Ziemek D. , Shi Y. , Harris J. , Harrow I. , Dougherty B. , Malarstig A. , McEwen R. , Stephens JC , Patel K. , Menni C. , Shin SY , Hodgkiss D. , Surdulescu G. , He W. , Jin X. , McMahon SB , Soranzo N. , John S. , Wang J. , Spector TD gének, amelyek hozzájárulnak a fájdalomérzékenységhez normál populációban: exome szekvenálási vizsgálat.  (angol)  // PLoS Genetics. - 2012. - Kt. 8 , sz. 12 . - P. e1003095-1003095 . - doi : 10.1371/journal.pgen.1003095 . — PMID 23284290 .
  2. ↑ KÓDOLÁS : DNS-elemek enciklopédiája  . KÓDOLÁS . Stanford Egyetem. — A projekt és az azonos nevű ENCODE konzorcium hivatalos honlapja. Letöltve: 2018. május 19.
  3. ↑ 1 2 3 4 5 Harrow J. , Denoeud F. , Frankish A. , Reymond A. , Chen CK , Chrast J. , Lagarde J. , Gilbert JG , Storey R. , Swarbreck D. , Rossier C. , Ucla C , Hubbard T. , Antonarakis SE , Guigo R. GENCODE: referencia-annotáció készítése az ENCODE-hoz  . (angol)  // Genombiológia. - 2006. - 20. évf. 7 1. melléklet . - P. 4-1 . - doi : 10.1186/gb-2006-7-s1-s4 . — PMID 16925838 .
  4. ↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Harrow J. , Frankish A. , Gonzalez JM , Tapanari E. , Diekhans M. , Kokocinski DBL , Barrekenll . Zadissa A. , Searle S. , Barnes I. , Bignell A. , Boychenko V. , Hunt T. , Kay M. , Mukherjee G. , Rajan J. , Despacio-Reyes G. , Saunders G. , Steward C. , Harte R. , Lin M. , Howald C. , Tanzer A. , ​​Derrien T. , Chrast J. , Walters N. , Balasubramanian S. , Pei B. , Tress M. , Rodriguez JM , Ezkurdia I. , van Baren J. . , Brent M. , Haussler D. , Kellis M. , Valencia A. , Reymond A. , Gerstein M. , Guigó R. , Hubbard TJ GENCODE: the reference human genome annotation for The ENCODE Project.  (angol)  // Genom Research. - 2012. - szeptember ( 22. évf. , 9. sz.). - P. 1760-1774 . - doi : 10.1101/gr.135350.111 . — PMID 22955987 .
  5. Frankish A. , Mudge JM , Thomas M. , Harrow J. Az alternatív splicing azonosításának fontossága a gerinces genom annotációjában.  (angol)  // Adatbázis : The Journal Of Biological Databases And Curation. - 2012. - Kt. 2012 . - P. 014-014 . - doi : 10.1093/database/bas014 . — PMID 22434846 .
  6. ↑ 1 2 3 Derrien T. , Johnson R. , Bussotti G. , Tanzer A. , ​​Djebali S. , Tilgner H. , Guernec G. , Martin D. , Merkel A. , Knowles DG , Lagarde J. , Veeravalli L. , Ruan X. , Ruan Y. , Lassmann T. , Carninci P. , Brown JB , Lipovich L. , Gonzalez JM , Thomas M. , Davis CA , Shiekhattar R. , Gingeras TR , Hubbard TJ , Notredame C. , Harrow J . , Guigó R. Az emberi hosszú, nem kódoló RNS-ek GENCODE v7 katalógusa: génszerkezetük, evolúciójuk és expressziójuk elemzése.  (angol)  // Genom Research. - 2012. - szeptember ( 22. évf. , 9. sz.). - P. 1775-1789 . - doi : 10.1101/gr.132159.111 . — PMID 22955988 .
  7. Pei B. , Sisu C. , Frankish A. , Howald C. , Habegger L. , Mu XJ , Harte R. , Balasubramanian S. , Tanzer A. , ​​Diekhans M. , Reymond A. , Hubbard TJ , Harrow J. , Gerstein MB A GENCODE pszeudogén erőforrás.  (angol)  // Genombiológia. - 2012. - szeptember 26. ( 13. évf. , 9. sz.). - P. 51-51 . - doi : 10.1186/gb-2012-13-9-r51 . — PMID 22951037 .
  8. Mindent az emberi genom projektről (HGP ) . Nemzeti Humán Genom Kutatóintézet (2015. október 1.). — A Humán Genom Projektről. Hozzáférés időpontja: 2018. május 12.  
  9. ↑ 1 2 ENCODE Project Consortium. Az ENCODE (ENCyclopedia Of DNA Elements) projekt.  (angol)  // Tudomány (New York, NY). - 2004. - október 22. ( 306. évf. , 5696. sz.). - P. 636-640 . - doi : 10.1126/tudomány.1105136 . — PMID 15499007 .
  10. ENCODE Project Consortium, Ewan Birney, John A. Stamatoyannopoulos, Anindya Dutta, Roderic Guigó. Funkcionális elemek azonosítása és elemzése az emberi genom 1%-ában az ENCODE kísérleti projekttel  // Nature. — 2007-06-14. - T. 447 , sz. 7146 . – S. 799–816 . — ISSN 1476-4687 . - doi : 10.1038/nature05874 .
  11. ↑ 1 2 3 A GENCODE projekt: Gének és génváltozatok enciklopédiája  (angol)  (hivatkozás nem elérhető) . Wellcome Trust Sanger Institute. — A GENCODE projekt leírása a projekt hivatalos honlapján. Letöltve: 2018. május 12. Az eredetiből archiválva : 2018. április 29.
  12. ↑ 1 2 3 GENCODE aktuális kiadás  (angol)  (lefelé irányuló kapcsolat) . Wellcome Trust Sanger Institute. — A GENCODE 28. kiadása (2018. április). Letöltve: 2018. május 12. Az eredetiből archiválva : 2018. április 12.
  13. ↑ 1 2 Mark B. Gerstein, Can Bruce, Joel S. Rozowsky, Deyou Zheng, Jiang Du. Mi az a gén, post-ENCODE? Történelem és frissített definíció  // Genome Research. - 2007. június - T. 17 , 1. sz. 6 . – S. 669–681 . — ISSN 1088-9051 . - doi : 10.1101/gr.6339607 .
  14. E. F. Vanin. Feldolgozott pszeudogének: jellemzők és evolúció  // Annual Review of Genetics. - 1985. - T. 19 . – S. 253–272 . — ISSN 0066-4197 . - doi : 10.1146/annurev.ge.19.120185.001345 .
  15. Jinrui Xu, Jianzhi Zhang. Működnek-e az ember által lefordított álgének?  (angol)  // Molekuláris biológia és evolúció. — 2016-03-01. — Vol. 33 , iss. 3 . — P. 755–760 . — ISSN 0737-4038 . - doi : 10.1093/molbev/msv268 .
  16. GENCODE Egyedi lncRNA Expression Microarray Design  (angol)  (hivatkozás nem érhető el) . GENCODE . Wellcome Trust Sanger Institute. — Mikromátrixok tervezése hosszú, nem kódoló RNS-ek kifejezésére a GENCODE projekt számára. Letöltve: 2018. május 13. Az eredetiből archiválva : 2018. április 8..
  17. Igor Ulitsky, David P. Bartel. lincRNS-ek: genomika, evolúció és mechanizmusok  // Sejt. — 2013-07-03. - T. 154 , sz. 1 . – S. 26–46 . — ISSN 0092-8674 . - doi : 10.1016/j.cell.2013.06.020 .
  18. Résztvevők, teljes finanszírozott személyzet  (eng.)  (a hivatkozás nem elérhető) . Üdvözlöm a Sanger Intézetet. — A GENCODE projekt résztvevőinek listája a projekt hivatalos honlapján. Letöltve: 2018. május 13. Az eredetiből archiválva : 2018. május 11.
  19. Statisztikák az összes Human GENCODE kiadásról  (angolul)  (lefelé mutató link) . GENCODE . Wellcome Sanger Institute (2018. április). - Az emberi genom annotációinak összes kiadása a hivatalos GENCODE webhelyen. Letöltve: 2018. május 13. Az eredetiből archiválva : 2018. április 14.
  20. Statisztikák az aktuális GENCODE lefagyásról (21-es verzió  ) . GENCODE . Wellcome Trust Sanger Institute. — A GENCODE 21 kiadási statisztikái. Letöltve: 2018. május 13.
  21. 2. fázis GENCODE  célok . GENCODE . Wellcome Trust Sanger Institute. — A GENCODE projekt feladatainak leírása a projekt hivatalos honlapján. Letöltve: 2018. május 13.
  22. Ensemble Gene  Set . Archívum!Együttes . EMBL-EBI. — Az Ensembl adatok leírása a projekt hivatalos honlapján. Letöltve: 2018. május 13.
  23. Mudge JM , Harrow J. Referenciagén annotáció létrehozása az egér C57BL6/J genom összeállításához.  (angol)  // Mammalian Genome: A Nemzetközi Emlősgenom Társaság Hivatalos Lapja. - 2015. - október ( 26. évf. , 9-10. sz. ). - P. 366-378 . - doi : 10.1007/s00335-015-9583-x . — PMID 26187010 .
  24. Kokocinski F. , Harrow J. , Hubbard T. AnnoTrack – nyomkövető rendszer genom annotációhoz.  (angol)  // BMC Genomics. - 2010. - október 5. ( 11. köt. ). - P. 538-538 . - doi : 10.1186/1471-2164-11-538 . — PMID 20923551 .
  25. S. Searle, A. Frankish, A. Bignell, B. Aken, T. Derrien. A GENCODE emberi génkészlet  // Genombiológia. — 2010-10-11. - T. 11 , sz. 1 . - S. P36 . — ISSN 1474-760X . - doi : 10.1186/gb-2010-11-s1-p36 .
  26. Wright JC , Mudge J. , Weisser H. , Barzine MP , Gonzalez JM , Brazma A. , Choudhary JS , Harrow J. A GENCODE referenciagén annotáció javítása nagy szigorúságú proteogenomikai munkafolyamat segítségével.  (angol)  // Nature Communications. - 2016. - június 2. ( 7. köt. ). - P. 11778-11778 . - doi : 10.1038/ncomms11778 . — PMID 27250503 .
  27. Jose Manuel Rodriguez, Juan Rodriguez-Rivas, Tomás Di Domenico, Jesús Vázquez, Alfonso Valencia. APPRIS 2017: fő izoformák több génkészlethez  //  Nucleic Acids Research. — 2017-10-23. — Vol. 46 , iss. D1 . — P. D213–D217 . — ISSN 1362-4962 0305-1048, 1362-4962 . doi : 10.1093 / nar/gkx997 .
  28. KÓDOLJA az adatokat az  Ensemble -ben . Ensembl . EMBL-EBI. — Az ENCODE projekt adatainak felhasználásának leírása az Ensembl honlapján. Hozzáférés időpontja: 2018. május 12.
  29. RGASP . RNA-seq Genome Annotation Assessment Project  (angol)  (hivatkozás nem érhető el) . GENCODE . Üdvözlöm a Sanger Intézetet .  — Az RGASP projekt leírása a GENCODE hivatalos honlapján. Letöltve: 2018. május 13. Az eredetiből archiválva : 2018. április 8..

Linkek