Az Ensembl az Európai Bioinformatikai Intézet és a Sanger Intézet közös kutatási projektje . A projekt fő célja, hogy a szakemberek integrált hozzáférést biztosítsanak a több mint 50 gerinces faj genomjának szerkezetével kapcsolatos adatbázisokhoz, beleértve az embert ( Homo sapiens ), egeret ( Mus musculus ), patkányt ( Rattus norvegicus ), Danio-t. -rerio hal ( Danio rerio ) stb. [1] . A projekt 1999-ben indult a Human Genome Project [2] befejezése előtt .
Az Ensembl adatbázisait évente legalább kétszer frissítik. A Project 88 jelenlegi verziója 2017. március 29-én jelent meg [3] . A projekt legfrissebb híreit a hivatalos weboldalon teszik közzé. Ezen kívül információkat találhat az Ensembl-lel való együttműködés során végzett személyes oktatási tevékenységekről [4] . A rendszerrel való munkavégzés alapjait az Ensembl honlapján és az EMBL-EBI Archived 2017. április 16-án a Wayback Machine -en található tematikus videók megtekintésével is elsajátíthatja .
Az Ensembl projekt a gerincesek genomjairól szóló részletes információk nyújtására összpontosít . Egy ilyen genom tipikus mérete több milliárd bázispár. Például az egér ( Mus musculus ) és az ember ( Homo sapiens ) genomja körülbelül 3 milliárd bázispárt tartalmaz. A genomnak csak néhány százaléka kódoló szekvencia, ami az ember esetében körülbelül 20-25 ezer génnek felel meg [5] . A kódoló szekvenciák nem véletlenszerű felépítésűek, ami lehetővé teszi azok kimutatását a genomelemzés során. A genom nem kódoló szekvenciái bizonyos esetekben biológiailag is funkcionálisak, pszeudogénekre , transzfer génekre és riboszomális RNS -ekre, hosszú, nem kódoló RNS-ekre, kis nukleáris RNS -ekre , kis nukleoláris RNS -ekre , mikroRNS - ekre stb. A genom elemeivel csak akkor lehet dolgozni, ha van információ ennek az elemnek a helyzetéről és másokkal való interakciójáról. Az egyes ilyen elemek pozíciójának megjelölését genom annotációnak nevezzük [6] .
A genom annotációja elvégezhető manuálisan egy szakértői csoport által, és automatikus szoftveres megközelítések segítségével, amint azt az Ensembl [7] implementálja .
A standard Ensembl annotációs eljárás legfeljebb 4 hónapig tart, és több szakaszból áll [8] . Kezdetben az ismétlődések automatikus maszkolása és a gének helyzetének előrejelzése történik. Ezután egy adott organizmus ismert, kísérletileg nyert fehérjekódoló szekvenciáit a genomhoz igazítják. Ha a genom egy régiójához nincs ilyen szekvencia, akkor a következő lépésben a közeli rokon fajok szekvenciáit használjuk erre a célra. Ezenkívül az ismert fajspecifikus cDNS- és EST -szekvenciákra vonatkozó információkat alkalmazzák a genomra . Ha lehetséges, az RNS-szekvenálási kísérletekből származó adatokat is ráhelyezzük a genomra [9] .
Az emberi és egérgenomok esetében a standard annotálási folyamatot kiegészíti a HAVANA projekt annotációja Archivált 2017. április 15-én a Wayback Machine -nél . A kombinált Ensembl/HAVANA annotáció alkotja a GENCODE humán és egér génkészletet.Archiválva 2017. április 15-én a Wayback Machine -nél [10] .
Az Ensembl nómenklatúrában egy génhez 3 státusz rendelhető: ismert, újszerű, egyesített . Az ismert állapot azt jelzi, hogy a régió megfelel ennek a szervezetnek az UniProtKB és az NCBI RefSeq nyilvános adatbázisokból ismert szekvenciájának Archivált 2006-03-30 . . Ha csak egy másik organizmus szekvenciájával van egyezés, akkor a gén új állapotot kap . Az egyesített állapot az Ensembl és a HAVANA annotációk teljes egyezését jelzi [8] .
Az Ensembl projekt elsődleges célja a gerincesek genomjainak automatikus elemzése és annotálása, valamint hozzáférés biztosítása ezekhez a genomokhoz. Az Ensembl genomikus böngésző képes megjeleníteni az Ensembl adatbázisban elérhető genomokat és annotációikat különböző léptékben, a teljes kariotípustól a genomszekvencia egy meghatározott szakaszáig szöveges formában. A megjegyzésekkel ellátott elemek sávokként (sávokként) jelennek meg a referenciagenomhoz képest. A pályák megjelenítését a felhasználó testreszabhatja saját igényei szerint. Az egyes megjegyzéselemekkel kapcsolatos további információk a felugró ablakokban érhetők el, amikor az egérmutatót az elem fölé viszi. A felhasználóknak lehetőségük van saját genomikus annotációs adataik feltöltésére és megjelenítésére. Ez történhet akár DAS-szerver ( Distributed Annotation System ) használatával, akár egy támogatott formátumú fájl feltöltésével (BigBED, BigWig, VCF, BAM és mások) [11] [12] [13] [14] .
Az Ensembl MySQL - en alapuló relációs adatbázisokat használ az információk tárolására . Az Ensembl adatbázisokból való információszerzéshez a Perlben írt API -k (Application Programming Interface) készletét használjuk . Az API-k lehetővé teszik, hogy harmadik féltől származó alkalmazások ne függjenek az adatbázis-struktúra változásaitól. Az Ensembl API-t a projekt webes felületén használják az adatok megjelenítésére, és a felhasználó is betöltheti, és szkripteket írhat az Ensembl adatbázisokból származó adatok fogadásának automatizálására. Az Ensembl API letöltésével, telepítésével és használatával kapcsolatos információk a projekt weboldalán találhatók. Archivált 2017. április 15-én a Wayback Machine -nél [15] .
Az Ensembl API szakaszokra van felosztva a feldolgozott adatok típusa szerint: Ensembl Core API (génekkel, szekvenciákkal és egyéb automatikus annotációs elemekkel való munkához), Ensembl-Compara API (összehasonlító genomikai adatokkal való munkavégzéshez), Ensembl-Variation API (egy nukleotid polimorfizmusokkal, szomatikus mutációkkal, szerkezeti variációkkal kapcsolatos adatokkal való munkavégzéshez), Ensembl-Regulation API (genomszabályozási adatokkal való munkavégzéshez) és mások [16] .
Az Ensembl adatbázis más programozási nyelvű kliens használatával való eléréséhez használja az Ensembl REST szervert, archiválva 2016. június 23-án a Wayback Machine -en [17] . A BioMart szolgáltatás nagy mennyiségű adat megszerzésére használható Archivált 2011. január 8. a Wayback Machine -en . Ezenkívül a projekt FTP-kiszolgálója segítségével letöltheti a teljes Ensembl-adatbázist MySQL-en. 2020. május 28-i archivált példány a Wayback Machine -en .
Az Ensembl weboldalán számos eszköz elérhető mind az Ensembl adatbázisból származó, mind a felhasználó által feltöltött adatok feldolgozására [18] . BLAT vagy BLAST algoritmusok segítségével keresnek egy adott szekvenciát az összes Ensembl genomban. Archiválva : 2017. május 11. a Wayback Machine -nél . Létezik egy eszköz az Ensembl adatbázisból adatok letöltésére módosított formátumban ( File Chameleon Archived 2017. április 15. a Wayback Machine -nél ), valamint az adatformátum lefordítására a különböző genom-összeállítások között Archivált 2017. április 27-én a Wayback Machine -nél és az Ensembl kiadja Archivált 2017. április 15-től a Wayback Machine -nél .
Az Ensembl Variant Effect Prediktor Archivált : 2017. április 30. a Wayback Machine -nél (VEP) a kódoló és nem kódoló régiók genomiális variációinak elemzésére és annotálására szolgáló eszköz. A VEP az Ensembl adatbázis-adatbázisok széles készlete alapján jegyzi a genomiális variációt, beleértve az átiratokat, a szabályozó régiókat, a korábban megfigyelt eltérések gyakoriságát, a klinikai adatokat és a variáció biofizikai következményeinek előrejelzéseit. A variációk két kategóriájának elemzése lehetséges: kicsi, pontosan meghatározott variációk ( inszerciók , deléciók, tandem ismétlődések , egyetlen nukleotid polimorfizmusok ) vagy a genom nagyobb szerkezeti változatai (a génkópiaszám változásai, nagy inszerciók vagy deléciók ). A VEP szolgáltatásként elérhető az Ensembl weboldalán, önálló Perl-szkriptként és az Ensembl REST-en [19] keresztül .
Kezdetben az Ensembl projekt gerinces genomokra specializálódott, de a más élőlények genomjaival kapcsolatos információk mennyiségének növekedése az Ensembl Genomes projekt megjelenéséhez vezetett 2009-ben. Archiválva 2017. április 19-én a Wayback Machine -nél , az Ensembl platformot használva. , eszközök és annotációs rendszer [20] . A projekt keretében 5 divíziót hoztak létre:
Genomok összeállítása Az Ensembl Genomes egyszerre jelenik meg minden részleg számára, függetlenül a fő projekttől. A szolgáltatás jelenlegi verziója 34, az utolsó frissítés 2016 decemberében történt [21] .
A genomokhoz való hozzáférés az annotáció folyamatában az Ensembl Pre! Archiválva : 2017. június 9. a Wayback Machine -nál . 2017-től 17 organizmus genomjáról áll rendelkezésre információ. A szolgáltatás utolsó frissítése 2015. január 19-én történt [22] .