HÚR | |
---|---|
Tartalom | |
Leírás | Bioinformatikai forrás az ismert és előre jelzett fehérje-fehérje kölcsönhatásokról |
szervezetek | Összes |
Kapcsolatok | |
Laboratórium | CPR , EMBL , KU , SIB , TUD , UZH |
Kiadási dátum | 2000 |
Elérhetőség | |
Weboldal | HÚR |
Egyéb | |
Változat | 10,5 (2017) |
A STRING (rövidítve Search Tool for the Retrieval of Interacting Genes/Proteins ) egy adatbázis és webes erőforrás az ismert és előre jelzett fehérje-fehérje kölcsönhatásokról [1] [2] [3] [4] [5] [6] [7] [8] .
A STRING különböző forrásokból származó információkat összegzi: kísérleti adatok, irodalmi adatok és de novo előrejelzések . A 10-es verzió 9 643 763 fehérje kölcsönhatásáról tartalmaz információkat 2031 organizmusfajban, a baktériumoktól és archaeáktól kezdve az emberekig . Az adatbázis rendszeresen frissül, és ingyenesen letölthető [1] .
A STRING-t a CPR, EMBL , KU , SIB, TUD és UZH európai egyetemek konzorciuma fejlesztette ki .
A STRING-ben az alapegység a funkcionális kapcsolat , azaz. specifikus és biológiailag jelentős funkcionális kapcsolat két fehérje között [3] .
A STRING minden egyes funkcionális kapcsolatra kiszámít egy megbízhatósági pontszámot, amely az adott kapcsolatra vonatkozó különböző típusú bizonyítékokat integrálja (kísérleti adatok, irodalmi adatok és de novo előrejelzések a kísérletileg vizsgált fehérjék ortológiáján , valamint a genomiális kontextus összehasonlító elemzésén alapulva) . 9] ). Egy ilyen integrált megközelítésnek a következő előnyei vannak [6] :
Egy funkcionális kapcsolat megbízhatóságának értékelésénél az erre a kapcsolatra vonatkozó különböző típusú bizonyítékokat függetlennek tekintjük, és a pontszámot a következő képlet szerint számítjuk ki [6] :
ahol az egyik típusú bizonyíték hozzájárulása.
A STRING nem tartalmaz információt a fehérje-fehérje kölcsönhatások mechanizmusáról, valamint arról, hogy ez a kölcsönhatás a sejtciklus mely szakaszában mehet végbe, hogyan függ a külső körülményektől és mennyire szövetspecifikus. Ezzel szemben a STRING információt tartalmaz az adott szervezetben előforduló összes lehetséges fehérje-fehérje kölcsönhatásról, beleértve bizonyos bizonyossággal előre jelzett információkat is, így a STRING a jelenleg elérhető legátfogóbb forrás a fehérje-fehérje kölcsönhatásokról, és különösen hasznos az olyan fehérjékkel kapcsolatos információk megtalálásához, amelyek nem. kísérletileg tanulmányozták [4] .
A STRING integrálja a BIND, BioCarta, BioCyc, BioGRID, DIP, DISEASES, GO , HPRD, IntAct, KEGG , MINT, NCI-Nature Pathway Interaction Database, PDB , Reactome, TISSUES forrásokból kölcsönzött strukturális komplexekben és metabolikus útvonalakban lévő fehérjekölcsönhatásokra vonatkozó információkat. 1] [3] .
A STRING a PubMed , SGD, OMIM, FlyBase adatbázisok teljes szövegű cikkeiből és a MEDLINE adatbázis cikkkivonataiból nyeri ki a fehérjekölcsönhatásokról szóló információkat . Ennek érdekében a szövegekben automatikusan megkeresik a génnevek és szinonimáik statisztikailag szignifikáns közös említését (a szinonimák adatai a Swiss-Prottól származnak) természetes nyelvi feldolgozás segítségével . A pontosság növelése érdekében kidolgoztak egy értékelő rendszert, amely figyelembe veszi a génnevek mondatokban, bekezdésekben és cikkek teljes szövegében való együttes említését [2] .
A STRING célja, hogy kiegészítse az újonnan szekvenált genomok funkcionális annotációját a funkcionális kapcsolatok de novo előrejelzésével, amely a kísérletileg vizsgált fehérjékhez való ortológián , valamint a genomi kontextus összehasonlító elemzésén alapul [9] . A STRING saját értékelést is ad a kísérletileg vizsgált funkcionális kapcsolatokról, kiegészítve azokkal kapcsolatos információkat.
Teljesen szekvenált genomok importja
A 9-es verziótól (2011) a STRING teljesen szekvenált genomokat importál elemzés céljából, amelyek elérhetők a RefSeq és Ensembl adatbázisokban , valamint speciális oldalakon [3] . Az importált genomokat előzetesen manuálisan ellenőrizzük a teljesség és a redundancia szempontjából. A STRING nem tárol információt a fehérjék különböző izoformáiról, amelyek alternatív illesztésből vagy poszttranszlációs módosításból származnak . Éppen ellenkezőleg, a STRING egy fehérje izoformát (általában a leghosszabb izoformát) rendel hozzá egy lókuszhoz [5] . Ez a szűrés szükséges a fehérje-fehérje kölcsönhatások előrejelzésére szolgáló algoritmusok normál működéséhez.
Kísérletileg vizsgált fehérjékkel végzett ortológia alapján a fehérjekölcsönhatások előrejelzései
A STRING az ugyanabban a KEGG- anyagcsere-útvonalban részt vevő fehérjék kölcsönhatásait referenciaként tekinti, mivel ez az adatbázis manuálisan van összeállítva, és számos szervezetet és funkcionális tartományt fed le. A STRING a KEGG metabolikus útvonalakban leírt fehérjekölcsönhatásokat más organizmusok ortológ fehérjéire viszi át, és minden egyes előre jelzett fehérje-fehérje kölcsönhatáshoz egy bizonyos súlyt rendel, ami megfelel annak a valószínűségének, hogy ezek a fehérjék ugyanabban a KEGG metabolikus útvonalban vannak [6] , és hozzájárul e funkcionális kapcsolatok megbízhatóságának végső értékelése.
A 8-as verzió (2009) előtt a KEGG metabolikus útvonalakban leírt fehérjékkel ortológián alapuló előrejelzések készültek protein ortológ csoportok (COG) klaszterei segítségével [10] , majd az eggNOG adatbázisból [11] hierarchikus fehérje ortológ csoportokat kezdtek használni. .
A 9.1-es verziótól (2013) a KEGG metabolikus útvonalakban leírt fehérjékkel végzett ortológián alapuló előrejelzések az organizmusok taxonómiájának figyelembevételével készülnek , ami lehetővé teszi, hogy elkerülhető legyen az egy szervezetben lévő fehérjék kölcsönhatásának téves átvitele feltételezett ortológra. fehérjék egy másik szervezetben e fehérjék paralógjainak jelenlétében egy másik szervezetben, amelyek a megfelelő gének megkettőződése következtében keletkeztek az evolúció folyamatában . A rendszer az NCBI által fenntartott taxonómia verziót használja. Az élőlények közötti fehérje-fehérje kölcsönhatások ortológia alapján történő átvitele a taxonómiai hierarchia legalacsonyabb szintjétől a legmagasabb szintig szekvenciálisan történik [2] .
A genomi kontextus összehasonlító elemzésén alapuló előrejelzések
Azok a gének, amelyek fehérjetermékei együtt működnek egy anyagcsereútban vagy szerkezeti komplexumban, gyakran közös szabályozás alatt állnak, és közös természetes szelekciós nyomásnak vannak kitéve . Az ilyen gének hajlamosak együttes lokalizációra [12] , sőt fúziós gént is alkotnak [13] . Az ilyen gének gyakran közel vannak egymáshoz, feltehetően egyetlen transzkripciós egységet ( operont ) alkotnak. A különböző organizmusok operonjaiban a gének halmaza és azok sorrendje hasonló, de nem feltétlenül azonos. A STRING a következő típusú genomi kontextusokat különbözteti meg [9] :
Az eukarióták nem rendelkeznek operonszerkezettel, de egyes eukarióta fehérjék ortológok a prokarióta fehérjékhez, így a STRING átviszi az eukarióta fehérjékre a prokarióták genomiális kontextusának összehasonlító elemzéséből megjósolt funkcionális kapcsolatokat [8] .
A STRING olyan konzervált génklasztereket keres, amelyek evolúciós története jobban hasonlít a véletlenül vártnál. A STRING egyetlen maggénnel indul, és első iterációja során olyan géneket talál, amelyek gyakran előfordulnak egy adott génnel ugyanabban a genomiális kontextusban számos filogenetikailag távoli organizmusban. A gének előfordulásának tökéletes egyezése nem szükséges, bár ez az információ számszerűsített. A következő iterációnál az előző iteráció során talált új géneket használják magként. Az iterációk addig folytatódnak, amíg nem találnak új géneket (konvergencia). Így sok gén közvetett kapcsolatban áll a primer génnel. Egy genomi kontextusba csak olyan gének kerülhetnek, amelyek távolsága nem haladja meg a 300 bázispárt [8] . A 8-as verziótól kezdődően a különböző DNS-szálakon elhelyezkedő gének ugyanabba a genomi kontextusba kerülhetnek. Az utóbbi esetben a megjósolt funkcionális kapcsolat kisebb súllyal esik latba, ami kevésbé járul hozzá e kapcsolat megbízhatóságának végső értékeléséhez, összehasonlítva a csak egy DNS-szálon elhelyezkedő génekből álló genomi összefüggésből megjósolt funkcionális kapcsolattal [4 ] . A hozzárendelt súlyt azon organizmusok száma normalizálja, amelyekben ezt a kapcsolatot megjósolják [7] , és növekszik, ha ezt a kapcsolatot filogenetikailag távoli ornizmusokban jósolják [6] .
A gén konzervált környezetének összeállításakor a 8-as verziótól kezdve figyelmen kívül hagyjuk a nem kódoló DNS-szálon a rövid, részben átfedő géneket, mivel kiderülhet, hogy hamis jóslatok [4] .
2005 óta a STRING kétféle megközelítést alkalmaz a fehérje-fehérje kölcsönhatások előrejelzésére a genomiális kontextus összehasonlító elemzése alapján: amikor a felhasználó kéri, kiválaszthatja a COG-módot vagy a Protein-módot. A COGs módban a konzervált génklaszterek keresése azzal a feltétellel történik, hogy a fehérjék ortológok legyenek, pl. az interakciókat a mindent vagy semmit alapon jósolják meg. A Proteins-módban a konzervatív génklaszterek keresése a fehérje aminosavszekvenciáinak mennyiségi hasonlósága alapján történik, pl. az előre jelzett kölcsönhatások kiterjeszthetők paralógokra is, ha léteznek a szervezetben [6] . Korábban a STRING-ben a fehérje aminosavszekvenciáinak mennyiségi hasonlóságát Smith-Waterman algoritmussal határozták meg . A 9-es verziótól (2011) a SIMAP mátrixokat [3] [14] használják a fehérje aminosavszekvenciák hasonlóságának számszerűsítésére .
A STRING adatbázis lekérdezéséhez meg kell adnia egy vagy több fehérje azonosítóját vagy aminosavszekvenciáját, és ki kell választania egy szervezetet. Egy fehérje aminosav-szekvenciájára vonatkozó kérés esetén a kiválasztott szervezet összes fehérjéjére BLAST -keresést hajtanak végre (küszöbérték E-érték = 10 -5 ) [8] , és a felhasználót felkérik, hogy válasszon egyet a azokat a leleteket, amelyeknél egy adott szervezetben más fehérjékkel való lehetséges kölcsönhatások (Proteins-mode ) vagy COG-k (COG-mód) mutathatók ki.
Egy adott fehérje és más fehérjék kísérletileg ismert és de novo előre megjósolt kölcsönhatásait grafikonként ábrázoljuk, amelynek csúcsai fehérjék, a szélei pedig különböző típusú bizonyítékok a fehérjék közötti funkcionális kapcsolatokra. Azoknak a fehérjéknek megfelelő csúcsok, amelyek krisztallográfiai szerkezetét megfejtették (vagy bizonyos azonossággal megjósolták), nagyobbak. A felugró ablak tetejére kattintva elérhetők a harmadik féltől származó forrásokhoz mutató hivatkozások, amelyek információkat tartalmaznak erről a fehérjéről, mint például a RefSeq, KEGG , UniProt , SMART és SWISS-MODEL, valamint a tartomány architektúrájának előnézete és Ennek a fehérjének a krisztallográfiai szerkezete (dekódolt vagy megjósolt specifikus azonossággal). Lehetőség van a kölcsönhatások hálózatának klaszterezésére, más fehérjék hozzáadására a kölcsönhatások hálózatába, ha a funkcionális kapcsolat megbízhatóságának küszöbe csökken (és fordítva, eltávolítani a fehérjéket a kölcsönhatások hálózatából, ha a küszöböt növeljük), beállíthatja a funkcionális kapcsolatra vonatkozó elfogadható bizonyítéktípusok előállítása (például csak azokat a fehérjéket hagyhatja meg a kölcsönhatások hálózatában, amelyek kölcsönhatásaira kísérleti bizonyíték van), valamint a talált fehérje-fehérje kölcsönhatások listáját szöveges fájlként mentheti és az interakciók hálózatának képének mentése [3] .
Az adott fehérje lehetséges funkcionális összefüggéseinek listája minden összefüggésre bizonyítékot tartalmaz, és az egyes kapcsolatok becsült megbízhatósági szintje szerint rangsorolják [2] .
Elérhető egy filogenetikai fa nézet , amely kisszámú univerzális fehérjecsalád összekapcsolt szekvencia-illesztéséből áll [5] [15] , amelyen különféle genomi kontextusok vannak ábrázolva. Egy adott fehérjét említő cikkekre mutató hivatkozások állnak rendelkezésre, beleértve a kísérleti cikkeket is.
Van egy STRING bővítmény a Cytoscape -hez [16] . A 10-es (2015) verziótól kezdődően a STRINGdb szoftvercsomag letölthető a Bioconductortól , és lehetővé teszi a STRING szerver lekérdezését az R programozási nyelvről [1] .