HÚR

HÚR
Tartalom
Leírás Bioinformatikai forrás az ismert és előre jelzett fehérje-fehérje kölcsönhatásokról
szervezetek Összes
Kapcsolatok
Laboratórium CPR , EMBL , KU , SIB , TUD , UZH
Kiadási dátum 2000
Elérhetőség
Weboldal HÚR
Egyéb
Változat 10,5 (2017)

A STRING (rövidítve Search  Tool for the Retrieval of Interacting Genes/Proteins ) egy adatbázis és webes erőforrás az ismert és előre jelzett fehérje-fehérje kölcsönhatásokról [1] [2] [3] [4] [5] [6] [7] [8] .

A STRING különböző forrásokból származó információkat összegzi: kísérleti adatok, irodalmi adatok és de novo előrejelzések . A 10-es verzió 9 643 763 fehérje kölcsönhatásáról tartalmaz információkat 2031 organizmusfajban, a baktériumoktól és archaeáktól kezdve az emberekig . Az adatbázis rendszeresen frissül, és ingyenesen letölthető [1] .

A STRING-t a CPR, EMBL , KU , SIB, TUD és UZH európai egyetemek konzorciuma fejlesztette ki .

Adatforrások

A STRING-ben az alapegység a funkcionális kapcsolat , azaz. specifikus és biológiailag jelentős funkcionális kapcsolat két fehérje között [3] .

A STRING minden egyes funkcionális kapcsolatra kiszámít egy megbízhatósági pontszámot, amely az adott kapcsolatra vonatkozó különböző típusú bizonyítékokat integrálja (kísérleti adatok, irodalmi adatok és de novo előrejelzések a kísérletileg vizsgált fehérjék ortológiáján , valamint a genomiális kontextus összehasonlító elemzésén alapulva) . 9] ). Egy ilyen integrált megközelítésnek a következő előnyei vannak [6] :

  1. Különböző típusú bizonyítékok vannak leképezve egy stabil fehérjekészlethez, megkönnyítve az összehasonlító elemzést.
  2. Az ismert és előre jelzett interakciók gyakran részben kiegészítik egymást, ami az interakciók hálózatának bővüléséhez vezet (adott megbízhatósági szinten).
  3. A funkcionális kapcsolat megbízhatósági pontszáma nő, ha a kapcsolatot egynél több típusú bizonyíték támasztja alá.
  4. A kölcsönhatások előrejelzése nagyszámú szervezetre megkönnyíti az evolúciós elemzést.

Egy funkcionális kapcsolat megbízhatóságának értékelésénél az erre a kapcsolatra vonatkozó különböző típusú bizonyítékokat függetlennek tekintjük, és a pontszámot a következő képlet szerint számítjuk ki [6] : ahol az egyik típusú bizonyíték hozzájárulása.

A STRING nem tartalmaz információt a fehérje-fehérje kölcsönhatások mechanizmusáról, valamint arról, hogy ez a kölcsönhatás a sejtciklus mely szakaszában mehet végbe, hogyan függ a külső körülményektől és mennyire szövetspecifikus. Ezzel szemben a STRING információt tartalmaz az adott szervezetben előforduló összes lehetséges fehérje-fehérje kölcsönhatásról, beleértve bizonyos bizonyossággal előre jelzett információkat is, így a STRING a jelenleg elérhető legátfogóbb forrás a fehérje-fehérje kölcsönhatásokról, és különösen hasznos az olyan fehérjékkel kapcsolatos információk megtalálásához, amelyek nem. kísérletileg tanulmányozták [4] .

Kísérleti adatok

A STRING integrálja a BIND, BioCarta, BioCyc, BioGRID, DIP, DISEASES, GO , HPRD, IntAct, KEGG , MINT, NCI-Nature Pathway Interaction Database, PDB , Reactome, TISSUES forrásokból kölcsönzött strukturális komplexekben és metabolikus útvonalakban lévő fehérjekölcsönhatásokra vonatkozó információkat. 1] [3] .

Irodalmi adatok

A STRING a PubMed , SGD, OMIM, FlyBase adatbázisok teljes szövegű cikkeiből és a MEDLINE adatbázis cikkkivonataiból nyeri ki a fehérjekölcsönhatásokról szóló információkat . Ennek érdekében a szövegekben automatikusan megkeresik a génnevek és szinonimáik statisztikailag szignifikáns közös említését (a szinonimák adatai a Swiss-Prottól származnak) természetes nyelvi feldolgozás segítségével . A pontosság növelése érdekében kidolgoztak egy értékelő rendszert, amely figyelembe veszi a génnevek mondatokban, bekezdésekben és cikkek teljes szövegében való együttes említését [2] .

De novo előrejelzések

A STRING célja, hogy kiegészítse az újonnan szekvenált genomok funkcionális annotációját a funkcionális kapcsolatok de novo előrejelzésével, amely a kísérletileg vizsgált fehérjékhez való ortológián , valamint a genomi kontextus összehasonlító elemzésén alapul [9] . A STRING saját értékelést is ad a kísérletileg vizsgált funkcionális kapcsolatokról, kiegészítve azokkal kapcsolatos információkat.

Teljesen szekvenált genomok importja

A 9-es verziótól (2011) a STRING teljesen szekvenált genomokat importál elemzés céljából, amelyek elérhetők a RefSeq és Ensembl adatbázisokban , valamint speciális oldalakon [3] . Az importált genomokat előzetesen manuálisan ellenőrizzük a teljesség és a redundancia szempontjából. A STRING nem tárol információt a fehérjék különböző izoformáiról, amelyek alternatív illesztésből vagy poszttranszlációs módosításból származnak . Éppen ellenkezőleg, a STRING egy fehérje izoformát (általában a leghosszabb izoformát) rendel hozzá egy lókuszhoz [5] . Ez a szűrés szükséges a fehérje-fehérje kölcsönhatások előrejelzésére szolgáló algoritmusok normál működéséhez.

Kísérletileg vizsgált fehérjékkel végzett ortológia alapján a fehérjekölcsönhatások előrejelzései

A STRING az ugyanabban a KEGG- anyagcsere-útvonalban részt vevő fehérjék kölcsönhatásait referenciaként tekinti, mivel ez az adatbázis manuálisan van összeállítva, és számos szervezetet és funkcionális tartományt fed le. A STRING a KEGG metabolikus útvonalakban leírt fehérjekölcsönhatásokat más organizmusok ortológ fehérjéire viszi át, és minden egyes előre jelzett fehérje-fehérje kölcsönhatáshoz egy bizonyos súlyt rendel, ami megfelel annak a valószínűségének, hogy ezek a fehérjék ugyanabban a KEGG metabolikus útvonalban vannak [6] , és hozzájárul e funkcionális kapcsolatok megbízhatóságának végső értékelése.

A 8-as verzió (2009) előtt a KEGG metabolikus útvonalakban leírt fehérjékkel ortológián alapuló előrejelzések készültek protein ortológ csoportok (COG) klaszterei segítségével [10] , majd az eggNOG adatbázisból [11] hierarchikus fehérje ortológ csoportokat kezdtek használni. .

A 9.1-es verziótól (2013) a KEGG metabolikus útvonalakban leírt fehérjékkel végzett ortológián alapuló előrejelzések az organizmusok taxonómiájának figyelembevételével készülnek , ami lehetővé teszi, hogy elkerülhető legyen az egy szervezetben lévő fehérjék kölcsönhatásának téves átvitele feltételezett ortológra. fehérjék egy másik szervezetben e fehérjék paralógjainak jelenlétében egy másik szervezetben, amelyek a megfelelő gének megkettőződése következtében keletkeztek az evolúció folyamatában . A rendszer az NCBI által fenntartott taxonómia verziót használja. Az élőlények közötti fehérje-fehérje kölcsönhatások ortológia alapján történő átvitele a taxonómiai hierarchia legalacsonyabb szintjétől a legmagasabb szintig szekvenciálisan történik [2] .

A genomi kontextus összehasonlító elemzésén alapuló előrejelzések

Azok a gének, amelyek fehérjetermékei együtt működnek egy anyagcsereútban vagy szerkezeti komplexumban, gyakran közös szabályozás alatt állnak, és közös természetes szelekciós nyomásnak vannak kitéve . Az ilyen gének hajlamosak együttes lokalizációra [12] , sőt fúziós gént is alkotnak [13] . Az ilyen gének gyakran közel vannak egymáshoz, feltehetően egyetlen transzkripciós egységet ( operont ) alkotnak. A különböző organizmusok operonjaiban a gének halmaza és azok sorrendje hasonló, de nem feltétlenül azonos. A STRING a következő típusú genomi kontextusokat különbözteti meg [9] :

Az eukarióták nem rendelkeznek operonszerkezettel, de egyes eukarióta fehérjék ortológok a prokarióta fehérjékhez, így a STRING átviszi az eukarióta fehérjékre a prokarióták genomiális kontextusának összehasonlító elemzéséből megjósolt funkcionális kapcsolatokat [8] .

A STRING olyan konzervált génklasztereket keres, amelyek evolúciós története jobban hasonlít a véletlenül vártnál. A STRING egyetlen maggénnel indul, és első iterációja során olyan géneket talál, amelyek gyakran előfordulnak egy adott génnel ugyanabban a genomiális kontextusban számos filogenetikailag távoli organizmusban. A gének előfordulásának tökéletes egyezése nem szükséges, bár ez az információ számszerűsített. A következő iterációnál az előző iteráció során talált új géneket használják magként. Az iterációk addig folytatódnak, amíg nem találnak új géneket (konvergencia). Így sok gén közvetett kapcsolatban áll a primer génnel. Egy genomi kontextusba csak olyan gének kerülhetnek, amelyek távolsága nem haladja meg a 300 bázispárt [8] . A 8-as verziótól kezdődően a különböző DNS-szálakon elhelyezkedő gének ugyanabba a genomi kontextusba kerülhetnek. Az utóbbi esetben a megjósolt funkcionális kapcsolat kisebb súllyal esik latba, ami kevésbé járul hozzá e kapcsolat megbízhatóságának végső értékeléséhez, összehasonlítva a csak egy DNS-szálon elhelyezkedő génekből álló genomi összefüggésből megjósolt funkcionális kapcsolattal [4 ] . A hozzárendelt súlyt azon organizmusok száma normalizálja, amelyekben ezt a kapcsolatot megjósolják [7] , és növekszik, ha ezt a kapcsolatot filogenetikailag távoli ornizmusokban jósolják [6] .

A gén konzervált környezetének összeállításakor a 8-as verziótól kezdve figyelmen kívül hagyjuk a nem kódoló DNS-szálon a rövid, részben átfedő géneket, mivel kiderülhet, hogy hamis jóslatok [4] .

2005 óta a STRING kétféle megközelítést alkalmaz a fehérje-fehérje kölcsönhatások előrejelzésére a genomiális kontextus összehasonlító elemzése alapján: amikor a felhasználó kéri, kiválaszthatja a COG-módot vagy a Protein-módot. A COGs módban a konzervált génklaszterek keresése azzal a feltétellel történik, hogy a fehérjék ortológok legyenek, pl. az interakciókat a mindent vagy semmit alapon jósolják meg. A Proteins-módban a konzervatív génklaszterek keresése a fehérje aminosavszekvenciáinak mennyiségi hasonlósága alapján történik, pl. az előre jelzett kölcsönhatások kiterjeszthetők paralógokra is, ha léteznek a szervezetben [6] . Korábban a STRING-ben a fehérje aminosavszekvenciáinak mennyiségi hasonlóságát Smith-Waterman algoritmussal határozták meg . A 9-es verziótól (2011) a SIMAP mátrixokat [3] [14] használják a fehérje aminosavszekvenciák hasonlóságának számszerűsítésére .

Felhasználói felület

A STRING adatbázis lekérdezéséhez meg kell adnia egy vagy több fehérje azonosítóját vagy aminosavszekvenciáját, és ki kell választania egy szervezetet. Egy fehérje aminosav-szekvenciájára vonatkozó kérés esetén a kiválasztott szervezet összes fehérjéjére BLAST -keresést hajtanak végre (küszöbérték E-érték = 10 -5 ) [8] , és a felhasználót felkérik, hogy válasszon egyet a azokat a leleteket, amelyeknél egy adott szervezetben más fehérjékkel való lehetséges kölcsönhatások (Proteins-mode ) vagy COG-k (COG-mód) mutathatók ki.

Egy adott fehérje és más fehérjék kísérletileg ismert és de novo előre megjósolt kölcsönhatásait grafikonként ábrázoljuk, amelynek csúcsai fehérjék, a szélei pedig különböző típusú bizonyítékok a fehérjék közötti funkcionális kapcsolatokra. Azoknak a fehérjéknek megfelelő csúcsok, amelyek krisztallográfiai szerkezetét megfejtették (vagy bizonyos azonossággal megjósolták), nagyobbak. A felugró ablak tetejére kattintva elérhetők a harmadik féltől származó forrásokhoz mutató hivatkozások, amelyek információkat tartalmaznak erről a fehérjéről, mint például a RefSeq, KEGG , UniProt , SMART és SWISS-MODEL, valamint a tartomány architektúrájának előnézete és Ennek a fehérjének a krisztallográfiai szerkezete (dekódolt vagy megjósolt specifikus azonossággal). Lehetőség van a kölcsönhatások hálózatának klaszterezésére, más fehérjék hozzáadására a kölcsönhatások hálózatába, ha a funkcionális kapcsolat megbízhatóságának küszöbe csökken (és fordítva, eltávolítani a fehérjéket a kölcsönhatások hálózatából, ha a küszöböt növeljük), beállíthatja a funkcionális kapcsolatra vonatkozó elfogadható bizonyítéktípusok előállítása (például csak azokat a fehérjéket hagyhatja meg a kölcsönhatások hálózatában, amelyek kölcsönhatásaira kísérleti bizonyíték van), valamint a talált fehérje-fehérje kölcsönhatások listáját szöveges fájlként mentheti és az interakciók hálózatának képének mentése [3] .

Az adott fehérje lehetséges funkcionális összefüggéseinek listája minden összefüggésre bizonyítékot tartalmaz, és az egyes kapcsolatok becsült megbízhatósági szintje szerint rangsorolják [2] .

Elérhető egy filogenetikai fa nézet , amely kisszámú univerzális fehérjecsalád összekapcsolt szekvencia-illesztéséből áll [5] [15] , amelyen különféle genomi kontextusok vannak ábrázolva. Egy adott fehérjét említő cikkekre mutató hivatkozások állnak rendelkezésre, beleértve a kísérleti cikkeket is.

Integráció más erőforrásokkal

Van egy STRING bővítmény a Cytoscape -hez [16] . A 10-es (2015) verziótól kezdődően a STRINGdb szoftvercsomag letölthető a Bioconductortól , és lehetővé teszi a STRING szerver lekérdezését az R programozási nyelvről [1] .

Jegyzetek

  1. 1 2 3 4 D. Szklarczyk at al. STRING v10: fehérje-fehérje interakciós hálózatok, integrálva az élet  fájába //  Nukleinsavkutatás : folyóirat. - 2015. - Kt. 43 . - P. D447-D452 . - doi : 10.1093/nar/gku1003 . — PMID 25352553 .
  2. 1 2 3 4 A. Franceschini és mtsai. STRING v9.1: fehérje-fehérje interakciós hálózatok fokozott lefedettséggel és integrációval  //  Nukleinsav -kutatás : folyóirat. - 2013. - Kt. 41 . - P. D808-D815 . - doi : 10.1093/nar/gks1094 . — PMID 23203871 .
  3. 1 2 3 4 5 6 D. Szklarczyk at al. A STRING adatbázis 2011-ben: fehérjék funkcionális interakciós hálózatai, globálisan integrálva és  pontozott //  Nukleinsavkutatás : folyóirat. - 2011. - 20. évf. 39 . - P. D561-D568 . - doi : 10.1093/nar/gkq973 . — PMID 21045058 .
  4. 1 2 3 4 L. Jensen és mtsai. 8. STRING – globális kép a fehérjékről és funkcionális kölcsönhatásaikról 630  szervezetben //  Nukleinsavkutatás : folyóirat. - 2009. - 1. évf. 37 . - P. D412-D416 . - doi : 10.1093/nar/gkn760 . — PMID 18940858 .
  5. 1 2 3 C. Von Mering és mtsai. STRING 7 – a közelmúltbeli fejlemények a fehérjekölcsönhatások integrációjában és  előrejelzésében //  Nukleinsavkutatás : folyóirat. - 2007. - Vol. 35 . - P. D358-D362 . doi : 10.1093 / nar/gkl825 . — PMID 17098935 .
  6. 1 2 3 4 5 6 C. Von Mering et al. STRING: ismert és előre jelzett fehérje-fehérje asszociációk, integrálva és az organizmusok között  átadva //  Nukleinsavkutatás : folyóirat. - 2005. - 20. évf. 33 . - P. D433-D437 . - doi : 10.1093/nar/gki005 . — PMID 15608232 .
  7. 1 2 C. Von Mering és mtsai. STRING: a fehérjék közötti előrejelzett funkcionális összefüggések adatbázisa  //  Nukleinkutatási savak : folyóirat. - 2003. - 1. évf. 31 . - P. 258-261 . - doi : 10.1093/nar/gkg034 . — PMID 12519996 .
  8. 1 2 3 4 B. Snel és munkatársai. STRING: egy webszerver egy gén ismétlődően előforduló környezetének lekérésére és megjelenítésére  //  Nukleinsavak kutatása : folyóirat. - 2000. - Vol. 28 . - P. 3442-3444 . doi : 10.1093 / nar/28.18.3442 . — PMID 10982861 .
  9. 1 2 3 M. Huynen et al. A fehérjeműködés előrejelzése genomi kontextus alapján: kvantitatív értékelés és kvalitatív  következtetések  // Genomkutatás : folyóirat. - 2000. - Vol. 10 . - P. 1204-1210 . - doi : 10.1101/gr.10.8.1204 . — PMID 10958638 .
  10. M. Galperin et al. Kiterjesztett mikrobiális genom lefedettség és továbbfejlesztett fehérjecsalád annotáció a COG adatbázisban  //  Nukleinsavak kutatása : folyóirat. - 2015. - Kt. 43 . - P. D261-D269 . - doi : 10.1093/nar/gku1223 . — PMID 25428365 .
  11. S. Powell et al. eggNOG v4.0: beágyazott ortológiai következtetés 3686  organizmuson //  Nukleinsavkutatás : folyóirat. - 2014. - Kt. 42 . - P. D231-D239 . - doi : 10.1093/nar/gkt1253 . — PMID 24297252 .
  12. M. Price et al. Az operonképződést a koreguláció és nem a horizontális géntranszfer  vezérli //  Genomkutatás : folyóirat. - 2005. - 20. évf. 15 . - P. 809-819 . - doi : 10.1101/gr.3368805 . — PMID 15930492 .
  13. A. Enright et al. Protein interakciós térképek teljes genomokhoz génfúziós események alapján  (angol)  // Nature : Journal. - 1999. - 1. évf. 402 . - P. 86-90 . - doi : 10.1038/47056 . — PMID 10573422 .
  14. T. Rattei et al. SIMAP – előre kiszámított fehérjeszekvencia hasonlóságok, domének, megjegyzések és klaszterek átfogó  adatbázisa //  Nukleinsavkutatás : folyóirat. - 2010. - 20. évf. 38 . - P. D223-D226 . doi : 10.1093 / nar/gkp949 . — PMID 19906725 .
  15. F. Ciccarelli et al. Egy nagy felbontású életfa automatikus rekonstrukciója felé  (angol)  // Tudomány : folyóirat. - 2006. - 20. évf. 311 . - P. 1283-1287 . - doi : 10.1126/tudomány.1123061 . — PMID 16513982 .
  16. Cytoscape. STRINGApp . Letöltve: 2017. május 15. Az eredetiből archiválva : 2017. május 20.

Linkek