A fehérjefunkció előrejelzése

Fehérjefunkció előrejelzése – egy fehérje biológiai szerepének és jelentésének meghatározása a sejt összefüggésében . A funkció előrejelzése rosszul ismert fehérjékre vagy a genomiális szekvencia adatokból megjósolt hipotetikus fehérjékre történik. Az előrejelzés információforrása lehet a nukleotidszekvenciák homológiája , a génexpressziós profilok , a fehérjék doménszerkezete , a publikációk szövegeinek intellektuális elemzése, a filogenetikai és fenotípusos profilok, a fehérje-fehérje kölcsönhatások .

A fehérjefunkció nagyon tág fogalom: a fehérjék szerepe a biokémiai reakciók katalízisétől a jelátvitelig és a sejttranszportig terjed , és egyetlen fehérje több sejtfolyamatban is specifikus szerepet tölthet be [1] .

Általánosságban elmondható, hogy a funkció úgy fogható fel, mint "minden, ami egy fehérjével vagy annak segítségével történik". A génontológiai projekt a funkciók hasznos osztályozását javasolta jól definiált kifejezések listája (szókincse) alapján, amelyeket három fő kategóriába soroltak: molekuláris funkciók , biológiai folyamatok és sejtkomponensek [2] . Ebből az adatbázisból a fehérje nevével vagy azonosítószámával lehet megtalálni a hozzá rendelt „Génontológia” kifejezéseket vagy a számított vagy kísérleti adatok alapján készült annotációkat.

Annak ellenére, hogy manapság olyan modern módszereket alkalmaznak egy fehérje funkcióinak kísérleti bizonyítására, mint a microarray analízis , az RNS interferencia és a kéthibrid analízis , a szekvenálási technológiák olyan sokat fejlődtek, hogy a nyílt fehérjék kísérleti jellemzésének üteme messze elmarad a tempótól. új szekvenciák felfedezése [3] . Ezért az új fehérjeszekvenciák annotálása elsősorban számítási módszereken alapuló predikcióval történik majd, mivel így sokkal gyorsabban és egyszerre több génre /fehérjére is lehet szekvenciákat jellemezni. Az első tulajdonság-előrejelzési technikák a homológ fehérjék ismert jellemzőkkel való hasonlóságán alapultak (úgynevezett homológia-alapú tulajdonság-előrejelzés ). A módszerek továbbfejlesztése a genomikus kontextuson és a fehérje molekula szerkezetén alapuló előrejelzések megjelenéséhez vezetett , amelyek lehetővé tették a kapott adatok körének bővítését és a különböző típusú adatokon alapuló módszerek kombinálását a legteljesebb eredmény elérése érdekében. kép a fehérje szerepéről [3] . A génfunkciók számítási előrejelzésének értékét és teljesítményét hangsúlyozza, hogy 2010-ben a génontológiai annotációk 98%-a más annotációs adatbázisokból történő automatikus kinyerés alapján, és csak 0,6%-a kísérleti adatok alapján készült [4] .

Módszerek a fehérje működésének előrejelzésére

Homológián alapuló módszerek

A hasonló szekvenciájú fehérjék általában homológok [5] , ezért hasonló funkciójuk van. Ezért a közelmúltban szekvenált genomokban a fehérjéket általában más genomokból származó hasonló fehérjék szekvenciáival analógiával látják el. A közeli rokon fehérjék azonban nem mindig töltik be ugyanazt a funkciót [6] , például a Gal1 és Gal3 élesztőfehérjék 73 % -os és 92%-os hasonlósággal paralógok, amelyek az evolúció során nagyon eltérő funkciókra tettek szert: például a Gal1 egy galaktokináz , a Gal3 pedig egy indukáló transzkripció [7] . Sajnos nincs egyértelmű küszöb a szekvencia-hasonlóság mértékére a jellemzők biztonságos előrejelzéséhez; sok azonos funkciójú fehérje finom hasonlóságot mutat, míg vannak olyanok, amelyek sorrendben nagyon hasonlóak, de funkciójukban teljesen eltérőek.

Szekvencia-motívumokon alapuló módszerek

A fehérjedomének adatbázisainak fejlesztése, mint például a Pfam [8] , lehetővé teszi, hogy a kívánt szekvenciában már ismert doméneket találjunk, hogy lehetséges funkciókat javasoljunk. A dcGO [9] erőforrás megjegyzéseket tartalmaz mind az egyes tartományokhoz, mind a szupradomainekhez (vagyis két vagy több egymást követő tartomány kombinációjához), ami közelebb teszi az előrejelzést a valósághoz. Magukon a fehérjedoméneken belül is vannak bizonyos funkciókhoz kapcsolódó rövidebb karakterisztikus szekvenciák (ún. motívumok ) [10] , amelyek jelenléte a kívánt fehérjében a motívumok adatbázisaiban való kereséssel meghatározható, mint például a PROSITE [11] . A motívumok felhasználhatók a fehérje intracelluláris lokalizációjának előrejelzésére is: a specifikus rövid szignálpeptidek jelenléte határozza meg, hogy a szintézis után a fehérje mely organellumokba kerül, és számos forrást fejlesztettek ki az ilyen szignálszekvenciák azonosítására [12] , mint pl. Az évek során többször frissített SignalP módszerek fejlesztése [13] . Így a fehérje működésének egyes jellemzői a teljes hosszúságú homológ szekvenciákkal való összehasonlítás nélkül is megjósolhatók.

Fehérjeszerkezeten alapuló módszerek

Mivel egy fehérje 3D szerkezete általában konzerváltabb , mint a fehérje szekvenciája, a szerkezetek hasonlósága jelezheti a fehérjék hasonlóságát és funkcióját. Sok programot fejlesztettek ki hasonló redők keresésére a Protein Data Bankon belül [14] , például FATCAT [15] , CE [16] , DeepAlign [17] . Abban az esetben, ha a kívánt fehérjeszekvenciára nincs megoldott szerkezet, először a szekvencia valószínűsíthető háromdimenziós modelljét állítjuk össze, amely alapján a fehérje funkcióját utólag megjósoljuk; így működik például a RaptorX protein függvény előrejelző szervere. Sok esetben a teljes fehérje szerkezete helyett az egyes motívumok szerkezetét keresik, amelyek például a ligandumkötő helyet vagy az enzim aktív helyét tartalmazzák . Utóbbinak új fehérjeszekvenciákban való megjegyzésére a Catalytic Site Atlas adatbázist [18] fejlesztették ki .

A genomikus kontextuson alapuló módszerek

A közelmúltban alkalmazott predikciós módszerek közül sok nem a korábban leírt szekvencia- vagy szerkezet-összehasonlításokon alapul, hanem az új gének/fehérjék és a már feljegyzettek közötti korreláción: minden génhez filogenetikai profilt állítanak össze (a különböző genomokban való jelenléte vagy hiánya alapján). , amelyeket azután összehasonlítanak a funkcionális kapcsolatok megállapítása érdekében (feltételezzük, hogy az azonos profilú gének funkcionálisan rokonok egymással) [19] . Míg a homológián alapuló módszereket gyakran alkalmaznak molekuláris funkciók megállapítására, a genomi kontextuson alapuló előrejelzés felhasználható arra, hogy felvegye azt a biológiai folyamatot, amelyben egy fehérje részt vesz. Például az ugyanabban a jelátviteli útvonalban részt vevő fehérjéknek közös genomi kontextusuk van a fajok között.

Gének fúziója

Amikor az evolúció során két (vagy több) különböző fehérjéket kódoló gén egy szervezetben egy másik szervezetben egy génbe egyesül, azt mondják, hogy gének fúziója történt (illetve fordított folyamatban a gének szétválása) [20] . Ezt a jelenséget használták ki az összes E. coli fehérjeszekvencia homológjainak keresése során , amikor több mint 6000 pár nem homológ E. coli szekvenciáról találtak homológot más genomok egyetlen génjével, ami potenciális kölcsönhatásra utal az egyes fehérjék között. a párok közül. , ami pusztán homológiából nem jósolható meg.

Kolokalizáció/ko-kifejezés

A prokariótákban az evolúció során gyakran megőrződnek egymáshoz közeli gének klaszterei, amelyek általában olyan fehérjéket kódolnak, amelyek kölcsönhatásba lépnek egymással, vagy ugyanannak az operonnak a részei. Ezért a fehérjék közötti funkcionális hasonlóság előrejelzésére, legalábbis prokariótákban, a kromoszómán lévő gének közelsége (a gének közelségén alapuló módszer) használható [21] . Ezenkívül egyes eukarióta genomokban, köztük a Homo sapiensben , bizonyos biológiai útvonalak esetében megfigyelték a bennük lévő gének közeli elhelyezkedését [22] , ami a technikák fejlődésével hasznos lehet az eukarióták fehérjekölcsönhatásainak tanulmányozásában.

Az ugyanazon folyamatokban részt vevő gének gyakran együtt íródnak át, így az ismert fehérjékkel történő együttes expresszió a megjegyzés nélküli fehérje hasonló funkciójára utalhat. Ezen tény alapján készülnek az úgynevezett „guilt by Association” algoritmusok ,  amelyek nagy mennyiségű szekvenciaadat elemzésére és ismeretlen fehérjék azonosítására szolgálnak a már ismert gének expressziós mintázataihoz való hasonlóság alapján [23] [24] . A bűnrészességi vizsgálatok gyakran ismeretlen funkciójú jelölt gének egy csoportját hasonlítják össze egy célcsoporttal (pl. egy adott betegséggel erősen összefüggő gének), és összegyűjtött adatok alapján (például génkoexpresszió, fehérje-fehérje kölcsönhatások vagy filogenetikai profilok) ) osztályozzák a jelölt géneket a célcsoporthoz való hasonlóságuk mértéke szerint. Például mivel sok fehérje többfunkciós, az ezeket kódoló gének egyidejűleg több célcsoporthoz is tartozhatnak, ezért a „bűnösség miatti bűnösség” vizsgálatok során gyakrabban mutatnak majd ki ilyen géneket, és az ilyen előrejelzések nem specifikusak.

Az alternatív splicing által nyert fehérjeizoformák expressziós profiljának értékelésére használható RNS szekvenálási adatok felhalmozásával gépi tanulási algoritmusokat fejlesztettek ki az izoforma szintű funkciók előrejelzésére [25] .

Számítógépes oldószeres topográfia

A fehérje működésének előrejelzésével kapcsolatos egyik probléma az aktív hely kimutatása, amit bonyolít az a tény, hogy egyes aktív helyek nem alakulnak ki addig, amíg a fehérje konformációs változáson megy keresztül, amelyet kis molekulák, például oldószermolekulák kötődése okoz. A legtöbb fehérjeszerkezetet röntgendiffrakciós analízissel állították elő , amely tiszta fehérjekristályokat igényel, így az aktív helyek kialakulásához szükséges konformációs változások nem követhetők nyomon a fehérjék meglévő háromdimenziós modelljeiben. A számítógépes oldószer-topográfia úgynevezett próbákat (kis szerves molekulákat ) használ, amelyek a számítógépes szimuláció során "mozognak" a fehérje felületén, potenciális kötőhelyeket keresve és az azt követő klaszterezést. Általános szabály, hogy több különböző próbát használnak annak érdekében, hogy a lehető legtöbb különböző próbafehérje konformációs struktúrát kapjunk. Az így létrejövő struktúrákat az átlagos szabadenergia alapján értékeljük. Különböző próbákkal végzett többszöri szimuláció után a legtöbb klaszter kialakulási helyet azonosítják a fehérje aktív helyével [27] .

Ez a módszer a nedves módszer számítógépes adaptációja egy 1996-os közleményből. Különböző szerves oldószerekben való feloldással kapott fehérjeszerkezetek egymásra helyezésekor azt találták, hogy az oldószermolekulák leggyakrabban a fehérje aktív központjában halmozódnak fel. Ezt a munkát azért végezték, hogy eltávolítsák a megmaradt vízmolekulákat, amelyek a röntgendiffrakcióval nyert elektronsűrűség-térképeken jelennek meg: a fehérjével kölcsönhatásba lépve hajlamosak felhalmozódni a fehérje poláris régióiban. Ez vezetett ahhoz az ötlethez, hogy a tisztított fehérjekristályt különféle oldószerekben (például etanolban , izopropanolban ) mossák, hogy meghatározzák, hol helyezkednek el az oldószermolekulák. Az oldószerek az alapján választhatók meg, hogy a fehérje mely molekulákkal tud kölcsönhatásba lépni (például az etanol próbaként való megválasztásával azonosítható a fehérje és a szerin kölcsönhatása, az izopropanol és a treonin közötti kölcsönhatás stb.). Nagyon fontos, hogy a fehérjekristály minden oldószerben megőrizze harmadlagos szerkezetét . A több oldószerrel végzett mosási eljárást követően olyan adatok nyerhetők, amelyek alapján feltételezhetőek a fehérje potenciális aktív helyei [28] .

Jegyzetek

  1. Rost B. , Liu J. , Nair R. , Wrzeszczynski K.O. , Ofran Y. A fehérjefunkció automatikus előrejelzése.  (angol)  // Sejt- és molekuláris élettudományok : CMLS. - 2003. - 1. évf. 60, sz. 12 . - P. 2637-2650. - doi : 10.1007/s00018-003-3114-8 . — PMID 14685688 .
  2. Ashburner M. , Ball CA , Blake JA , Botstein D. , Butler H. , Cherry JM , Davis AP , Dolinski K. , Dwight SS , Eppig JT , Harris MA , Hill DP , Issel-Tarver L. , Kasarskis A. , Lewis S. , Matese JC , Richardson JE , Ringwald M. , Rubin GM , Sherlock G. Gene ontology: eszköz a biológia egyesítéséhez. A génontológiai konzorcium.  (angol)  // Természetgenetika. - 2000. - Vol. 25, sz. 1 . - P. 25-29. - doi : 10.1038/75556 . — PMID 10802651 .
  3. 1 2 Gabaldón T. , Huynen MA Protection of protein function and pathways in the genome era.  (angol)  // Sejt- és molekuláris élettudományok : CMLS. - 2004. - 20. évf. 61. sz. 7-8 . - P. 930-944. - doi : 10.1007/s00018-003-3387-y . — PMID 15095013 .
  4. du Plessis L. , Skunca N. , Dessimoz C. A mit, hol, hogyan és miért a génontológia – primer bioinformatikusoknak.  (angol)  // Tájékoztatók a bioinformatikában. - 2011. - 20. évf. 12, sz. 6 . - P. 723-735. doi : 10.1093 / bib/bbr002 . — PMID 21330331 .
  5. Reeck GR , de Haën C. , Teller DC , Doolittle RF , Fitch WM , Dickerson RE , Chambon P. , McLachlan AD , Margoliash E. , Jukes TH "Homológia" a fehérjékben és nukleinsavakban: terminológiai zavar és kiút abból.  (angol)  // Cell. - 1987. - 1. évf. 50, sz. 5 . - P. 667. - PMID 3621342 .
  6. Whisstock JC , Lesk AM A fehérje működésének előrejelzése fehérjeszekvenciából és szerkezetből.  (angol)  // Negyedéves áttekintések a biofizikáról. - 2003. - 1. évf. 36. sz. 3 . - P. 307-340. — PMID 15029827 .
  7. Platt A. , Ross HC , Hankin S. , Reece RJ . Két aminosav beépítése egy transzkripciós induktorba galaktokinázzá alakítja azt.  (angol)  // Proceedings of the National Academy of Sciences of the United States of America. - 2000. - Vol. 97, sz. 7 . - P. 3154-3159. — PMID 10737789 .
  8. Finn RD , Mistry J. , Tate J. , Coggill P. , Heger A. , ​​Pollington JE , Gavin OL , Gunasekaran P. , Ceric G. , Forslund K. , Holm L. , Sonnhammer EL , Eddy SR , Bateman A. A Pfam fehérjecsaládok adatbázisa.  (angol)  // Nukleinsavak kutatása. - 2010. - 20. évf. 38.-P. D211-222. doi : 10.1093 / nar/gkp985 . — PMID 19920124 .
  9. Fang H. , Gough J. DcGO: tartományközpontú ontológiák adatbázisa funkciókról, fenotípusokról, betegségekről és egyebekről.  (angol)  // Nukleinsavak kutatása. - 2013. - Kt. 41.-P. D536-544. - doi : 10.1093/nar/gks1080 . — PMID 23161684 .
  10. Sleator RD , Walsh P. Az in silico fehérjefunkció előrejelzésének áttekintése.  (angol)  // Archives of Microbiology. - 2010. - 20. évf. 192. sz. 3 . - P. 151-155. - doi : 10.1007/s00203-010-0549-9 . — PMID 20127480 .
  11. Sigrist CJ , Cerutti L. , de Castro E. , Langendijk-Genevaux PS , Bulliard V. , Bairoch A. , Hulo N. PROSITE, a protein domain adatbázis funkcionális jellemzéshez és annotációhoz.  (angol)  // Nukleinsavak kutatása. - 2010. - 20. évf. 38.-P. D161-166. doi : 10.1093 / nar/gkp885 . — PMID 19858104 .
  12. Menne KM , Hermjakob H. , Apweiler R. A szignálszekvencia-előrejelzési módszerek összehasonlítása szignálpeptidek tesztkészletével.  (angol)  // Bioinformatika. - 2000. - Vol. 16. sz. 8 . - P. 741-742. — PMID 11099261 .
  13. Petersen TN , Brunak S. , von Heijne G. , Nielsen H. SignalP 4.0: megkülönböztető szignálpeptidek transzmembrán régiókból.  (angol)  // Természeti módszerek. - 2011. - 20. évf. 8, sz. 10 . - P. 785-786. - doi : 10.1038/nmeth.1701 . — PMID 21959131 .
  14. Berman HM , Westbrook J. , Feng Z. , Gilliland G. , Bhat TN , Weissig H. , Shindyalov IN , Bourne PE The Protein Data Bank.  (angol)  // Nukleinsavak kutatása. - 2000. - Vol. 28, sz. 1 . - P. 235-242. — PMID 10592235 .
  15. Ye Y. , Godzik A. FATCAT: webszerver rugalmas szerkezet-összehasonlításhoz és szerkezeti hasonlóság kereséshez.  (angol)  // Nukleinsavak kutatása. - 2004. - 20. évf. 32. - P. 582-585. doi : 10.1093 / nar/gkh430 . — PMID 15215455 .
  16. Shindyalov IN , Bourne PE A fehérjeszerkezet összehangolása az optimális út inkrementális kombinatorikus kiterjesztésével (CE).  (angol)  // Protein engineering. - 1998. - 1. évf. 11, sz. 9 . - P. 739-747. — PMID 9796821 .
  17. Wang S. , Ma J. , Peng J. , Xu J. Protein structure alignment after spatial proximity.  (angol)  // Tudományos jelentések. - 2013. - Kt. 3. - P. 1448. - doi : 10.1038/srep01448 . — PMID 23486213 .
  18. Porter CT , Bartlett GJ , Thornton JM . The Catalytic Site Atlas: az enzimekben szerkezeti adatok alapján azonosított katalitikus helyek és maradékok forrása.  (angol)  // Nukleinsavak kutatása. - 2004. - 20. évf. 32.—P. D129–133. - doi : 10.1093/nar/gkh028 . — PMID 14681376 .
  19. Eisenberg D. , Marcotte EM , Xenarios I. , Yeates TO A fehérje működése a posztgenomikus korszakban.  (angol)  // Természet. - 2000. - Vol. 405, sz. 6788 . - P. 823-826. - doi : 10.1038/35015694 . — PMID 10866208 .
  20. Marcotte EM , Pellegrini M. , Ng HL , Rice DW , Yeates TO , Eisenberg D. Fehérjefunkció és fehérje-fehérje kölcsönhatások kimutatása genomszekvenciákból.  (angol)  // Tudomány (New York, NY). - 1999. - 1. évf. 285. sz. 5428 . - P. 751-753. — PMID 10427000 .
  21. Overbeek R. , Fonstein M. , D'Souza M. , Pusch GD , Maltsev N. A génklaszterek használata funkcionális csatolás következtetésére.  (angol)  // Proceedings of the National Academy of Sciences of the United States of America. - 1999. - 1. évf. 96, sz. 6 . - P. 2896-2901. — PMID 10077608 .
  22. Lee JM , Sonnhammer EL Az eukarióták útvonalainak genomiális génklaszterezési analízise.  (angol)  // Genomkutatás. - 2003. - 1. évf. 13. sz. 5 . - P. 875-882. - doi : 10.1101/gr.737703 . — PMID 12695325 .
  23. Walker MG , Volkmuth W. , Sprinzak E. , Hodgson D. , Klingler T. A génfunkció előrejelzése genom-skálás expressziós elemzéssel: prosztatarák-asszociált gének.  (angol)  // Genomkutatás. - 1999. - 1. évf. 9, sz. 12 . - P. 1198-1203. — PMID 10613842 .
  24. Klomp JA , Furge KA Gének genomszintű egyeztetése a sejtszerepekkel, egyetlen minta elemzéséből származó bűnös-asszociációs modellek segítségével.  (angol)  // BMC kutatási jegyzetek. - 2012. - Kt. 5. - P. 370. - doi : 10.1186/1756-0500-5-370 . — PMID 22824328 .
  25. Eksi R., Li Hong-Dong, Menon R., Wen Yuchen, Omenn G. S., Kretzler M., Guan Yuanfang.  Funkciók szisztematikus differenciálása alternatív módon összeillesztett izoformákhoz az RNS-seq adatok integrálásával  // PLOS Computational Biology . - 2013. - Kt. 9, sz. 11. - P. e1003314. - doi : 10.1371/journal.pcbi.1003314 . — PMID 24244129 .
  26. Wang G. , MacRaild CA , Mohanty B. , Mobli M. , Cowieson NP , Anders RF , Simpson JS , McGowan S. , Norton RS , Scanlon MJ . Molekuláris betekintés a Plasmodium falciparum apikális membrán antigénje-1 és egy in interakciójába gátló peptid.  (angol)  // Public Library of Science ONE. - 2014. - Kt. 9, sz. 10 . — P. e109674. - doi : 10.1371/journal.pone.0109674 . — PMID 25343578 .
  27. Clodfelter KH , Waxman DJ , Vajda S. A számítógépes oldószer-térképezés feltárja a lokális konformációs változások fontosságát a széles szubsztrátspecifitás szempontjából emlős citokrómokban P450.  (angol)  // Biokémia. - 2006. - Vol. 45, sz. 31 . - P. 9393-9407. doi : 10.1021 / bi060343v . — PMID 16878974 .
  28. Mattos C. , Ringe D. Kötőhelyek lokalizálása és jellemzése fehérjéken.  (angol)  // Természet biotechnológia. - 1996. - 1. évf. 14. sz. 5 . - P. 595-599. - doi : 10.1038/nbt0596-595 . — PMID 9630949 .

Linkek