Pozíciós súlymátrix

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. november 10-én felülvizsgált verziótól ; az ellenőrzések 2 szerkesztést igényelnek .

A pozíciós súlymátrix (PWM) egy bioinformatikai módszer, amelyet biológiai szekvenciák motívumainak keresésére használnak .
A PWM felépíthető a kapcsolódó szekvenciák vagy hasonló funkciókat ellátó szekvenciák többszörös összehangolása alapján. A PWM-et számos modern algoritmusban használják új motívumok felfedezésére [1] .

Háttér

A helyzeti súlymátrixot Gary Stormo amerikai genetikus vezette be .és munkatársai 1982-ben [2] a konszenzusos szekvenciák egy alternatív megjelenítési módjaként . A konszenzus szekvenciákat korábban is használták a biológiai szekvenciák közös motívumainak megjelenítésére, azonban ennek a módszernek volt néhány hátránya ezen motívumok előrejelzésében és új szekvenciákban való keresésében [3] . Első alkalommal a PVM-t használták transzlációs iniciációs helyek keresésére az RNS -ben . Andrzej Ehrenfeucht lengyel-amerikai matematikus egy súlymátrix létrehozásához, amellyel meg lehet különböztetni a valódi helyeket a sorozatok hasonló szakaszaitól.perceptron algoritmust javasoltak . Az igaz és hamis helyek mintáin végzett perceptron képzés eredménye egy mátrix és egy küszöbérték volt a két adatkészlet közötti különbséghez. Ennek a mátrixnak a tesztelése új szekvenciákon, amelyek nem szerepelnek a képzési készletben, azt mutatta, hogy ez a módszer pontosabb és érzékenyebb a konszenzusos szekvencia felépítéséhez képest.

A PWM előnyei a konszenzus szekvenciákkal szemben a mátrixokat népszerű módszerré tették a biológiai szekvenciák motívumainak ábrázolására [4] [5] .

Matematikai definíció

A helyzeti súlymátrix szigorú meghatározása a következő [6] :

, ahol  a szekvencia ábécéje (zd. nukleotidok),  a pozíció száma,

 egy helyzeti valószínűségi mátrix,  egy betű előfordulása az ábécében (azaz 0,25 egy nukleotid szekvencia és 0,05 egy aminosav szekvencia esetén).

PVM létrehozása

A PVM egy mátrix, amelynek sorainak száma megfelel az ábécé méretének ( nukleinsavaknál 4 nukleotid , fehérjeszekvenciáknál 20 aminosav ), az oszlopok száma pedig a motívum hosszának [6] .

1. lépés: Pozíciós valószínűségi mátrix felépítése

A többszörös törlés nélküli igazításon alapuló súlymátrix felépítésének első lépése egy pozíciófrekvenciás mátrix (PMF) létrehozása. Ennek a mátrixnak az elemei megfelelnek annak, hogy az ábécé egyes betűi hányszor fordulnak elő a motívum egy adott helyén. Ezt követően a PMP-t helyzeti valószínűségi mátrixsá alakítják át az igazításban lévő szekvenciák teljes számára történő normalizálással. Egy ilyen mátrix megmutatja, hogy mekkora a valószínűsége annak, hogy egy adott betűvel találkozunk egy adott pozícióban a kezdeti igazításban.

A valószínűségi mátrix minden eleme egyenlő annak a valószínűségével, hogy a kezdeti igazításban egy betűvel találkozunk, és a következő képlettel számítjuk ki : [1] : ahol  a sorszám,  a pozíciószám,  a ábécé,

a sorozatban  lévő pozíciónak megfelelő betű , és  a következő képlettel kiszámított indikátorfüggvény :

Például figyelembe véve a következő tíz egymáshoz igazított DNS-szekvenciát, amelyek egy motívumot képviselnek:

GAGGTAAAC
TCCGTAAGT
CAGGTTGGA
ACAGTCAGT
TAGGTCATT
TAGGTACTG
ATGGTAACT
CAGGTATAC
TGTGTGAGT
AAGGTAAGT

rendre a helyzeti frekvencia mátrix:

és ezért a sorozatok számával való elosztás után kapott valószínűségi mátrix:

[7] .

Pozíciós valószínűségi mátrixban az egyes oszlopok értékeinek összege, vagyis annak a valószínűsége, hogy egy adott helyen az ábécé bármely betűje találkozik, törlésmentes kezdeti igazítás esetén 1.

Ennek a mátrixnak a segítségével kiszámíthatjuk annak valószínűségét, hogy minden pozícióban a benne jelzett valószínűségű betűket generálva egy sorozatot kapunk . Mivel a mátrix oszlopait egymástól függetlennek tételezzük fel , ez a valószínűség egyenlő annak a valószínűségének szorzatával, hogy a sorozat minden betűje a helyére kerül, azaz: hol  van a sorozat betűje a pozícióban . Például kiszámítható annak valószínűsége, hogy az S = GAGGTAAAC sorozatot az előző példa mátrixa kapja:



Megjegyzés

A helyzeti valószínűségi mátrix kis adattömbből történő kiszámításához gyakran pszeudoszámlákat használnak . A minta hiányossága miatt olyan helyzet állhat elő, amikor az eredeti mintában nincs minden betű egy adott helyen. Ebben az esetben annak a valószínűsége, hogy megkapjuk ezt a betűt, amikor ebből a mátrixból véletlenszerű sorozatot generálunk, nullával egyenlő. Ennek megfelelően annak a valószínűsége, hogy egy ilyen betűt tartalmazó sorozatot ebben a pozícióban generálunk, szintén nulla lesz, függetlenül a sorozat többi részétől [8] . Ennek elkerülése érdekében a valószínűségi mátrix minden eleméhez hozzáadunk valamilyen értéket, amelyet pszeudoszámlálónak neveznek, hogy az ne legyen nulla. A Laplace-szabály szerint a frekvenciamátrix minden eleméhez 1-et adunk – ez a minimális lehetséges betű előfordulása ebben a helyzetben. Léteznek bonyolultabb pszeudoszámláló rendszerek is, például Dirichlet-keverékeket vagy helyettesítési mátrixokat használnak .

A pszeudoszámlálások ismeretében a valószínűségi mátrix definíciója a következőképpen fogalmazható meg:

, ahol  - PMC,  - pszeudoszámláló függvény [9] .

A fenti példában, amely pszeudoszámlálás nélkül készült, minden olyan sorozatnak, amelynek nincs G a negyedik pozíciójában vagy T az ötödik pozíciójában, 0 a valószínűsége.

2. lépés. Átmenet a valószínűségekről a súlyokra

A PWM létrehozásának utolsó lépése az átmenet a motívum különböző pozícióiban lévő betűk valószínűségétől a súlyukhoz. Leggyakrabban ezeket a súlyokat log-likelihood hányadosként számítják ki , figyelembe véve a véletlen sorozat generálására szolgáló háttérmodellt b. A legegyszerűbb háttérmodell feltételezi, hogy minden betű egyformán gyakran szerepel az adatkészlet bármely pozíciójában, azaz az ábécé bármely karakterének értékében (0,25 a nukleotidok és 0,05 az aminosavak esetében). A háttérmodellnek nem kell egyenletes betűeloszlást feltételeznie: például magas GC-összetételű organizmusok vizsgálatakor a C és G valószínűsége növekedhet, A és T esetében pedig csökkenhet. Így a súlymátrix elemeit a [6] képlettel számítjuk ki :

Ezt a transzformációt a példa valószínűségi mátrixára alkalmazva (a pszeudoszámlálások figyelmen kívül hagyásával) a következőt kapjuk:

Abban az esetben, ha az SRP elemeit a log-likelihood hányados segítségével számítjuk ki, a sorozat súlya kiszámítható a sorozat minden betűjére adott súlyok összegeként. Az eredményül kapott súly képet ad arról, hogy ez a sorozat hogyan felel meg az indítéknak, amelyre a helyzeti súlymátrixot létrehozták. Minél nagyobb a valószínűsége annak, hogy a sorozatot a megfelelő valószínűségi mátrix generálja, és nem véletlen, annál nagyobb a súly.

A PBM tájékoztató értéke

A PVM információtartalma megmutatja, hogy a benne leírt pozíciókban lévő betűk eloszlása ​​miben tér el az egységes eloszlástól . A motívum pozíciójában lévő minden karakter saját információja egyenlő:

Az elem várható (átlagos) öninformációja:

A teljes mátrix információtartalma megegyezik a mátrix egyes elemeihez tartozó összes várható átlagos sajátérték összegével. Az SPM információtartalmát egyenetlen háttéreloszlás esetén a következő képlettel számítjuk ki:

hol  van az adott szimbólum háttérfrekvenciája.

Az információtartalom a Kullback-Leibler távolsághoz vagy a relatív entrópiához kapcsolódik . Ha azonban a PSSM algoritmust genomikus szekvenciák keresésére használjuk (lásd alább), egy ilyen egységes korrekció a motívumban lévő különböző bázisok jelentőségének túlbecsléséhez vezethet az n-merek valós genomokban való egyenlőtlen eloszlása ​​miatt, ami szignifikánsan több téves pozitív eredmény [10] .

PBM használata

A PVM-ket széles körben használják nukleotid- és fehérjeszekvenciák elemzésére. Mindenekelőtt konkrét helyszínek és motívumok keresésére szolgálnak. Például a MATCH algoritmus [11] képes potenciális kötőhelyeket keresni a transzkripciós faktorokhoz a DNS-szekvenciákban. Hasonló megközelítéseket alkalmaznak a fehérjék esetében is [12] . A PVM segítségével a funkcionális domének keresése mellett megjósolható a fehérjék különféle tulajdonságai, mint például a másodlagos szerkezet [13] [14] [15] , az oldószerhez való hozzáférhetőségük [16] [17] , a szerkezetben lévő kontaktusok [ 18] . A motívumok keresése mellett többszörös alignment PWM-eket használnak a fehérjecsaládok leírására. Léteznek PVM adatbázisok, amelyek segítségével megállapítható, hogy egy adott fehérje ismert családokhoz tartozik-e. A PVM létrehozásának és használatának módszereit is fejlesztik. Például kifejlesztettek egy módszert PWM létrehozására nagy, többszörös fehérje-illesztések használata nélkül, ami jelentősen felgyorsítja a számításokat a kezdeti adatok nagy tömbje esetén [19] . Ezen túlmenően létezik egy olyan megközelítés, amely több PTM-et használ a fehérjecsaládok leírására: ebben az esetben nem egy, hanem sok mátrixot hoznak létre különböző, nem közeli (az elfogultság elkerülése érdekében) családba tartozó fehérjék felhasználásával.

Algoritmusok a PVM felépítéséhez és használatához

Különféle algoritmusok léteznek a sorozatokban található PWM egyezések keresésére. Az egyik példa a MATCH algoritmus, amelyet a ModuleMasterben implementáltak. A nukleotidok, valamint PWM/PSSM aminosavak felhasználásával végzett gyors adatbázis-keresések bonyolultabb algoritmusai a possumsearch szoftverben vannak implementálva, és Beckstette et al. (2006) [20] .

A leghíresebb algoritmusok közé tartozik még a MEME és a Gibbs [1] .

PVM implementáció

A kész PVM implementáció a Python ( BioPython csomag ) és az R ( seqLogo library ) programozási nyelvekben használható.

Minta R kód

#install ha szükséges forrás ( "http://bioconductor.org/biocLite.R" ) biocLite ( "seqLogo" ) könyvtár ( seqLogo ) a < -c ( 0,4,4,0,3,7,4,3,5,4,2,0,0,4 ) c < -c ( 3,0,4,8,0,0 , _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 0 , 3 , 0 , 0 , 0 , 0 , 2 , 4 ) g < - c ( 2 , 3 , 0 , 0 , 0 , 0 , 0 , 0 , 1 , 0 , 6 , 8 , 5 , 0 ) t < -c ( 3 , 1 , 0 , 0 , 5 , 1 , 4 , 2 , 2 , 4 , 0 , 0 , 1 , 0 ) df <- data.frame ( a , c , g , t ) df a c g t 1 0 3 2 3 2 4 0 3 1 3 4 4 0 0 4 0 8 0 0 5 3 0 0 5 6 7 0 0 1 7 4 0 0 4 8 3 3 0 2 9 5 0 1 2 10 4 0 0 4 11 2 0 6 0 12 0 0 8 0 13 0 2 5 1 14 4 4 0 0 #define függvény, amely elosztja a gyakoriságot a sorösszeggel, azaz arányok aránya <- függvény ( x ){ rs <- összeg ( x ); return ( x / rs ); } #pozíciósúlymátrix létrehozása mef2 <- alkalmazni ( df , 1 , arány ) mef2 <- makePWM ( mef2 ) seqLogo ( mef2 )

Jegyzetek

  1. 1 2 3 CSB2007 Pozíciósúlymátrixok tanulása szekvencia- és kifejezésadatokból . www.lifesciencesociety.org. Letöltve: 2017. április 30. Az eredetiből archiválva : 2016. december 2..
  2. Stormo, Gary D.; Schneider, Thomas D.; Arany, Larry; Ehrenfeucht, Andrzej. A „Perceptron” algoritmus használata transzlációs iniciációs helyek megkülönböztetésére E. coliban  //  : en:Nucleic Acids Research|Nucleic Acids Research  : Journal. - 1982. - 1. évf. 10 , sz. 9 . - P. 2997-3011 . doi : 10.1093 / nar/10.9.2997 .
  3. Stormo, GD DNS kötőhelyek: reprezentáció és felfedezés  (neopr.)  // Bioinformatika. - 2000. - január 1. ( 16. évf. 1. szám ). - S. 16-23 . - doi : 10.1093/bioinformatika/16.1.16 . — PMID 10812473 .
  4. Sinha, S. On counting position weight matrix matches in a sequence, with application to discriminative motif finding  //  Bioinformatics : Journal. - 2006. - július 27. ( 22. évf. , 14. sz.). - P. e454-e463 . - doi : 10.1093/bioinformatika/btl227 .
  5. Xia, Xuhua. Position Weight Matrix, Gibbs Sampler, and the Associated Significance Tests in Motif Characterization and Prediction  //  Scientifica : folyóirat. - 2012. - Kt. 2012 . - P. 1-15 . - doi : 10.6064/2012/917540 .
  6. 1 2 3 Pozíciósúly mátrix - Töprengések egy valószínűtlen jelölttől  , Töprengés egy valószínűtlen jelölttől (  2013. október 1.). Archiválva az eredetiből 2017. április 1-jén. Letöltve: 2017. április 30.
  7. Guigo, Roderic Bevezetés a pozícióspecifikus pontozási mátrixokba . http://bioinformatica.upf.edu . Letöltve: 2015. április 29. Az eredetiből archiválva : 2012. november 28..
  8. Nishida, K.; Frith, M. C.; Nakai, K. A transzkripciós faktor kötőhelyeinek álszámlálása  //  Nucleic Acids Research : folyóirat. - 2008. - december 23. ( 37. évf. , 3. sz.). - P. 939-944 . - doi : 10.1093/nar/gkn1019 .
  9. Pozíciósúly mátrix – Töprengések egy valószínűtlen jelölttől  (Eng.) , Gondolatok egy valószínűtlen jelölttől  (2013. október 1.). Archiválva az eredetiből 2017. április 1-jén. Letöltve: 2017. március 31.
  10. Ivan Erill, Michael C O'Neill. A DNS-kötőhely azonosítására szolgáló információelméleti alapú módszerek újravizsgálata  // BMC Bioinformatics. — 2009-02-11. - T. 10 . - S. 57 . — ISSN 1471-2105 . - doi : 10.1186/1471-2105-10-57 .
  11. Kel AE, et al. MATCHTM: eszköz a transzkripciós faktor kötőhelyek kereséséhez DNS-szekvenciákban  //  Nucleic Acids Research : folyóirat. - 2003. - 1. évf. 31 , sz. 13 . - P. 3576-3579 . - doi : 10.1093/nar/gkg585 . — PMID 12824369 .
  12. Beckstette M., et al. Gyors index alapú algoritmusok és szoftverek a pozícióspecifikus pontozási mátrixok egyeztetéséhez  //  BMC Bioinformatics : folyóirat. - 2006. - 20. évf. 7 . - 389. o . - doi : 10.1186/1471-2105-7-389 . — PMID 1635428 .
  13. Jones DT Protein másodlagos szerkezetének előrejelzése pozíció-specifikus pontozási mátrixok alapján  // J  Mol Biol : folyóirat. - 1999. - 1. évf. 292 . - P. 195-202 . — PMID 10493868 .
  14. Pollatri, G. & McLysaght, A. Porter: új, pontos szerver a fehérje másodlagos szerkezetének előrejelzéséhez  //  Bioinformatika : folyóirat. - 2005. - 20. évf. 21 . - P. 1719-1720 . — PMID 15585524 .
  15. Rost, B. Áttekintés: A fehérje másodlagos szerkezetének előrejelzése továbbra is emelkedik  // J  Struct Biol : folyóirat. - 2001. - 20. évf. 134 . - P. 204-218 . — PMID 11551180 .
  16. Adamczak, R.; Porollo, A. & Meller, J. Az oldószer hozzáférhetőségének pontos előrejelzése neurális hálózatokon alapuló regresszióval  //  Proteins : Journal. - 2004. - 20. évf. 56 . - P. 753-767 . — PMID 15281128 .
  17. Pollastri, G.; Martin, AJM; Mooney, C. & Vullo, A. A fehérje másodlagos szerkezetének és az oldószer hozzáférhetőségének pontos előrejelzése a szekvencia- és szerkezetinformációk konszenzusos kombinálói által  //  BMC Bioinformatics : folyóirat. - 2007. - Vol. 8 . - 201. o . — PMID 17570843 .
  18. Pollastri, G.; Baldi, P.; Fariselli, P. & Casadio, R. A fehérjékben található maradékkontaktusok számának jobb előrejelzése visszatérő neurális hálózatok által  //  Bioinformatika : folyóirat. - 2001. - 20. évf. 17 . - P. 1. melléklet: S234-S242 . — PMID 11473014 .
  19. Shandar Ahmad és Akinori Sarai. A fehérjék DNS-kötő helyek PSSM-alapú előrejelzése  //  BMC Bioinformatics : folyóirat. - 2005. - 20. évf. 6 . — 33. o . — PMID 15720719 .
  20. Michael Beckstette, Robert Homann, Robert Giegerich, Stefan Kurtz. Gyors index alapú algoritmusok és szoftverek a pozícióspecifikus pontozási mátrixok egyeztetéséhez  // BMC Bioinformatics. - 2006-08-24. - T. 7 . - S. 389 . — ISSN 1471-2105 . - doi : 10.1186/1471-2105-7-389 .