A pozíciós súlymátrix (PWM) egy bioinformatikai módszer, amelyet biológiai szekvenciák motívumainak keresésére használnak .
A PWM felépíthető a kapcsolódó szekvenciák vagy hasonló funkciókat ellátó szekvenciák többszörös összehangolása alapján. A PWM-et számos modern algoritmusban használják új motívumok felfedezésére [1] .
A helyzeti súlymátrixot Gary Stormo amerikai genetikus vezette be .és munkatársai 1982-ben [2] a konszenzusos szekvenciák egy alternatív megjelenítési módjaként . A konszenzus szekvenciákat korábban is használták a biológiai szekvenciák közös motívumainak megjelenítésére, azonban ennek a módszernek volt néhány hátránya ezen motívumok előrejelzésében és új szekvenciákban való keresésében [3] . Első alkalommal a PVM-t használták transzlációs iniciációs helyek keresésére az RNS -ben . Andrzej Ehrenfeucht lengyel-amerikai matematikus egy súlymátrix létrehozásához, amellyel meg lehet különböztetni a valódi helyeket a sorozatok hasonló szakaszaitól.perceptron algoritmust javasoltak . Az igaz és hamis helyek mintáin végzett perceptron képzés eredménye egy mátrix és egy küszöbérték volt a két adatkészlet közötti különbséghez. Ennek a mátrixnak a tesztelése új szekvenciákon, amelyek nem szerepelnek a képzési készletben, azt mutatta, hogy ez a módszer pontosabb és érzékenyebb a konszenzusos szekvencia felépítéséhez képest.
A PWM előnyei a konszenzus szekvenciákkal szemben a mátrixokat népszerű módszerré tették a biológiai szekvenciák motívumainak ábrázolására [4] [5] .
A helyzeti súlymátrix szigorú meghatározása a következő [6] :
, ahol a szekvencia ábécéje (zd. nukleotidok), a pozíció száma,
egy helyzeti valószínűségi mátrix, egy betű előfordulása az ábécében (azaz 0,25 egy nukleotid szekvencia és 0,05 egy aminosav szekvencia esetén).
A PVM egy mátrix, amelynek sorainak száma megfelel az ábécé méretének ( nukleinsavaknál 4 nukleotid , fehérjeszekvenciáknál 20 aminosav ), az oszlopok száma pedig a motívum hosszának [6] .
A többszörös törlés nélküli igazításon alapuló súlymátrix felépítésének első lépése egy pozíciófrekvenciás mátrix (PMF) létrehozása. Ennek a mátrixnak az elemei megfelelnek annak, hogy az ábécé egyes betűi hányszor fordulnak elő a motívum egy adott helyén. Ezt követően a PMP-t helyzeti valószínűségi mátrixsá alakítják át az igazításban lévő szekvenciák teljes számára történő normalizálással. Egy ilyen mátrix megmutatja, hogy mekkora a valószínűsége annak, hogy egy adott betűvel találkozunk egy adott pozícióban a kezdeti igazításban.
A valószínűségi mátrix minden eleme egyenlő annak a valószínűségével, hogy a kezdeti igazításban egy betűvel találkozunk, és a következő képlettel számítjuk ki : [1] :
ahol a sorszám, a pozíciószám, a ábécé,
a sorozatban lévő pozíciónak megfelelő betű , és a következő képlettel kiszámított indikátorfüggvény :
Például figyelembe véve a következő tíz egymáshoz igazított DNS-szekvenciát, amelyek egy motívumot képviselnek:
GAGGTAAAC |
TCCGTAAGT |
CAGGTTGGA |
ACAGTCAGT |
TAGGTCATT |
TAGGTACTG |
ATGGTAACT |
CAGGTATAC |
TGTGTGAGT |
AAGGTAAGT |
rendre a helyzeti frekvencia mátrix:
és ezért a sorozatok számával való elosztás után kapott valószínűségi mátrix:
Pozíciós valószínűségi mátrixban az egyes oszlopok értékeinek összege, vagyis annak a valószínűsége, hogy egy adott helyen az ábécé bármely betűje találkozik, törlésmentes kezdeti igazítás esetén 1.
Ennek a mátrixnak a segítségével kiszámíthatjuk annak valószínűségét, hogy minden pozícióban a benne jelzett valószínűségű betűket generálva egy sorozatot kapunk . Mivel a mátrix oszlopait egymástól függetlennek tételezzük fel , ez a valószínűség egyenlő annak a valószínűségének szorzatával, hogy a sorozat minden betűje a helyére kerül, azaz:
hol van a sorozat betűje a pozícióban .
Például kiszámítható annak valószínűsége, hogy az S = GAGGTAAAC sorozatot az előző példa mátrixa kapja:
A helyzeti valószínűségi mátrix kis adattömbből történő kiszámításához gyakran pszeudoszámlákat használnak . A minta hiányossága miatt olyan helyzet állhat elő, amikor az eredeti mintában nincs minden betű egy adott helyen. Ebben az esetben annak a valószínűsége, hogy megkapjuk ezt a betűt, amikor ebből a mátrixból véletlenszerű sorozatot generálunk, nullával egyenlő. Ennek megfelelően annak a valószínűsége, hogy egy ilyen betűt tartalmazó sorozatot ebben a pozícióban generálunk, szintén nulla lesz, függetlenül a sorozat többi részétől [8] . Ennek elkerülése érdekében a valószínűségi mátrix minden eleméhez hozzáadunk valamilyen értéket, amelyet pszeudoszámlálónak neveznek, hogy az ne legyen nulla. A Laplace-szabály szerint a frekvenciamátrix minden eleméhez 1-et adunk – ez a minimális lehetséges betű előfordulása ebben a helyzetben. Léteznek bonyolultabb pszeudoszámláló rendszerek is, például Dirichlet-keverékeket vagy helyettesítési mátrixokat használnak .
A pszeudoszámlálások ismeretében a valószínűségi mátrix definíciója a következőképpen fogalmazható meg:
, ahol - PMC, - pszeudoszámláló függvény [9] .
A fenti példában, amely pszeudoszámlálás nélkül készült, minden olyan sorozatnak, amelynek nincs G a negyedik pozíciójában vagy T az ötödik pozíciójában, 0 a valószínűsége.
A PWM létrehozásának utolsó lépése az átmenet a motívum különböző pozícióiban lévő betűk valószínűségétől a súlyukhoz. Leggyakrabban ezeket a súlyokat log-likelihood hányadosként számítják ki , figyelembe véve a véletlen sorozat generálására szolgáló háttérmodellt b. A legegyszerűbb háttérmodell feltételezi, hogy minden betű egyformán gyakran szerepel az adatkészlet bármely pozíciójában, azaz az ábécé bármely karakterének értékében (0,25 a nukleotidok és 0,05 az aminosavak esetében). A háttérmodellnek nem kell egyenletes betűeloszlást feltételeznie: például magas GC-összetételű organizmusok vizsgálatakor a C és G valószínűsége növekedhet, A és T esetében pedig csökkenhet. Így a súlymátrix elemeit a [6] képlettel számítjuk ki :
Ezt a transzformációt a példa valószínűségi mátrixára alkalmazva (a pszeudoszámlálások figyelmen kívül hagyásával) a következőt kapjuk:
Abban az esetben, ha az SRP elemeit a log-likelihood hányados segítségével számítjuk ki, a sorozat súlya kiszámítható a sorozat minden betűjére adott súlyok összegeként. Az eredményül kapott súly képet ad arról, hogy ez a sorozat hogyan felel meg az indítéknak, amelyre a helyzeti súlymátrixot létrehozták. Minél nagyobb a valószínűsége annak, hogy a sorozatot a megfelelő valószínűségi mátrix generálja, és nem véletlen, annál nagyobb a súly.
A PVM információtartalma megmutatja, hogy a benne leírt pozíciókban lévő betűk eloszlása miben tér el az egységes eloszlástól . A motívum pozíciójában lévő minden karakter saját információja egyenlő:
Az elem várható (átlagos) öninformációja:
A teljes mátrix információtartalma megegyezik a mátrix egyes elemeihez tartozó összes várható átlagos sajátérték összegével. Az SPM információtartalmát egyenetlen háttéreloszlás esetén a következő képlettel számítjuk ki:
hol van az adott szimbólum háttérfrekvenciája.Az információtartalom a Kullback-Leibler távolsághoz vagy a relatív entrópiához kapcsolódik . Ha azonban a PSSM algoritmust genomikus szekvenciák keresésére használjuk (lásd alább), egy ilyen egységes korrekció a motívumban lévő különböző bázisok jelentőségének túlbecsléséhez vezethet az n-merek valós genomokban való egyenlőtlen eloszlása miatt, ami szignifikánsan több téves pozitív eredmény [10] .
A PVM-ket széles körben használják nukleotid- és fehérjeszekvenciák elemzésére. Mindenekelőtt konkrét helyszínek és motívumok keresésére szolgálnak. Például a MATCH algoritmus [11] képes potenciális kötőhelyeket keresni a transzkripciós faktorokhoz a DNS-szekvenciákban. Hasonló megközelítéseket alkalmaznak a fehérjék esetében is [12] . A PVM segítségével a funkcionális domének keresése mellett megjósolható a fehérjék különféle tulajdonságai, mint például a másodlagos szerkezet [13] [14] [15] , az oldószerhez való hozzáférhetőségük [16] [17] , a szerkezetben lévő kontaktusok [ 18] . A motívumok keresése mellett többszörös alignment PWM-eket használnak a fehérjecsaládok leírására. Léteznek PVM adatbázisok, amelyek segítségével megállapítható, hogy egy adott fehérje ismert családokhoz tartozik-e. A PVM létrehozásának és használatának módszereit is fejlesztik. Például kifejlesztettek egy módszert PWM létrehozására nagy, többszörös fehérje-illesztések használata nélkül, ami jelentősen felgyorsítja a számításokat a kezdeti adatok nagy tömbje esetén [19] . Ezen túlmenően létezik egy olyan megközelítés, amely több PTM-et használ a fehérjecsaládok leírására: ebben az esetben nem egy, hanem sok mátrixot hoznak létre különböző, nem közeli (az elfogultság elkerülése érdekében) családba tartozó fehérjék felhasználásával.
Különféle algoritmusok léteznek a sorozatokban található PWM egyezések keresésére. Az egyik példa a MATCH algoritmus, amelyet a ModuleMasterben implementáltak. A nukleotidok, valamint PWM/PSSM aminosavak felhasználásával végzett gyors adatbázis-keresések bonyolultabb algoritmusai a possumsearch szoftverben vannak implementálva, és Beckstette et al. (2006) [20] .
A leghíresebb algoritmusok közé tartozik még a MEME és a Gibbs [1] .
A kész PVM implementáció a Python ( BioPython csomag ) és az R ( seqLogo library ) programozási nyelvekben használható.