A szekvenciaillesztés egy bioinformatikai technika, amely két vagy több DNS- , RNS- vagy fehérjemonomer -szekvenciát egymás alá helyezve oly módon, hogy könnyen látható legyen ezekben a szekvenciákban hasonló területek. Két molekula primer szerkezetének hasonlósága tükrözheti azok funkcionális, szerkezeti vagy evolúciós kapcsolatait [1] . A nukleotidok vagy aminosavak egymáshoz igazodó bázisszekvenciáit általában egy mátrix soraiként ábrázolják. Az alapok közé hézagokat adunk, így a mátrix egymást követő oszlopaiban ugyanazok vagy hasonló elemek helyezkednek el [2] .
Szekvencia igazítási algoritmusokat is használnak az NLP -ben [3] .
Az illesztési eredmény legtöbb ábrázolásában a szekvenciák a mátrix soraiban úgy vannak elrendezve, hogy az egyező elemek (nukleotidok vagy aminosavak) egymás alatt (ugyanabban az oszlopban) legyenek. A „réseket” egy „-” jel váltja fel, amelyet gap-nek neveznek (az angol „ gap ” szóból) [4] , és egy indel -t jelöl , vagyis egy esetleges beszúrás vagy törlés helyét [5] [ 2] .
Szöveges megjelenítéssel egyszerűen gyors formátumban lehet írni , amikor a sorozatok hézagokkal vannak felírva, és azonos hosszúságúak [6] . Ezt a fajta rögzítést gyakran használják a programok, és kényelmes a gépi feldolgozáshoz [7] .
A másik fajta szövegábrázolás a felhasználó kényelmét szolgálja (az alábbiakban három különböző példát mutatunk be). Ebben a szekvenciák egymás alá vannak írva, és a közöttük lévő sorban különböző szimbólumok jelzik az aminosavak közötti különböző kapcsolatokat. A szóköz (szimbólum hiánya) az aminosavak közötti kapcsolat hiányát jelzi, mind a homológia, mind a funkció szempontjából: a "*", "|" szimbólumok vagy a betű ( BLAST ) - ugyanazok az aminosavak; ":" vagy "+" - hasonló tulajdonságokkal; "." — tulajdonságaiban hasonló [8] .
Robbanás: 15. lekérdezés FQQAWANPKHAWAQVNGETRLTQNLIILERETR 47 FW PKHA +QVNG T ++Q+ IIL RR Sbjct 14 FHHNWTRPKHASSQVNGHTEMSQHNIILRRVPR 46 CLUSTAL: THE12851.1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS- 50 WP_104057486.1 MSTK-DQLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGRR 50 *..* : : .: *::*:.**** :****.*.::*: ***.* *. EMBOSS tű: THE12851.1 1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS 50 |..|. :.:..:..|...|..||||.:||||.|.:|:.|||.|..|... WP_104057486. 1 MSTKD-QLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGR 49A grafikus ábrázolás maximálisan a vizuális észlelésre koncentrál. Szokásos a szekvenciákat is egymás alá helyezni, de a különböző szekvenciákból származó aminosavak kapcsolatának jelentését a szín jelzi. Vannak olyan foltok, amelyek az aminosavak tulajdonságait jelölik, mint például a "Zappo", amely megfesti az egyes aminosavakat, és a "Clustal", amely az azonos aminosavtulajdonságokkal rendelkező rudakat festi. A foltok egy része, például az „%Identity” lehetővé teszi az aminosavak azonosságának és megőrzésének megtekintését az oszlopban. Vannak olyan színek is, amelyek az aminosavak hidrofób jellegét mutatják [10] .
A leghíresebb igazításnézők: Jalview [9] , UGENE [11] , MEGA [12] . A teljes listát lásd az igazítási vizualizációs szoftver listája című cikkben.
A konszenzusos szekvencia ábrázolására is van mód - Sequence Logo [13] .
A hasonlósági pontmátrix a páronkénti igazítás vizuális ábrázolásának módja. Általában nagy szekvenciákhoz, példáulbakteriális genomokhoz használják. Mindkét sorozat koordinátái a tengelyek mentén vannak ábrázolva, homológiájukat szegmensek ábrázolják. Tehát az azonos sorozatokból álló pontmátrix úgy fog kinézni, mint egy négyzet átlója. Ez a megjelenítési mód lehetővé teszi az inverziók , a duplikációk vagy törlések , valamint a transzlokációk nyomon követését [14] .
Páronkénti illesztést használunk két szekvencia hasonló régióinak megtalálására. Tegyen különbséget a globális és a lokális igazodás között. A globális igazítás feltételezi, hogy a szekvenciák teljes hosszukban homológok. A globális igazítás mindkét teljes bemeneti szekvenciát tartalmazza. Lokális illesztést alkalmazunk, ha a szekvenciák rokon (homológ) és nem rokon régiókat is tartalmaznak. A lokális illesztés eredménye egy hely kiválasztása az egyes szekvenciákban, és a helyek közötti igazítás [15] .
A dinamikus programozási módszer variációit használjuk a pár-illesztés eléréséhez . Ezeket az algoritmusokat különösen az Európai Molekuláris Biológiai Laboratórium ( Pairwise Sequence Alignment . EMBL-EBI . ) szolgáltatásaiban valósítják meg. Így például a Needle . , egy globális igazítási algoritmus, a Needleman-Wunsch algoritmust [16] használja , míg a Water . , a lokális igazítási algoritmus a Smith-Waterman algoritmus [16] .
A globális és a lokális összehangolás közötti különbség bemutatására egy mesterséges példát vehetünk figyelembe. Vegyük az A és B sorozatot, és végezzünk globális és lokális igazítást. A szekvencia egy központi homológ régiót és jelentősen eltérő éleket tartalmazott.
A Global alignment [15] mindkét szekvencia teljes hosszát használja, és felhasználható a szekvenciák homológiájának (közös eredetű) tesztelésére teljes hosszukban. Ha azonban a szekvenciáknak kevés homológ régiója van (vagy egyszerűen csak hasonlóság), akkor nem mindig lehet jól meghatározni ezeket a régiókat. A fenti példában az algoritmus négy egyező aminosavra van kötve, így a homológia hosszú szakasza nem látható. Ez alapján feltételezhető, hogy a szekvenciák nem teljesen homológok egymással [17] .
A lokális illesztés [15] a szekvenciák azon részeit használja, amelyeken a maximális homológia megjósolható. Nagyszerű, ha a szekvenciáknak csak egy része hasonló, például a rekombináció vagy a konvergens evolúció során . Mindig ügyeljen a kis, alacsony hasonlóságú területekre, különösen nagy sorozatok összehangolásakor, mivel ez növeli a véletlenszerű hasonló területekkel való találkozás valószínűségét. Az ábra példájában a lokális igazítás a sorozatok hosszának felét tartalmazta. Rendezett 11 aminosav hasonló működésű, van 2 hét. Ez alapján, ha az A és B peptidek hasonló funkciójáról is ismert, elmondható, hogy mindkét peptid központi régiói ellátják a teljes peptid funkcióját, vagy fontosak a funkciója szempontjából [18] .
Előfordulhat azonban, hogy a kérdéses szekvenciarégió nem mindig esik a helyi illesztésbe. Ezt úgy lehet megkerülni, hogy a szekvenciát a kívánt régió határai mentén levágjuk. A globális és lokális igazítások egyéb kombinációi is lehetségesek [19] .
Arra használják, hogy nagy adatbázisokban keressenek olyan szekvenciákat, amelyek hasonlóak egy adott szekvenciához meghatározott kritériumok szerint. Az alkalmazott igazítás helyi. Különféle heurisztikus módszereket alkalmaznak a keresési sebesség növelésére. A leghíresebb programok a BLAST [20] és a FASTA3x . [21] .
A többszörös illesztés három vagy több szekvencia összehangolása. Konzervált régiók megtalálására használják homológ szekvenciák sorozatában. A legtöbb esetben a többszörös vonalvezetés megépítése szükséges lépés a filogenetikai fák rekonstrukciójában . Az optimális többszörös igazítás megtalálása dinamikus programozással túl sok időbonyolítást igényel, ezért a többszörös igazítások különféle heurisztikus elemek alapján épülnek fel. A többszörös igazítást végző leghíresebb programok a Clustal ( clustal . ) [22] , T-COFFEE ( tcoffee . ), MUSCLE ( izom . ) [23] és MAFFT ( mafft . ). Több igazítás megtekintésére és szerkesztésére is vannak programok, mint például a Jalview[9] vagy az orosz nyelvű UGENE [11] .
A molekulák másodlagos és harmadlagos térszerkezetére vonatkozó információk felhasználásával fehérjékre vagy ribonukleinsavakra konstruálható . A cél az, hogy megkíséreljük két vagy több struktúra homológiájának megállapítását a térben hasonlóan egymásra halmozott helyek megtalálásával és összehasonlításával. A szerkezeti összeillesztést általában struktúrák egymásra helyezésével, azaz olyan térbeli mozgások megtalálásával kíséri, amelyek adott molekulákra történő alkalmazása a legjobban kombinálja azokat. De ellentétben az egyszerű térbeli szuperpozícióval, amelyben két szerkezet ekvivalens aminosav- maradékainak ismert megfeleltetése van , a szerkezeti illesztési algoritmusok általában nem igényelnek előzetes ismereteket a szekvencia-illesztésről. Számos olyan , amelyeken különféle szerkezeti igazítási programokA térbeli illesztések különösen fontosak a szerkezeti genomikai és proteomikai adatok elemzéséhez , és felhasználhatók a szekvencia-összehasonlításokból nyert illesztések értékelésére is. [24] .
A strukturális illesztést sikeresen alkalmazták alacsony szekvencia-homológiájú fehérjék összehasonlítására, amikor az evolúciós kapcsolatok standard szekvenciaillesztési módszerekkel nem állapíthatók meg, de ebben az esetben figyelembe kell venni a konvergens evolúció hatását, a fő hatást. ami a nem rokon aminosavszekvenciák harmadlagos szerkezetének hasonlóságában nyilvánul meg [25] .
A térbeli elrendezés lehetővé teszi két vagy több ismert háromdimenziós szerkezetű molekula összehasonlítását, amelyek kísérleti előállítása röntgendiffrakciós elemzésen és NMR-spektroszkópián alapul . A fehérjeszerkezet-előrejelzési módszerekből származó struktúrák térbeli igazításra is használhatók . Ezenkívül az ilyen előrejelzések minőségének értékelése gyakran a létrehozott modell és a fehérje szerkezetének térbeli összehangolásán alapul, amelynek harmadlagos szerkezetét közvetlenül a kísérletből kaptuk. Vannak adatok a kisszögű röntgenszórásos módszer alkalmazásáról is különböző fehérjemolekulák háromdimenziós szerkezetének elemzésére [26] .
A szerkezeti igazítási programok eredménye általában az atomi koordináták kombinációja . Leggyakrabban egy ilyen összehasonlítás keresése során az eredményt a struktúrák közötti legkisebb szórás (RMSD) függvény értéke alapján értékelik ki, amelyet az igazítási konstrukciós algoritmus igyekszik minimalizálni. [27]
,ahol a pontok (atomok) száma a mintában (szerkezetben), és a megfelelő szerkezet atomjai , , és , , koordinátákkal .
Az RMSD értéket hosszegységekben fejezzük ki, a szerkezetbiológiában leggyakrabban használt mértékegység az angström (Å), amely 10–10 m. Az RMSD , mint az egymáshoz igazított struktúrák térbeli eltérésének mértéke azonban számos Hátrányok: a kiugró értékek instabilitása és több domén jelenléte az összehangolt fehérjék szerkezetében, mivel ezeknek a doméneknek a két struktúra közötti relatív helyzetében bekövetkező változások mesterségesen megváltoztathatják az RMSD értéket.
Emellett bonyolultabb, szerkezeti hasonlóságot értékelő paraméterek is kiszámíthatók, például a globális távolságteszt [28] .
Szerkezeti elrendezés létrehozásához és a megfelelő RMSD-értékek kiszámításához a fehérjemolekula összes atomja és azok részhalmazai egyaránt használhatók. Például az aminosavak oldalgyökeinek atomjait nem mindig veszik figyelembe, és csak a molekula peptidvázában lévő atomok használhatók az illesztéshez. Ezt az opciót akkor választjuk, ha az egymáshoz igazodó struktúrák aminosav-szekvenciája nagyon eltérő, és az oldalgyökök nagy számban különböznek egymástól. Emiatt alapértelmezés szerint a térbeli igazítási módszerek csak a peptidkötésben részt vevő gerincatomokat használják . A nagyobb egyszerűsítés és a hatékonyság növelése érdekében gyakran csak az alfa- szénatomok helyzetét alkalmazzák , mivel ezek helyzete meglehetősen pontosan meghatározza a polipeptid gerincének atomjainak helyzetét. Csak nagyon hasonló vagy akár azonos szerkezetek egymáshoz igazításánál fontos figyelembe venni az oldallánc atomjainak helyzetét. Ebben az esetben az RMSD nemcsak a fehérjeváz konformációjának hasonlóságát tükrözi , hanem az oldalláncok rotamer állapotait is. A zaj csökkentésének és a helyes egyezések számának növelésének további módjai a másodlagos szerkezeti elemek címkézése, a natív érintkezési térképek vagy a maradványok kölcsönhatási mintái, az oldallánc-tömörödés mértékének mérése és a hidrogénkötések megmaradásának mértéke [29] .
Az egyik népszerű szerkezeti igazítási módszer a DALI ( távolsági mátrix módszer ) . A kezdeti fehérjeszerkezeteket hexapeptidekre bontják, és a távolságmátrixot a fragmentumok közötti érintkezési minták értékelésével számítják ki. A másodlagos szerkezet elemei, amelyek maradványai szomszédosak a sorozatban, a mátrix főátlóján vannak; a mátrix fennmaradó átlói a sorozatban nem egymás mellett található csoportok közötti térbeli érintkezéseket tükrözik. Ha két fehérje távolságmátrixában azonos vagy hasonló elemek vannak megközelítőleg azonos pozícióban, akkor elmondható, hogy a fehérjék hasonló hajtásúak, és másodlagos szerkezeti elemeiket hozzávetőlegesen azonos hosszúságú hurkok kötik össze. A DALI-illesztés közvetlen folyamata két fehérjéhez épített hasonlósági mátrixok keresése, amelyeket aztán egy standard pontszámmaximalizáló algoritmus segítségével újra összeállítanak a végső illesztésbe [30] .
A DALI módszerrel létrehozták az FSSP ( Families of Structuralally Like Proteins ) adatbázist, amelyben az összes ismert fehérjeszerkezetet páronként egymáshoz igazították, hogy meghatározzák térbeli kapcsolatukat és a redők osztályozását [31] .
A DaliLite egy letölthető program, amely a DALI algoritmust használja [32] .
Kombinatorikus kiterjesztésA kombinatorikus kiterjesztési (CE) módszer hasonló a DALI-hoz, mivel az egyes struktúrákat több töredékre bontja, amelyeket aztán megpróbál újra összeállítani egy teljes igazításba. A töredékek páronkénti kombinációinak sorozatát, az úgynevezett AFP-ket ( illesztett fragmenspárok ) használják egy hasonlósági mátrix meghatározására, amelyen keresztül egy optimális útvonalat rajzolnak meg a végső igazítás meghatározásához. Az illesztésnek megfelelő utat a hasonlósági mátrixon keresztüli optimális útvonalként számítjuk ki a szekvenciákon való lineáris áthaladással, meghosszabbítva a következő lehetséges magas pontszámú AFP igazítását. Csak azok az AFP-k szerepelnek a mátrixban, amelyek megfelelnek a megadott lokális hasonlósági kritériumoknak, ami csökkenti a szükséges keresési területet és növeli a hatékonyságot [33] .
A DALI-hoz vagy az SSAP-hoz hasonlóan a CE-t használták a PDB-ből származó fehérjék ismert térbeli struktúrái alapján a redők osztályozási adatbázisának létrehozására [34] .
Húrok | |
---|---|
Karakterlánc hasonlósági mértékek | |
Substring keresés | |
palindromák | |
Sorozat-igazítás | |
Utótag szerkezetek | |
Egyéb |