BWA (Biological Sequence Alignment)

BWA
Típusú	Bioinformatika
Szerző	Heng Lee , Richard Durbin
Beírva	C++
Operációs rendszer	UNIX , Linux
legújabb verzió	0.7.17 (r1140) [1] (2017.11.07.)
Engedély	GNU GPL , MIT licenc
Weboldal	bio-bwa.sourceforge.net

A BWA ( Burrows-Wheeler A ligner ) egy olyan szoftvercsomag , amely nagy referenciagenomokhoz (például az emberi genomhoz [2] ) alkalmas rövid leolvasások leképezésére , amelyet Heng Li kínai bioinformatikus és Richard Durbin írt . Ez az egyik széles körben használt igazítási algoritmus [3] [4] [5] , és az Illumina [6] adatelemzésre is ajánlja . A BWA három fő algoritmusból áll: BWA-BackTrack, BWA-SW és BWA-MEM. A BWA algoritmusok a Burrows-Wheeler transzformáción alapulnak , utótag tömbök és a Smith-Waterman igazítási algoritmus . A szoftvercsomag nagyságrenddel gyorsabban tud dolgozni hosszú sorozatokkal, mint a MAQ ( Mapping and Assembly with Qualities ), miközben hasonló igazítási pontosságot ér el [7] .

Az Illumina-SOLEXA platformokról származó minták , 454 Life Sciences , ion-semiconductor szekvenálás vagy Sanger szekvenálás hosszú leolvasással ("reads" az angol olvasmányból - "reading, reading"; a szekvenáló eredményeként kapott egyedi DNS-fragmensek ) 70 bázispárnál nagyobb vagy egyenlő (a továbbiakban - b.p.), a BWA-MEM általában előnyös. A BWA-MEM és a BWA-SW hasonló tulajdonságokkal rendelkezik, például támogatja a hosszú olvasást. A BWA-MEM jobb teljesítményt nyújt, mint a BWA-BackTrack 70-100 bp-os olvasás esetén. az Illumina-SOLEXA platformról.

A választott algoritmustól függetlenül a BWA szoftvercsomagnak először FM indexet kell építenie a referencia genomhoz. A következő paranccsal hozhat létre indexet: bwa index [-p prefix] [-a algoType] <in.db.fasta>. Továbbá a kapott adatokra igazítási algoritmusokat alkalmaznak, amelyeket különféle alparancsok hívnak meg: aln/samse/sampeBWA-BackTrack, bwaswBWA-SW és memBWA-MEM [8] .

Történelem

Heng Lee, a Cambridge Broad Institute kutatója [9] 2008. május 24-én kezdte megírni a kód első részét, és már az év június 2-án megkapta a kezdeti stabil verziót. Ugyanebben az időszakban Prof. Tak-Wah Lam, a BWT-SW cikk első szerzője [10] együttműködött a Pekingi Genomic Institute -tal a SOAP2-n, a SOAP (short sequence oligonucleotide analysis package) utódján. A SOAP2 2008 novemberében jelent meg.

A BWA-SW algoritmus a BWA új összetevője. 2008 novemberében tervezték, és tíz hónappal később valósították meg. 2015-től a BWA-MEM (0.7.10) előnyösebbnek számított a snip kereséshez, mint a csokornyakkendő (2-2.2.25) vagy a Novoalign (3.02.12) [11] .

Használat

A BWA szoftvercsomag olyan területeken használható, mint a genotipizálás egyetlen nukleotid polimorfizmusok (snip) keresésére [12] . A genotipizálás lehetővé teszi a különböző emberek genotípusainak egyéni összehasonlítását, felhasználható az emberek különböző betegségekre való hajlamának előrejelzésére, mint például a rák, a cukorbetegség és még sok más. A csomag a transzkriptomikában is hasznos lesz [13] .

A 0.6.x verziótól kezdve minden algoritmus képes dolgozni olyan genomokkal, amelyek teljes hossza meghaladja a 4 GB-ot [8] . Egy kromoszóma mérete azonban nem haladhatja meg a 2 GB-ot. Mindegyik algoritmust külön parancs hívja meg, amely egy bemeneti fájlt fogad el szabványos bemeneten ("stdin") és az eredményt szabványos kimeneten ("stdout") adja vissza.

BWA-BackTrack

Először egy utótag tömb épül, majd egy BWT jön létre. A referenciagenomban lévő nem definiált nukleotidokat ("N" betűvel jelölve) véletlenszerű nukleotidokká alakítják, és a leolvasások során nem illeszkedő nukleotidokként kezelik. Ez téves egyezések ("találatok") régióihoz vezethet, amelyek kétértelmű alapjai vannak. De annak a valószínűsége, hogy ez megtörténhet, nagyon kicsi, tekintettel a viszonylag hosszú leolvasásokra [14] .

BWA-SW

A BWA-SW FM indexeket épít fel mind a referenciasorozathoz, mind a leolvasásokhoz. Ez implicit hivatkozási sorozat egy előtag fa formájában és egy olvasás, mint determinisztikus aciklikus állapotgép , amely egy előtagfából áll a dinamikus programozással történő olvasáshoz . A BLAT-tól és az SSAHA2-től eltérően a BWA-SW magokat talál (az angol seed - „seed” szóból; több leolvasási bázispár pontos egyezése [4] ) a referenciagenomban FM indexek felépítésével. Az igazítás kibővül, ha a mag többszörös előfordulása van a referenciaszekvenciában. A sebesség az erősen ismétlődő sorozatok szükségtelen kiterjesztésének csökkentésével érhető el. A szabványos Smith-Waterman kiegyenlítéshez képest, amelynek időbonyolultsága , a BWA-SW időbonyolítása jobb, mert legalább olyan gyors, mint a [10] komplexitású BWT-SW . A BWA-SW-ben két igazítást különbözőnek tekintünk, ha a kérés átfedési zóna hossza kisebb, mint a rövidebb kérésszegmens hosszának a fele. $O(|X|*|W|)$ $O(|X|*0,628*|W|)$

A BWA-SW megvalósítás egy BWA indexet és egy FASTA lekérdezést vagy FASTQ fájlt vesz be bemenetként, és SAM formátumban adja ki az igazítást. A bemeneti fájl általában sok szekvenciát ("olvasást") tartalmaz. Minden sorozatot felváltva dolgoz fel több szál használatával (ha lehetséges). Ezzel az algoritmussal a memóriahasználat körülbelül 5 GB az emberi genom teljes szekvenciáinak indexeléséhez [8] . A rövid olvasáshoz körülbelül 3,2 GB szükséges a parancs használatával alnés 5,4 GB a sampe. Az egyes lekérdezésekhez szükséges memória mennyisége nagyjából arányos a sorozat hosszával. Ezenkívül a BWA-SW képes észlelni a potenciálisan szerkezeti változások által okozott kimérát vagy kiolvasni az összeállítási referenciahibákat, amelyek veszélyt jelenthetnek a BLAT-ra és az SSAHA2-re. A BWA-SW több szempontból is különbözik a BWT-SW-től [15] : a BWT-SW garantálja az összes helyi egyezés megtalálását, míg a BWA-SW egy heurisztikus algoritmus, amely képes kihagyni a valódi egyezéseket, de sokkal gyorsabb.

BWA-MEM

A BWA-MEM a BWA csomag legújabb implementált algoritmusa. Olyan stratégiát használ, amelyben az olvasási igazítási algoritmus automatikusan kiválasztásra kerül eseti alapon: lokális vagy globális igazítás. A párvégi olvasás és a kiméra olvasási igazítás támogatott. Az algoritmus ellenáll a szekvenálási hibáknak, és a 70 bp és 70 bp közötti szekvenciahosszok széles tartományára alkalmazható. akár több megabázis is. És 100 bp hosszúságú szekvenciák leképezéséhez. A BWA-MEM jobb teljesítményt mutat, mint néhány fejlett olvasási igazítási algoritmus [16] .

Minőségi mutatók

A BWA szoftvercsomag minden egyes igazításhoz kiszámít egy leképezési minőségi pontszámot – Phred, a skálázott valószínűséget, hogy az igazítás helytelen [8] ( Phred minőségi pontszám – a leolvasott DNS-nukleotid minőségének értékelése). A térképezés statisztikai értékelésének szükségessége abból adódik, hogy a leolvasások kicsik (40-100 bp), míg a genomok meglehetősen nagyok, így többféle igazodás is előfordulhat. Meg kell azonban érteni, hogy melyik a leginkább informatív. És lényegében a Phred pontszám annak a valószínűsége, hogy az olvasás hibásan illeszkedik. Kiszámítása a következő képlettel történik, ahol q az olvasás olvasási minősége [17] . Az algoritmus hasonló a MAQ kiértékeléséhez , azzal a különbséggel, hogy a BWA azt feltételezi, hogy mindig megtalálható a valódi egyezés. Erre a módosításra azért került sor, mert a MAQ képlet túlbecsüli a valódi egyezés hiányának valószínűségét, ami alulbecsült leképezési minőséget eredményez. A modellezés azt mutatja, hogy a BWA e módosítás miatt túlbecsülheti a leképezés minőségét, de az eltérés viszonylag kicsi. $p=10^{-q/10}$

Példák

A Dutch Computing Center BWA szoftvercsomagjának használatára egy példa a következő forgatókönyv [18] :

1. lépés – genom indexelés (kb. 3 CPU óra az emberi genomhoz) bwa index -a bwtsw ref.fa

, ahol a ref.fa a referencia genomfájl neve.

2a lépés - igazítás létrehozása az utótag tömb koordinátáiban bwa aln ref.fa read1.fq.gz > read1.sai bwa aln ref.fa read2.fq.gz > read2.sai

, ahol a read1.fq.gz egy közvetlen olvasású fájl, a read2.fq.gz egy fordított olvasás. Használja a -q15 kapcsolót, ha a minőség alacsonyabb az olvasás 3' végén.

3a lépés – igazítás létrehozása SAM formátumban a párosított olvasáshoz bwa sampe ref.fa read1.sai read2.fq.gz > aln.sam 4a lépés – SAM-igazítás generálása páratlan olvasáshoz bwa samse ref.fa read1.sai read1.fq.gz 2b lépés – BWA-SW hosszú olvasáshoz bwa bwasw ref.fa long-read.fq.gz > aln-long.sam

, ahol a long-read.fq.gz egy hosszú olvasmányú fájl.

Az eredményül kapott igazítás további kompatibilitása érdekében az NGS adatok elemzésére szolgáló szabványos programokkal, mint például a Pikardi Tools vagy a GATK, a program hívásakor meg kell adni az úgynevezett olvasási csoportot ( angol read group - a kapott adatok halmaza a szekvenszer egyik módját használva) a -r[19] jelző hozzáadásával . Maga az Illumina-SOLEXA platformról származó minta olvasási csoportja valahogy így néz ki: -r ‘@RG\tID:1\tSM:S000336\tPL:ILLUMINA\tLB:L00000336\t PU:C3A7NACXX:1’[19] , ahol az ID a minta egyedi azonosítója, az SM a minták nevei, a Pl a szekvenálási platform, az LB a minta neve. könyvtár, a PU pedig a rendszerazonosító [20] .

Gyakorlati érték

A gyakorlatban a BWA a fő eszköz a rövid leolvasások egyengetésére [21] [22] [23] [24] . A BWA-t jelenleg a következő vizsgálatokban alkalmazzák:

A genom szekvenálása és összeállítása.
Egy nukleotid polimorfizmusok keresése.
Törölések és beillesztések keresése.

A BWA szoftvercsomag használatának fő előnyei a következő előnyök [7] [25] :

Nagy sebességű működés [26]
Kis memória költség.
Egyszerű felület.
Finomhangolással a legjobb statisztikai paraméterek [27]

Ezenkívül a BWA a legszélesebb körben használt biológiai csővezetékek része, nemcsak a tudományos, hanem a klinikai tevékenységekben is:

GATK [28] [29]
AMAP [30]
ásó [31]

Jegyzetek

↑ Heng Li. BWA kiadások (angol nyelven) (lefelé mutató link) . GitHub. Letöltve: 2017. április 5. Az eredetiből archiválva : 2017. április 5..
↑ Goltsov A.Yu., Andreeva T.V., Reshetov D.A., Tyazhelova T.V., Gavrik O.A., Rogaev E.I. Az Alzheimer-kór kialakulásával kapcsolatos mutációk keresése mitokondriális DNS-génekben párhuzamos szekvenálási technológia segítségével // A tudomány és az oktatás modern problémái: folyóirat. - M . : Orosz Természettudományi Akadémia, 2012. - 6. sz . - S. 23 . — ISSN 1817-6321 . Archiválva az eredetiből 2017. április 5-én.
↑ Ivan Borozan, Stuart N. Watt, Vincent Ferretti. A kórokozók felfedezésére és azonosítására szolgáló igazítási algoritmusok értékelése RNA-Seq használatával // PLoS One: Journal. - 2013. - T. 8 , sz. 10 . — PMID 24204709 .
↑ 1 2 Li Heng, Homer Nils. A következő generációs szekvenáláshoz szükséges szekvencia-illesztési algoritmusok felmérése // Brief Bioinformatics : Journal. - 2010. - szeptember ( 11. évf. , 5. szám ). - S. 473-483 . - doi : 10.1093/bib/bbq015 . — PMID 20460430 . Archiválva az eredetiből 2017. április 15-én.
↑ Jing Shang, Fei Zhu, Wanwipa Vongsangnak, Yifei Tang, Wenyu Zhang, Bairong Shen. Több igazolóelem értékelése és összehasonlítása a következő generációs szekvenálási adatok elemzéséhez // Rövid bioinformatika: Journal. - 2010. - szeptember ( 11. évf. , 5. szám ). - S. 1754-1760 . — PMID 24779008 .
↑ Nagy teljes genom szekvenálás . Illumina. Az eredetiből archiválva : 2016. január 30.
↑ 1 2 Li Heng, Durbin Richard. Gyors és pontos hosszan olvasható igazítás Burrows-Wheeler transzformációval // Bioinformatika : folyóirat. - Oxford University Press, 2010. - március 1. ( 26. kötet , 5. szám ). - P. 589-595 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatika/btp698 . — PMID 20080505 . Archiválva az eredetiből 2017. április 5-én.
↑ 1 2 3 4 Kézi referenciaoldalak - bwa (angol) (a hivatkozás nem elérhető) . Souce Forge. Letöltve: 2017. április 5. Az eredetiből archiválva : 2017. április 5..
↑ Heng Li honlapja (angolul) (a hivatkozás nem elérhető) . forrásforge. Letöltve: 2017. április 6. Az eredetiből archiválva : 2017. április 6..
↑ 1 2 Lam TW, Sung WK, Tam SL, Wong CK, Yiu SM. A DNS tömörített indexelése és helyi illesztése (angol) // Bioinformatika : folyóirat. - Oxford University Press, 2008. - március 15. ( 24. kötet , 6. szám ). - P. 791-797 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatika/btn032 . — PMID 18227115 . Archiválva az eredetiből 2017. április 5-én.
↑ Sohyun Hwang, Eiru Kim, Insuk Lee, Edward M. Marcotteb. Változathívó csővezetékek szisztematikus összehasonlítása arany standard személyes exome variánsok segítségével // Scientific Reports : online Journal. - Macmillan Publishers Limited, 2015. - Iss. 5 . — ISSN 2045-2322 . - doi : 10.1038/srep17875 . Archiválva az eredetiből 2017. április 5-én.
↑ Pareek CS, Błaszczyk P., Dziuba P., Czarnik U., Fraser L., Sobiech P., Pierzchała M., Feng Y., Kadarmideen HN, Kumar D. Single nucleotide polymorphism discovery in bovine liver using RNA-seq technology // PLoS One : log. - 2017. - február ( 12. évf. 2. szám ). - doi : 10.1371/journal.pone.0172687 . — PMID 28234981 . Archiválva az eredetiből 2017. április 15-én.
↑ Robinson KM, Crabtree J., Mattick JS, Anderson KE, Dunning Hotopp JC Potenciális baktérium-tumor asszociációk megkülönböztetése a kontaminációtól a nyilvános rákgenomszekvencia adatok másodlagos adatelemzésében // Microbiome : Journal. - London, Egyesült Királyság: BioMed Central, 2017. - január ( 5. kötet , 1. szám ). — ISSN 2049-2618 . — PMID 28118849 . Archiválva az eredetiből 2017. április 5-én.
↑ Li Heng, Durbin Richard. Gyors és pontos rövid leolvasási igazítás Burrows-Wheeler transzformációval // Bioinformatika : folyóirat. - Oxford University Press, 2009. - július 15. ( 25. kötet , 14. szám ). - P. 1754-1760 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatika/btp324 . — PMID 19451168 . Archiválva az eredetiből 2017. április 5-én.
↑ Al-Absi AA, Kang DK Long Read Alignment with Parallel MapReduce Cloud Platform // BioMed Research International: Journal. - Egyiptom: Hindawi , 2015. - december. — ISSN 2314-6133 . - doi : 10.1155/2015/807407 . — PMID 26839887 . Archiválva az eredetiből 2017. április 5-én.
↑ Li Heng. Szekvenciaolvasások, klónozási szekvenciák és összeállítási kontigek igazítása a BWA- MEM -mel . - Cambridge, USA: Oxford University Press, 2016. - március 16. - P. 1-3 . - arXiv : 1303.3997 . Archiválva az eredetiből 2017. április 5-én.
↑ Peter JA Cock, Christopher J. Fields, Naohisa Goto, Michael L. Heuer, Peter M, Rice. A Sanger FASTQ fájlformátum minőségi pontszámokkal rendelkező sorozatokhoz és a Solexa/Illumina FASTQ változatokhoz // Nuclear Acid Res : Journal. - 2010. - április ( 38. évf. , 6. szám ). - P. 1767-1771 . - doi : 10.1093/nar/gkp1137 . — PMID 20015970 . Archiválva az eredetiből 2017. április 15-én.
↑ BWA használat (angolul) (a link nem érhető el) . Holland számítástechnikai központ. Archiválva az eredetiből 2017. április 5-én.
↑ 1 2 Bukowski Robert, Sun Qi, Wang Minghui. Változatos hívás . - Bioinformatikai Intézet, Biotechnológiai Intézet. - S. 22 . Archiválva az eredetiből 2017. április 6-án.
↑ A SAM/BAM formátumspecifikációs munkacsoport. Sequence Alignment/Map Format Specification (eng.) (holt link) 3. o. GitHub (2016. április 28.). Letöltve: 2017. április 6. Az eredetiből archiválva : 2017. április 6..
↑ José M. Abuín, Juan C. Pichel, Tomás F. Pena, Jorge Amigo. SparkBWA: A nagy teljesítményű DNS-szekvenálási adatok összehangolásának felgyorsítása // PLoS One: Journal. - 2016. - Kt. 11 , iss. 5 . - doi : 10.1371/journal.pone.0155461 . Archiválva az eredetiből 2017. április 5-én.
↑ Justin Chu, Sara Sadeghi, Anthony Raymond, Shaun D. Jackman, Ka Ming Nip, Richard Mar, Hamid Mohamadi, Yaron S. Butterfield, A. Gordon Robertson, Inanç Birol. BioBloom eszközök: gyors, pontos és memória-hatékony gazdafajok szekvencia szűrése virágzási szűrők segítségével // Bioinformatika : folyóirat. - 2014. - december 1. ( 30. évf. , 23. szám ). - P. 3402-3404 . - doi : 10.1093/bioinformatics/btu558 . Archiválva az eredetiből 2017. április 15-én.
↑ David Weese, Manuel Holtgrewe, Knut Reinert. RazerS 3: Gyorsabb, teljesen érzékeny olvasási térképezés // Bioinformatika : folyóirat. - Oxford University Press, 2012. - október 15. ( 28. kötet , 20. szám ). - P. 2592-2599 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatika/bts505 . — PMID 22923295 . Archiválva az eredetiből 2017. április 6-án.
↑ Barh Debmalya, Khan Muhammad Sarwar, Davies Eric. PlantOmics: The Omics of Plant Science . - Springer, 2015. - P. 56. - 825 p. — ISBN 8132221729 . — ISBN 9788132221722 . Archiválva : 2017. április 6. a Wayback Machine -nál
↑ Julio Saez-Rodriguez, Miguel P. Rocha, Florentino Fdez-Riverola, Juan F. De Paz Santana. 8th International Conference on Practical Applications of Computational Biology & Bioinformatics (PACBB 2014) . - Springer, 2014. - T. 294. - S. 114. - 294 p. — ISBN 3319075810 . — ISBN 9783319075815 . Archiválva : 2017. április 6. a Wayback Machine -nál
↑ Gerton Lunter. Megjegyzések a Stampy v1.0.20-hoz (angol) (lefelé hivatkozás) . Oxford , Egyesült Királyság : Humángenetikai Bizalmi Központ (2012. szeptember). Letöltve: 2017. április 6. Az eredetiből archiválva : 2017. április 6..
↑ Elsensohn MH., Leblay N., Dimassi S., Campan-Fournier A., Labalme A., Roucher-Boulez F., Sanlaville D., Lesca G., Bardel C., Roy P. Statisztikai módszer az összehasonlításhoz masszív párhuzamos szekvenálási csővezetékek (angol) // BMC Bioinformatics : Journal. - London, Egyesült Királyság: BioMed Central, 2017. - március 1. ( 18. kötet , 1. szám ). — 139. o . — ISSN 1471-2105 . - doi : 10.1186/s12859-017-1552-9 . Archiválva az eredetiből 2017. április 5-én.
↑ GATK legjobb gyakorlatok (angolul) (a hivatkozás nem elérhető) . Széles Intézet. Letöltve: 2017. április 5. Az eredetiből archiválva : 2017. április 5..
↑ Pevsner Jonathan. Bioinformatika és funkcionális genomika . - 3. kiadás - John Wiley & Sons, 2015. - P. 401. - 1160 p. — ISBN 9781118581698 . — ISBN 1118581695 . Archiválva : 2017. április 6. a Wayback Machine -nál
↑ Ishii K., Kazama Y., Hirano T., Hamada M., Ono Y., Yamada M., Abe T. AMAP: A pipeline for full-genome mutation detection in Arabidopsis thaliana // Genes Genet Syst : magazin. - The Genetics Society of Japan, 2017. - március 17. ( 91. kötet , 4. szám ). - P. 229-233 . — ISSN 1341-7568 . - doi : 10.1266/ggs.15-00078 . — PMID 27452041 . Archiválva az eredetiből 2017. április 5-én.
↑ SPAdes 3.10.1 Manual (eng.) (nem elérhető link) . A St. Petersburg Academic University az Orosz Tudományos Akadémia nanotechnológiáinak tudományos és oktatási központja . Letöltve: 2017. április 5. Az eredetiből archiválva : 2017. április 5..

Irodalom

Quintero Dino, Bolinches Luis, Lima Marcelo Correia, Pasierb Katarzyna, William dos Santos. IBM Reference Architecture for Genomics, Power Systems Edition . - IBM Redbooks, 2016. - P. 69. - 140 p. — ISBN 0738441635 . — ISBN 9780738441634 .
Nguyen Ken, Guo Xuan, Pan Yi. Több biológiai szekvencia igazítása: pontozási függvények, algoritmusok és értékelés . - John Wiley & Sons, 2016. - P. 154. - 248 p. - (Wiley sorozat a bioinformatikában). — ISBN 1118229045 . — ISBN 9781118229040 .
Herzeel Charlotte, Costanza Pascal, Ashby Thomas J., Wuyts Roel. A BWA-igazítás teljesítményelemzése // Exa Science Technical Report. - 2013. - november 5. - S. 2-27 . Archiválva az eredetiből 2017. április 6-án.
Harbers Matthias, Kahl Günter. Címke alapú következő generációs szekvenálás . - John Wiley & Sons, 2012. - P. 268-269. — 581 p. — (Molekuláris növénybiológia). — ISBN 352732819X . — ISBN 9783527328192 .