FASTQ

A FASTQ formátum egy szöveges adatformátum, amelyet egy biológiai szekvencia (általában nukleotidszekvencia) és a szekvencia egyes elemeinek minőségi pontszámainak ábrázolására használnak. A szekvenciaelemeket és azok minőségi mutatóit a tömörség kedvéért egyetlen ASCII karakter kódolja [1] . Alkalmazott a bioinformatikában .

A formátumot eredetileg a Wellcome Trust Sanger Institute -ban fejlesztették ki a FASTA formátumú szekvencia és elemminőségi adatok kombinálására, de azóta a de facto szabvány lett a nagy teljesítményű szekvenáló eszközökből , különösen az Illumina genomelemzőiből [2] .

A FASTQ formátum nem szabványos, és a bemeneti / kimeneti adatokhoz használó különféle hardver-szoftver információfeldolgozó rendszerek eltéréseket mutathatnak (például a sorozatelemek minőségi indexének eltérő kódolási rendszerei). [3]

Formátum

A FASTQ dokumentum általában négy sort használ sorozatonként.

Az 1. sor egy „@” karakterrel kezdődik, amelyet egy sorozatazonosító és egy opcionális leírás követ (például a FASTA fejlécsor ).
A 2. sor a sorozat nyers karakterei.
A 3. sor "+" karakterrel kezdődik, és nem kötelező, majd ismét ugyanaz a sorozatazonosító (és bármilyen leírás) következik.
A 4. sor a 2. sorban lévő sorozat minőségi értékeit kódolja, és ugyanannyi karaktert kell tartalmaznia, mint a sorozat karakterláncának.

@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCC65

A minőséget jelző bájt 0x21 (legalacsonyabb minőség; '!' az ASCII-ben) és 0x7e (legmagasabb minőség; '~' ASCII-ben) között mozog. Az alábbiak a minőségi érték karakterei balról jobbra növekvő minőségi sorrendben (ASCII):

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

A Sanger FASTQ forrásfájlok lehetővé tették a sorozat- és minőségsorok több fájlsorra való felosztását is, de ez általában nem ajánlott, mivel megnehezítheti az elemzést a „@” és „+” jelölőként való szerencsétlen megválasztása miatt (ezek a karakterek is megjelennek a minőségi karakterláncban).

Változatok

A Sanger formátum lehetővé teszi a Phred minőségi pontszám 0 és 93 közötti kódolását 33 és 126 közötti ASCII karakterekkel.
A Solexa /Illumina 1.0 formátum lehetővé teszi a Solexa/ Illumina minőségi pontszámok -5 és 62 közötti kódolását 59 és 126 közötti ASCII karakterekkel.

Jegyzetek

↑ FASTQ formátum specifikáció . Letöltve: 2019. december 13. Az eredetiből archiválva : 2019. december 13. (határozatlan)
↑ FASTQ fájlok magyarázata . Letöltve: 2019. december 13. Az eredetiből archiválva : 2019. december 13. (határozatlan)
↑ drive5: Bioinformatikai szoftverek és szolgáltatások. FASTQ fájlok . Letöltve: 2019. december 13. Az eredetiből archiválva : 2019. december 2. (határozatlan)