A FASTQ formátum egy szöveges adatformátum, amelyet egy biológiai szekvencia (általában nukleotidszekvencia) és a szekvencia egyes elemeinek minőségi pontszámainak ábrázolására használnak. A szekvenciaelemeket és azok minőségi mutatóit a tömörség kedvéért egyetlen ASCII karakter kódolja [1] . Alkalmazott a bioinformatikában .
A formátumot eredetileg a Wellcome Trust Sanger Institute -ban fejlesztették ki a FASTA formátumú szekvencia és elemminőségi adatok kombinálására, de azóta a de facto szabvány lett a nagy teljesítményű szekvenáló eszközökből , különösen az Illumina genomelemzőiből [2] .
A FASTQ formátum nem szabványos, és a bemeneti / kimeneti adatokhoz használó különféle hardver-szoftver információfeldolgozó rendszerek eltéréseket mutathatnak (például a sorozatelemek minőségi indexének eltérő kódolási rendszerei). [3]
A FASTQ dokumentum általában négy sort használ sorozatonként.
A minőséget jelző bájt 0x21 (legalacsonyabb minőség; '!' az ASCII-ben) és 0x7e (legmagasabb minőség; '~' ASCII-ben) között mozog. Az alábbiak a minőségi érték karakterei balról jobbra növekvő minőségi sorrendben (ASCII):
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~A Sanger FASTQ forrásfájlok lehetővé tették a sorozat- és minőségsorok több fájlsorra való felosztását is, de ez általában nem ajánlott, mivel megnehezítheti az elemzést a „@” és „+” jelölőként való szerencsétlen megválasztása miatt (ezek a karakterek is megjelennek a minőségi karakterláncban).