FASTQ

A FASTQ formátum  egy szöveges adatformátum, amelyet egy biológiai szekvencia (általában nukleotidszekvencia) és a szekvencia egyes elemeinek minőségi pontszámainak ábrázolására használnak. A szekvenciaelemeket és azok minőségi mutatóit a tömörség kedvéért egyetlen ASCII karakter kódolja [1] . Alkalmazott a bioinformatikában .

A formátumot eredetileg a Wellcome Trust Sanger Institute -ban fejlesztették ki a FASTA formátumú szekvencia és elemminőségi adatok kombinálására, de azóta a de facto szabvány lett a nagy teljesítményű szekvenáló eszközökből , különösen az Illumina genomelemzőiből [2] .

A FASTQ formátum nem szabványos, és a bemeneti / kimeneti adatokhoz használó különféle hardver-szoftver információfeldolgozó rendszerek eltéréseket mutathatnak (például a sorozatelemek minőségi indexének eltérő kódolási rendszerei). [3]

Formátum

A FASTQ dokumentum általában négy sort használ sorozatonként.

@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCC65

A minőséget jelző bájt 0x21 (legalacsonyabb minőség; '!' az ASCII-ben) és 0x7e (legmagasabb minőség; '~' ASCII-ben) között mozog. Az alábbiak a minőségi érték karakterei balról jobbra növekvő minőségi sorrendben (ASCII):

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

A Sanger FASTQ forrásfájlok lehetővé tették a sorozat- és minőségsorok több fájlsorra való felosztását is, de ez általában nem ajánlott, mivel megnehezítheti az elemzést a „@” és „+” jelölőként való szerencsétlen megválasztása miatt (ezek a karakterek is megjelennek a minőségi karakterláncban).

Változatok

Jegyzetek

  1. FASTQ formátum specifikáció . Letöltve: 2019. december 13. Az eredetiből archiválva : 2019. december 13.
  2. FASTQ fájlok magyarázata . Letöltve: 2019. december 13. Az eredetiből archiválva : 2019. december 13.
  3. drive5: Bioinformatikai szoftverek és szolgáltatások. FASTQ fájlok . Letöltve: 2019. december 13. Az eredetiből archiválva : 2019. december 2.