FASTA

FASTA formátum
Kiterjesztés	.fas, .fasta, .fna, .ffn, .faa, .frn, .afa, .mfa
MIME típusú	Chemical/seq-aa-fasta, Chemical/seq-na-fasta [1]
Fejlesztő	David Lipman [2] William Pearson [2]
közzétett	1985
Formátum típusa	fájlformátum és szöveges adatformátum [d]
Kibontva innen	ASCII a FASTA-hoz
ben fejlődött	FASTQ
Weboldal	http://ncbi.nlm.nih.gov/BLAST/fasta.shtml

A FASTA a nukleotid- vagy polipeptidszekvenciák szöveges formátuma , amelyben a nukleotidokat vagy aminosavakat egybetűs kódokkal jelölik . Egyszerűsége és praktikussága miatt jelenleg a legtöbb biológiai szekvenciaprogram használja . Az ilyen formátumú fájlok adatbázisokban és megjegyzésekben tartalmazhatják a sorozatok nevét, azonosítóit . A benne lévő biológiai szekvenciák természetétől függően egy FASTA fájl többféle kiterjesztéssel rendelkezhet .

Történet és terjesztés

A formátumot David Lipman és William Pearson [2] [3] találta ki 1985-ben az azonos nevű programhoz , amelyet arra terveztek, hogy egy adott szekvenciával homológ szekvenciák nagy adatbázisaiban keressen . A formátum eredeti leírását ők készítették ennek a programnak a dokumentációjában, most pedig a leírása a BLAST program dokumentációjának része .

A FASTA formátum egyszerűsége megkönnyíti a különféle műveletek végrehajtását szekvenciákkal szövegszerkesztő eszközökkel és olyan szkript programozási nyelvekkel, mint a Python [5] , Ruby [6] , Perl [7] , Java [8] .

A FASTA és a FASTQ (Sanger Institute) formátumok a legnépszerűbbek a biológiai szekvencia adatok ábrázolására [9] . Más formátumok is léteznek, beleértve a GenBank [10] , EMBL [11] és UniProt [12] adatbankokban használtakat .

Formátum

A FASTA szekvenciák egysoros leírással kezdődnek, amelyet magát a szekvenciát tartalmazó sorok követnek. A leírást az első oszlopban nagyobb mint szimbólum (">") jelöli. Az e karakter utáni szó az első szóközig a sorozatazonosító , amelyet egy opcionális leírás követ. A következő néhány sor első karaktere lehet pontosvessző (";"), ebben az esetben a rendszer megjegyzésként kezeli őket. Jelenleg sok adatbázis és program nem ismeri fel a megjegyzéseket, így nem túl gyakoriak. Ezután kövesse a tényleges biológiai szekvenciákat tartalmazó sorokat. Általában a FASTA formátumú karakterláncok 80-120 karakter hosszúságúak (történelmi okokból), de a modern programok felismerik a teljes egészében egy sorba írt szekvenciákat. Egy fájlba több szekvencia is írható, így több FASTA fájlt kapunk, azonban minden szekvenciát meg kell előzni egy saját azonosítóval [13] . Példa egy sorozatra FASTA formátumban: [14]

>gi|31563518|ref|NP_852610.1| mikrotubulus-asszociált fehérjék 1A/1B könnyű lánc 3A b izoforma [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE

Ennek a sorozatnak az azonosítója: gi|31563518|ref|NP_852610.1|.

A szekvenciák a nukleotidok vagy aminosavak egybetűs kódjaiként vannak felírva , megegyezve a szabványos IUB / IUPAC egybetűs kódjaikkal , 5'-től 3'-végig a nukleinsavaknál és N-től C-terminálisig. aminosavak esetén szóköz megengedett, a karakterek lehetnek kis- és nagybetűk is. A sorozatokkal dolgozó programok figyelmen kívül hagyják a számokat, a sorvégi és tabulátor karaktereket .

A nukleinsavakat [15] jelölik :

A kód	Jelentése	Mnemonika
A	A	A denin - Adenin
C	C	C tozin – citozin
G	G	Guanin - Guanin
T	T	T himin – timin (5-metil-uracil)
U	U	U racil - Uracil
R	A, G	pu Rine - Purinok
Y	C, T, U	p Y rimidinek – pirimidinek
K	G, T, U	Keton bázisok _
M	A, C	Bázisok aminocsoportokkal (a M ino)
S	C, G	Erős ( Erős ) kölcsönhatás egy komplementer párban (három hidrogénkötés )
W	A, T, U	Gyenge (gyenge ) kölcsönhatás egy komplementer párban (két hidrogénkötés )
B	nem A (azaz C, G, T vagy U)	B követi A-t
D	nem C (azaz A, G, T vagy U)	D követi C-t
H	nem G (A, C, T vagy U)	H követi G-t
V	nem T és nem U (A, C vagy G)	V követi U
N	ACGTU	Bármely (a N y) nukleotid

Az aminosavaknak 22 közös kódja van (kanonikus aminosavak, szelenocisztein és pirrolizin ), 4 speciális kód (aminosavkészletek megjelölése) és * a stopkodon kijelölésére ( a formális génfordításokban ) [16] [17] .

Aminosav kód	Jelentése
A	Alanin
B	Aszparaginsav (D) vagy aszparagin (N)
C	cisztein
D	Aszparaginsav
E	Glutaminsav
F	Fenilalanin
G	glicin
H	hisztidin
én	Izoleucin
J	Leucin (L) vagy izoleucin (I)
K	Lizin
L	Leucin
M	metionin
N	Aszparagin
O	pirrolizin
P	Prolin
K	Glutamin
R	Arginin
S	Derűs
T	Treonin
U	szelenocisztein
V	Valine
W	triptofán
Y	Tirozin
Z	Glutaminsav (E) vagy glutamin (Q)
x	Bármilyen aminosav
*	Fordítás befejezése

A Fasta formátumot a biológiai szekvencia-illesztést tartalmazó fájlok is használják . Ebben az esetben minden sorozatba, az ebben a sorozatban nem ábrázolt pozícióknak megfelelő helyekre „rés” karaktereket (általában kötőjelet vagy pontot) szúrnak be, ennek eredményeként a fájl összes sorozatának azonos hosszúságúnak kell lennie [18 ] .

Sorozatazonosítók

Az NCBI meghatározott szabályokat tartalmaz az egyedi szekvenciaazonosítók (SeqID) generálására. A leíró sorban az alábbi azonosítóváltozatokat lehet megadni [19] :

Típusú	Formátum(ok)	Példák
Helyi (nem utal külső adatbázisokra)	lcl\|целое число lcl\|строка	lcl\|123 lcl\|hmm271
GenInfo gerinchálózati szekvencia azonosítója	bbs\|целое число	bbs\|123
GenInfo gerinc molekula típusa	bbm\|целое число	bbm\|123
GenInfo import azonosító	gim\|целое число	gim\|123
GenBank	gb\|код доступа\|локус	gb\|M73307\|AGMA13GT
EMBL	emb\|код доступа\|локус	emb\|CAM43271.1\|
PIR	pir\|код доступа\|название	pir\|\|G36364
SWISS PROT	sp\|код доступа\|название	sp\|P01013\|OVAX_CHICK
Szabadalom	pat\|страна\|патент\|номер последовательности	pat\|US\|RE33188\|1
szabadalmaztatás	pgp\|страна\|номер заявки\|номер последовательности	pgp\|EP\|0238993\|7
RefSeq	ref\|код доступа\|название	ref\|NM_010450.1\|
Az adatbázis hivatkozása nem ebből a listából származik	gnl\|база данных\|целое число gnl\|база данных\|строка	gnl\|taxon\|9606 gnl\|PID\|e1632
Integrált GenInfo adatbázis	gi\|целое число	gi\|21434723
DDBJ	dbj\|код доступа\|локус	dbj\|BAC85684.1\|
PRF	prf\|код доступа\|название	prf\|\|0806162C
EKT	pdb\|запись\|цепь	pdb\|1I4L\|D
GenBank harmadik fél megjegyzéseivel	tpg\|код доступа\|название	tpg\|BK003456\|
EMBL harmadik fél megjegyzéseivel	tpe\|код доступа\|название	tpe\|BN000123\|
DDBJ harmadik fél megjegyzéseivel	tpd\|код доступа\|название	tpd\|FAA00017\|
TreMBL	tr\|код доступа\|название	tr\|Q90RT2\|Q90RT2_9HIV1

A lista tetején lévő függőleges kötőjelek ("|") nem elválasztójelek, hanem a formátum részei. Az azonosítókat sorba helyezheti, vonalakkal elválasztva őket. Abban az esetben, ha valamelyik azonosító mező üresen marad, a programokkal való kompatibilitás érdekében két kötőjelet kell egymás után tenni [20] .

Fájlkiterjesztések

A Fasta fájlok a bennük lévő biológiai adatok természetétől függően eltérő kiterjesztéssel rendelkezhetnek [21] [22] .

Kiterjesztés	Jelentése	Megjegyzések
fasta	Rendszeres gyors adat	Bármilyen gyors adat. Néha .fa, .seq, .fsa, .fas is
fna	röv. a "gyors nukleinsavból"	Nukleotidszekvenciák leírására.
ffn	Nukleotidok kódoló régiói	A genom kódoló régióit tartalmazzák .
faa	röv. "gyors aminosavakból"	Aminosav szekvenciákat tartalmaz. Az mpfa kiterjesztést akkor használják, ha több fehérjét tárolnak egy fájlban.
frn	Nem kódoló RNS FASTA formátumban	Nem kódoló RNS-eket tartalmaznak a DNS ábécéjében , például tRNS -t , rRNS -t
afa, mfa	Igazítás FASTA formátumban (a az "igazítás", m a "többszörös")	Tartalmazzák a biológiai (nukleotid- vagy aminosav-) szekvenciák egymáshoz illesztését

Jegyzetek

↑ FASTA (.fasta, .fa, .fna, .fsa, .mpfa). Wolfram Research, referencia, 2007-2012 . Letöltve: 2015. június 19. Az eredetiből archiválva : 2015. június 19. (határozatlan) (Angol)
↑ 1 2 3 Lipman D. , Pearson W. Gyors és érzékeny fehérjehasonlósági keresések // Tudomány . - 1985. - március 22. ( 227. köt. , 4693. sz.). - P. 1435-1441 . — ISSN 0036-8075 . - doi : 10.1126/tudomány.2983426 .
↑ Pearson WR , Lipman DJ Továbbfejlesztett eszközök a biológiai szekvencia összehasonlításhoz. (angol) // Proceedings of the National Academy of Sciences. - 1988. - április 1. ( 85. évf. , 8. sz.). - P. 2444-2448 . — ISSN 0027-8424 . - doi : 10.1073/pnas.85.8.2444 .
↑ Peter JA Cock, Tiago Antao, Jeffrey T. Chang, Brad A. Chapman, Cymon J. Cox. Biopython: ingyenesen elérhető Python-eszközök számítógépes molekuláris biológiához és bioinformatikához // Bioinformatika . - 2009-06-01. — Vol. 25 , iss. 11 . - P. 1422-1423 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatika/btp163 . Archiválva : 2020. május 15.
↑ Naohisa Goto, Pjotr Prins, Mitsuteru Nakao, Raoul Bonnal, Jan Aerts. BioRuby: bioinformatikai szoftver a Ruby programozási nyelvhez // Bioinformatika . — 2010-10-15. — Vol. 26 , iss. 20 . — P. 2617–2619 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatika/btq475 . Archiválva az eredetiből 2021. február 25-én.
↑ Jason E. Stajich, David Block, Kris Boulez, Steven E. Brenner, Stephen A. Chervitz. A Bioperl eszköztár: Perl modulok az élettudományokhoz // Genomkutatás. — 2002-10-01. — Vol. 12 , iss. 10 . - P. 1611-1618 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.361602 . Archiválva az eredetiből 2019. október 17-én.
↑ Aleix Lafita, Spencer Bliven, Andreas Prlić, Dmytro Guzenko, Peter W. Rose. BioJava 5: Közösség által vezérelt nyílt forráskódú bioinformatikai könyvtár // PLOS Computational Biology. — 2019-08-02. — Vol. 15 , iss. 2 . — P. e1006791 . — ISSN 1553-7358 . - doi : 10.1371/journal.pcbi.1006791 . Archiválva az eredetiből 2021. április 14-én.
↑ EMBOSS felhasználói kézikönyv . emboss.open-bio.org. Letöltve: 2020. május 22. Az eredetiből archiválva : 2020. február 14. (határozatlan)
↑ Minta GenBank rekord . www.ncbi.nlm.nih.gov. Letöltve: 2020. május 19. Az eredetiből archiválva : 2020. május 18. (határozatlan)
↑ European Nucleotide Archive annotált/összeállított szekvenciák Felhasználói kézikönyv (eng.) (txt). Európai Nukleotid Archívum . Európai Bioinformatikai Intézet (2020. március 12.). Hozzáférés időpontja: 2020. június 8.
↑ UniProt tudásbázis felhasználói kézikönyv . ExPASy Bioinformatikai Resource Portal (2020. április 22.). Letöltve: 2020. június 8. Az eredetiből archiválva : 2020. május 13.
↑ Multi-FASTA formátum - Metagenomics . www.metagenomics.wiki. Letöltve: 2020. május 19. Az eredetiből archiválva : 2020. augusztus 12. (határozatlan)
↑ Ta Schoenfeld, L McKerracher, R Obar, Rb Vallee. A MAP 1A és MAP 1B szerkezetileg rokon mikrotubulusokhoz kapcsolódó fehérjék, amelyek eltérő fejlődési mintázattal rendelkeznek a központi idegrendszerben // The Journal of Neuroscience. - 1989-05-01. — Vol. 9 , iss. 5 . — P. 1712–1730 . — ISSN 1529-2401 0270-6474, 1529-2401 . - doi : 10.1523/JNEUROSCI.09-05-01712.1989 .
↑ : Tao Tao. Nukleotidok egybetűs kódjai . NCBI Oktatási Központ . Nemzeti Biotechnológiai Információs Központ (2011. augusztus 24.). Letöltve: 2012. március 15. Az eredetiből archiválva : 2015. augusztus 13.. (határozatlan)
↑ A sorozatleírásban használt kódok . www.ddbj.nig.ac.jp. Letöltve: 2020. április 16. Az eredetiből archiválva : 2020. szeptember 29.
↑ IUPAC-IUB Biokémiai Nómenklatúra Vegyes Bizottság (JCBN). Az aminosavak és peptidek nómenklatúrája és szimbolikája. Recommendations 1983 // Biochemical Journal. - 1984. - április 15. ( 219. évf . , 2. sz.). - P. 345-373 . — ISSN 0264-6021 . - doi : 10.1042/bj2190345 .
↑ Igazított FASTA formátum . www.cgl.ucsf.edu. Letöltve: 2020. május 22. Az eredetiből archiválva : 2021. január 24. (határozatlan)
↑ NCBI C++ Toolkit Book. FASTA sorozatazonosító formátum . NCBI C++ Toolkit . Letöltve: 2020. május 30. Az eredetiből archiválva : 2020. december 15. (határozatlan)
↑ Leonard Shonda A. , Littlejohn Timothy G. , Baxevanis Andreas D. Common File Formats // Current Protocols in Bioinformatics. - 2006. - December ( 16. évf. , 1. sz.). — ISSN 1934-3396 . - doi : 10.1002/0471250953.bia01bs16 .
↑ Zahoorullah S MD. A biotechnológia tankönyve. - SM Online Publishers LLC, 2015. - P. 6-7. — ISBN 9780996274531 .
↑ Fájlformátumok igazítása . www.jalview.org. Letöltve: 2020. április 1. Az eredetiből archiválva : 2020. február 19. (határozatlan)

Linkek

Biológiai szekvencia fájl konverter
Útmutató a FASTA formátumú fájl manuális létrehozásához (hun.)

Típusú	Formátum(ok)	Példák
Helyi (nem utal külső adatbázisokra)	lcl\|целое число lcl\|строка	lcl\|123 lcl\|hmm271
GenInfo gerinchálózati szekvencia azonosítója	bbs\|целое число	bbs\|123
GenInfo gerinc molekula típusa	bbm\|целое число	bbm\|123
GenInfo import azonosító	gim\|целое число	gim\|123
GenBank	gb\|код доступа\|локус	gb\|M73307\|AGMA13GT
EMBL	emb\|код доступа\|локус	emb\|CAM43271.1\|
PIR	pir\|код доступа\|название	pir\|\|G36364
SWISS PROT	sp\|код доступа\|название	sp\|P01013\|OVAX_CHICK
Szabadalom	pat\|страна\|патент\|номер последовательности	pat\|US\|RE33188\|1
szabadalmaztatás	pgp\|страна\|номер заявки\|номер последовательности	pgp\|EP\|0238993\|7
RefSeq	ref\|код доступа\|название	ref\|NM_010450.1\|
Az adatbázis hivatkozása nem ebből a listából származik	gnl\|база данных\|целое число gnl\|база данных\|строка	gnl\|taxon\|9606 gnl\|PID\|e1632
Integrált GenInfo adatbázis	gi\|целое число	gi\|21434723
DDBJ	dbj\|код доступа\|локус	dbj\|BAC85684.1\|
PRF	prf\|код доступа\|название	prf\|\|0806162C
EKT	pdb\|запись\|цепь	pdb\|1I4L\|D
GenBank harmadik fél megjegyzéseivel	tpg\|код доступа\|название	tpg\|BK003456\|
EMBL harmadik fél megjegyzéseivel	tpe\|код доступа\|название	tpe\|BN000123\|
DDBJ harmadik fél megjegyzéseivel	tpd\|код доступа\|название	tpd\|FAA00017\|
TreMBL	tr\|код доступа\|название	tr\|Q90RT2\|Q90RT2_9HIV1