FASTA formátum | |
---|---|
Kiterjesztés | .fas, .fasta, .fna, .ffn, .faa, .frn, .afa, .mfa |
MIME típusú | Chemical/seq-aa-fasta, Chemical/seq-na-fasta [1] |
Fejlesztő |
David Lipman [2] William Pearson [2] |
közzétett | 1985 |
Formátum típusa | fájlformátum és szöveges adatformátum [d] |
Kibontva innen | ASCII a FASTA-hoz |
ben fejlődött | FASTQ |
Weboldal | http://ncbi.nlm.nih.gov/BLAST/fasta.shtml |
A FASTA a nukleotid- vagy polipeptidszekvenciák szöveges formátuma , amelyben a nukleotidokat vagy aminosavakat egybetűs kódokkal jelölik . Egyszerűsége és praktikussága miatt jelenleg a legtöbb biológiai szekvenciaprogram használja . Az ilyen formátumú fájlok adatbázisokban és megjegyzésekben tartalmazhatják a sorozatok nevét, azonosítóit . A benne lévő biológiai szekvenciák természetétől függően egy FASTA fájl többféle kiterjesztéssel rendelkezhet .
A formátumot David Lipman és William Pearson [2] [3] találta ki 1985-ben az azonos nevű programhoz , amelyet arra terveztek, hogy egy adott szekvenciával homológ szekvenciák nagy adatbázisaiban keressen . A formátum eredeti leírását ők készítették ennek a programnak a dokumentációjában, most pedig a leírása a BLAST program dokumentációjának része .
A FASTA formátum egyszerűsége megkönnyíti a különféle műveletek végrehajtását szekvenciákkal szövegszerkesztő eszközökkel és olyan szkript programozási nyelvekkel, mint a Python [5] , Ruby [6] , Perl [7] , Java [8] .
A FASTA és a FASTQ (Sanger Institute) formátumok a legnépszerűbbek a biológiai szekvencia adatok ábrázolására [9] . Más formátumok is léteznek, beleértve a GenBank [10] , EMBL [11] és UniProt [12] adatbankokban használtakat .
A FASTA szekvenciák egysoros leírással kezdődnek, amelyet magát a szekvenciát tartalmazó sorok követnek. A leírást az első oszlopban nagyobb mint szimbólum (">") jelöli. Az e karakter utáni szó az első szóközig a sorozatazonosító , amelyet egy opcionális leírás követ. A következő néhány sor első karaktere lehet pontosvessző (";"), ebben az esetben a rendszer megjegyzésként kezeli őket. Jelenleg sok adatbázis és program nem ismeri fel a megjegyzéseket, így nem túl gyakoriak. Ezután kövesse a tényleges biológiai szekvenciákat tartalmazó sorokat. Általában a FASTA formátumú karakterláncok 80-120 karakter hosszúságúak (történelmi okokból), de a modern programok felismerik a teljes egészében egy sorba írt szekvenciákat. Egy fájlba több szekvencia is írható, így több FASTA fájlt kapunk, azonban minden szekvenciát meg kell előzni egy saját azonosítóval [13] . Példa egy sorozatra FASTA formátumban: [14]
>gi|31563518|ref|NP_852610.1| mikrotubulus-asszociált fehérjék 1A/1B könnyű lánc 3A b izoforma [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENEEnnek a sorozatnak az azonosítója: gi|31563518|ref|NP_852610.1|.
A szekvenciák a nukleotidok vagy aminosavak egybetűs kódjaiként vannak felírva , megegyezve a szabványos IUB / IUPAC egybetűs kódjaikkal , 5'-től 3'-végig a nukleinsavaknál és N-től C-terminálisig. aminosavak esetén szóköz megengedett, a karakterek lehetnek kis- és nagybetűk is. A sorozatokkal dolgozó programok figyelmen kívül hagyják a számokat, a sorvégi és tabulátor karaktereket .
A nukleinsavakat [15] jelölik :
A kód | Jelentése | Mnemonika |
---|---|---|
A | A | A denin - Adenin |
C | C | C tozin – citozin |
G | G | Guanin - Guanin |
T | T | T himin – timin (5-metil-uracil) |
U | U | U racil - Uracil |
R | A, G | pu Rine - Purinok |
Y | C, T, U | p Y rimidinek – pirimidinek |
K | G, T, U | Keton bázisok _ |
M | A, C | Bázisok aminocsoportokkal (a M ino) |
S | C, G | Erős ( Erős ) kölcsönhatás egy komplementer párban (három hidrogénkötés ) |
W | A, T, U | Gyenge (gyenge ) kölcsönhatás egy komplementer párban (két hidrogénkötés ) |
B | nem A (azaz C, G, T vagy U) | B követi A-t |
D | nem C (azaz A, G, T vagy U) | D követi C-t |
H | nem G (A, C, T vagy U) | H követi G-t |
V | nem T és nem U (A, C vagy G) | V követi U |
N | ACGTU | Bármely (a N y) nukleotid |
Az aminosavaknak 22 közös kódja van (kanonikus aminosavak, szelenocisztein és pirrolizin ), 4 speciális kód (aminosavkészletek megjelölése) és * a stopkodon kijelölésére ( a formális génfordításokban ) [16] [17] .
Aminosav kód | Jelentése |
---|---|
A | Alanin |
B | Aszparaginsav (D) vagy aszparagin (N) |
C | cisztein |
D | Aszparaginsav |
E | Glutaminsav |
F | Fenilalanin |
G | glicin |
H | hisztidin |
én | Izoleucin |
J | Leucin (L) vagy izoleucin (I) |
K | Lizin |
L | Leucin |
M | metionin |
N | Aszparagin |
O | pirrolizin |
P | Prolin |
K | Glutamin |
R | Arginin |
S | Derűs |
T | Treonin |
U | szelenocisztein |
V | Valine |
W | triptofán |
Y | Tirozin |
Z | Glutaminsav (E) vagy glutamin (Q) |
x | Bármilyen aminosav |
* | Fordítás befejezése |
A Fasta formátumot a biológiai szekvencia-illesztést tartalmazó fájlok is használják . Ebben az esetben minden sorozatba, az ebben a sorozatban nem ábrázolt pozícióknak megfelelő helyekre „rés” karaktereket (általában kötőjelet vagy pontot) szúrnak be, ennek eredményeként a fájl összes sorozatának azonos hosszúságúnak kell lennie [18 ] .
Az NCBI meghatározott szabályokat tartalmaz az egyedi szekvenciaazonosítók (SeqID) generálására. A leíró sorban az alábbi azonosítóváltozatokat lehet megadni [19] :
Típusú | Formátum(ok) | Példák |
---|---|---|
Helyi (nem utal külső adatbázisokra) | lcl|целое число lcl|строка |
lcl|123 lcl|hmm271 |
GenInfo gerinchálózati szekvencia azonosítója | bbs|целое число | bbs|123 |
GenInfo gerinc molekula típusa | bbm|целое число | bbm|123 |
GenInfo import azonosító | gim|целое число | gim|123 |
GenBank | gb|код доступа|локус | gb|M73307|AGMA13GT |
EMBL | emb|код доступа|локус | emb|CAM43271.1| |
PIR | pir|код доступа|название | pir||G36364 |
SWISS PROT | sp|код доступа|название | sp|P01013|OVAX_CHICK |
Szabadalom | pat|страна|патент|номер последовательности | pat|US|RE33188|1 |
szabadalmaztatás | pgp|страна|номер заявки|номер последовательности | pgp|EP|0238993|7 |
RefSeq | ref|код доступа|название | ref|NM_010450.1| |
Az adatbázis hivatkozása nem ebből a listából származik | gnl|база данных|целое число gnl|база данных|строка |
gnl|taxon|9606 gnl|PID|e1632 |
Integrált GenInfo adatbázis | gi|целое число | gi|21434723 |
DDBJ | dbj|код доступа|локус | dbj|BAC85684.1| |
PRF | prf|код доступа|название | prf||0806162C |
EKT | pdb|запись|цепь | pdb|1I4L|D |
GenBank harmadik fél megjegyzéseivel | tpg|код доступа|название | tpg|BK003456| |
EMBL harmadik fél megjegyzéseivel | tpe|код доступа|название | tpe|BN000123| |
DDBJ harmadik fél megjegyzéseivel | tpd|код доступа|название | tpd|FAA00017| |
TreMBL | tr|код доступа|название | tr|Q90RT2|Q90RT2_9HIV1 |
A lista tetején lévő függőleges kötőjelek ("|") nem elválasztójelek, hanem a formátum részei. Az azonosítókat sorba helyezheti, vonalakkal elválasztva őket. Abban az esetben, ha valamelyik azonosító mező üresen marad, a programokkal való kompatibilitás érdekében két kötőjelet kell egymás után tenni [20] .
A Fasta fájlok a bennük lévő biológiai adatok természetétől függően eltérő kiterjesztéssel rendelkezhetnek [21] [22] .
Kiterjesztés | Jelentése | Megjegyzések |
---|---|---|
fasta | Rendszeres gyors adat | Bármilyen gyors adat. Néha .fa, .seq, .fsa, .fas is |
fna | röv. a "gyors nukleinsavból" | Nukleotidszekvenciák leírására. |
ffn | Nukleotidok kódoló régiói | A genom kódoló régióit tartalmazzák . |
faa | röv. "gyors aminosavakból" | Aminosav szekvenciákat tartalmaz. Az mpfa kiterjesztést akkor használják, ha több fehérjét tárolnak egy fájlban. |
frn | Nem kódoló RNS FASTA formátumban | Nem kódoló RNS-eket tartalmaznak a DNS ábécéjében , például tRNS -t , rRNS -t |
afa, mfa | Igazítás FASTA formátumban (a az "igazítás", m a "többszörös") | Tartalmazzák a biológiai (nukleotid- vagy aminosav-) szekvenciák egymáshoz illesztését |