FASTA

FASTA formátum
Kiterjesztés .fas, .fasta, .fna, .ffn, .faa, .frn, .afa, .mfa
MIME típusú Chemical/seq-aa-fasta, Chemical/seq-na-fasta [1]
Fejlesztő David Lipman [2]
William Pearson [2]
közzétett 1985
Formátum típusa fájlformátum és szöveges adatformátum [d]
Kibontva innen ASCII a FASTA-hoz
ben fejlődött FASTQ
Weboldal http://ncbi.nlm.nih.gov/BLAST/fasta.shtml

A FASTA a nukleotid- vagy polipeptidszekvenciák  szöveges formátuma , amelyben a nukleotidokat vagy aminosavakat egybetűs kódokkal jelölik . Egyszerűsége és praktikussága miatt jelenleg a legtöbb biológiai szekvenciaprogram használja . Az ilyen formátumú fájlok adatbázisokban és megjegyzésekben tartalmazhatják a sorozatok nevét, azonosítóit . A benne lévő biológiai szekvenciák természetétől függően egy FASTA fájl többféle kiterjesztéssel rendelkezhet .

Történet és terjesztés

A formátumot David Lipman és William Pearson [2] [3] találta ki 1985-ben az azonos nevű programhoz , amelyet arra terveztek, hogy egy adott szekvenciával homológ szekvenciák nagy adatbázisaiban keressen . A formátum eredeti leírását ők készítették ennek a programnak a dokumentációjában, most pedig a leírása a BLAST program dokumentációjának része .

A FASTA formátum egyszerűsége megkönnyíti a különféle műveletek végrehajtását szekvenciákkal szövegszerkesztő eszközökkel és olyan szkript programozási nyelvekkel, mint a Python [5] , Ruby [6] , Perl [7] , Java [8] .

A FASTA és a FASTQ (Sanger Institute) formátumok a legnépszerűbbek a biológiai szekvencia adatok ábrázolására [9] . Más formátumok is léteznek, beleértve a GenBank [10] , EMBL [11] és UniProt [12] adatbankokban használtakat .

Formátum

A FASTA szekvenciák egysoros leírással kezdődnek, amelyet magát a szekvenciát tartalmazó sorok követnek. A leírást az első oszlopban nagyobb mint szimbólum (">") jelöli. Az e karakter utáni szó az első szóközig a sorozatazonosító , amelyet egy opcionális leírás követ. A következő néhány sor első karaktere lehet pontosvessző (";"), ebben az esetben a rendszer megjegyzésként kezeli őket. Jelenleg sok adatbázis és program nem ismeri fel a megjegyzéseket, így nem túl gyakoriak. Ezután kövesse a tényleges biológiai szekvenciákat tartalmazó sorokat. Általában a FASTA formátumú karakterláncok 80-120 karakter hosszúságúak (történelmi okokból), de a modern programok felismerik a teljes egészében egy sorba írt szekvenciákat. Egy fájlba több szekvencia is írható, így több FASTA fájlt kapunk, azonban minden szekvenciát meg kell előzni egy saját azonosítóval [13] . Példa egy sorozatra FASTA formátumban: [14]

>gi|31563518|ref|NP_852610.1| mikrotubulus-asszociált fehérjék 1A/1B könnyű lánc 3A b izoforma [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE

Ennek a sorozatnak az azonosítója: gi|31563518|ref|NP_852610.1|.

A szekvenciák a nukleotidok vagy aminosavak egybetűs kódjaiként vannak felírva , megegyezve a szabványos IUB / IUPAC egybetűs kódjaikkal , 5'-től 3'-végig a nukleinsavaknál és N-től C-terminálisig. aminosavak esetén szóköz megengedett, a karakterek lehetnek kis- és nagybetűk is. A sorozatokkal dolgozó programok figyelmen kívül hagyják a számokat, a sorvégi és tabulátor karaktereket .

A nukleinsavakat [15] jelölik :

A kód Jelentése Mnemonika
A A A denin  - Adenin
C C C tozin  – citozin
G G Guanin  - Guanin
T T T himin  – timin (5-metil-uracil)
U U U racil  - Uracil
R A, G pu Rine  - Purinok
Y C, T, U p Y rimidinek  – pirimidinek
K G, T, U Keton bázisok _
M A, C Bázisok aminocsoportokkal (a M ino)
S C, G Erős ( Erős ) kölcsönhatás egy komplementer párban (három hidrogénkötés )
W A, T, U Gyenge (gyenge ) kölcsönhatás egy komplementer párban (két hidrogénkötés )
B nem A (azaz C, G, T vagy U) B követi A-t
D nem C (azaz A, G, T vagy U) D követi C-t
H nem G (A, C, T vagy U) H követi G-t
V nem T és nem U (A, C vagy G) V követi U
N ACGTU Bármely (a N y) nukleotid

Az aminosavaknak 22 közös kódja van (kanonikus aminosavak, szelenocisztein és pirrolizin ), 4 speciális kód (aminosavkészletek megjelölése) és * a stopkodon kijelölésére ( a formális génfordításokban ) [16] [17] .

Aminosav kód Jelentése
A Alanin
B Aszparaginsav (D) vagy aszparagin (N)
C cisztein
D Aszparaginsav
E Glutaminsav
F Fenilalanin
G glicin
H hisztidin
én Izoleucin
J Leucin (L) vagy izoleucin (I)
K Lizin
L Leucin
M metionin
N Aszparagin
O pirrolizin
P Prolin
K Glutamin
R Arginin
S Derűs
T Treonin
U szelenocisztein
V Valine
W triptofán
Y Tirozin
Z Glutaminsav (E) vagy glutamin (Q)
x Bármilyen aminosav
* Fordítás befejezése

A Fasta formátumot a biológiai szekvencia-illesztést tartalmazó fájlok is használják . Ebben az esetben minden sorozatba, az ebben a sorozatban nem ábrázolt pozícióknak megfelelő helyekre „rés” karaktereket (általában kötőjelet vagy pontot) szúrnak be, ennek eredményeként a fájl összes sorozatának azonos hosszúságúnak kell lennie [18 ] .

Sorozatazonosítók

Az NCBI meghatározott szabályokat tartalmaz az egyedi szekvenciaazonosítók (SeqID) generálására. A leíró sorban az alábbi azonosítóváltozatokat lehet megadni [19] :

Típusú Formátum(ok) Példák
Helyi (nem utal külső adatbázisokra) lcl|целое число

lcl|строка

lcl|123

lcl|hmm271

GenInfo gerinchálózati szekvencia azonosítója bbs|целое число bbs|123
GenInfo gerinc molekula típusa bbm|целое число bbm|123
GenInfo import azonosító gim|целое число gim|123
GenBank gb|код доступа|локус gb|M73307|AGMA13GT
EMBL emb|код доступа|локус emb|CAM43271.1|
PIR pir|код доступа|название pir||G36364
SWISS PROT sp|код доступа|название sp|P01013|OVAX_CHICK
Szabadalom pat|страна|патент|номер последовательности pat|US|RE33188|1
szabadalmaztatás pgp|страна|номер заявки|номер последовательности pgp|EP|0238993|7
RefSeq ref|код доступа|название ref|NM_010450.1|
Az adatbázis hivatkozása nem ebből a listából származik gnl|база данных|целое число

gnl|база данных|строка

gnl|taxon|9606

gnl|PID|e1632

Integrált GenInfo adatbázis gi|целое число gi|21434723
DDBJ dbj|код доступа|локус dbj|BAC85684.1|
PRF prf|код доступа|название prf||0806162C
EKT pdb|запись|цепь pdb|1I4L|D
GenBank harmadik fél megjegyzéseivel tpg|код доступа|название tpg|BK003456|
EMBL harmadik fél megjegyzéseivel tpe|код доступа|название tpe|BN000123|
DDBJ harmadik fél megjegyzéseivel tpd|код доступа|название tpd|FAA00017|
TreMBL tr|код доступа|название tr|Q90RT2|Q90RT2_9HIV1

A lista tetején lévő függőleges kötőjelek ("|") nem elválasztójelek, hanem a formátum részei. Az azonosítókat sorba helyezheti, vonalakkal elválasztva őket. Abban az esetben, ha valamelyik azonosító mező üresen marad, a programokkal való kompatibilitás érdekében két kötőjelet kell egymás után tenni [20] .

Fájlkiterjesztések

A Fasta fájlok a bennük lévő biológiai adatok természetétől függően eltérő kiterjesztéssel rendelkezhetnek [21] [22] .

Kiterjesztés Jelentése Megjegyzések
fasta Rendszeres gyors adat Bármilyen gyors adat. Néha .fa, .seq, .fsa, .fas is
fna röv. a "gyors nukleinsavból" Nukleotidszekvenciák leírására.
ffn Nukleotidok kódoló régiói A genom kódoló régióit tartalmazzák .
faa röv. "gyors aminosavakból" Aminosav szekvenciákat tartalmaz. Az mpfa kiterjesztést akkor használják, ha több fehérjét tárolnak egy fájlban.
frn Nem kódoló RNS FASTA formátumban Nem kódoló RNS-eket tartalmaznak a DNS ábécéjében , például tRNS -t , rRNS -t
afa, mfa Igazítás FASTA formátumban (a az "igazítás", m a "többszörös") Tartalmazzák a biológiai (nukleotid- vagy aminosav-) szekvenciák egymáshoz illesztését

Jegyzetek

  1. FASTA (.fasta, .fa, .fna, .fsa, .mpfa). Wolfram Research, referencia, 2007-2012 . Letöltve: 2015. június 19. Az eredetiből archiválva : 2015. június 19.  (Angol)
  2. 1 2 3 Lipman D. , Pearson W. Gyors és érzékeny fehérjehasonlósági keresések   // Tudomány . - 1985. - március 22. ( 227. köt. , 4693. sz.). - P. 1435-1441 . — ISSN 0036-8075 . - doi : 10.1126/tudomány.2983426 .
  3. Pearson WR , Lipman DJ Továbbfejlesztett eszközök a biológiai szekvencia összehasonlításhoz.  (angol)  // Proceedings of the National Academy of Sciences. - 1988. - április 1. ( 85. évf. , 8. sz.). - P. 2444-2448 . — ISSN 0027-8424 . - doi : 10.1073/pnas.85.8.2444 .
  4. Peter JA Cock, Tiago Antao, Jeffrey T. Chang, Brad A. Chapman, Cymon J. Cox. Biopython: ingyenesen elérhető Python-eszközök számítógépes molekuláris biológiához és bioinformatikához   // Bioinformatika . - 2009-06-01. — Vol. 25 , iss. 11 . - P. 1422-1423 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatika/btp163 . Archiválva : 2020. május 15.
  5. Naohisa Goto, Pjotr ​​​​Prins, Mitsuteru Nakao, Raoul Bonnal, Jan Aerts. BioRuby: bioinformatikai szoftver a Ruby programozási nyelvhez   // Bioinformatika . — 2010-10-15. — Vol. 26 , iss. 20 . — P. 2617–2619 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatika/btq475 . Archiválva az eredetiből 2021. február 25-én.
  6. Jason E. Stajich, David Block, Kris Boulez, Steven E. Brenner, Stephen A. Chervitz. A Bioperl eszköztár: Perl modulok az élettudományokhoz  //  Genomkutatás. — 2002-10-01. — Vol. 12 , iss. 10 . - P. 1611-1618 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.361602 . Archiválva az eredetiből 2019. október 17-én.
  7. Aleix Lafita, Spencer Bliven, Andreas Prlić, Dmytro Guzenko, Peter W. Rose. BioJava 5: Közösség által vezérelt nyílt forráskódú bioinformatikai könyvtár  //  PLOS Computational Biology. — 2019-08-02. — Vol. 15 , iss. 2 . — P. e1006791 . — ISSN 1553-7358 . - doi : 10.1371/journal.pcbi.1006791 . Archiválva az eredetiből 2021. április 14-én.
  8. EMBOSS felhasználói kézikönyv . emboss.open-bio.org. Letöltve: 2020. május 22. Az eredetiből archiválva : 2020. február 14.
  9. Minta GenBank rekord . www.ncbi.nlm.nih.gov. Letöltve: 2020. május 19. Az eredetiből archiválva : 2020. május 18.
  10. European Nucleotide Archive annotált/összeállított szekvenciák Felhasználói kézikönyv  (eng.) (txt). Európai Nukleotid Archívum . Európai Bioinformatikai Intézet (2020. március 12.). Hozzáférés időpontja: 2020. június 8.
  11. UniProt tudásbázis felhasználói  kézikönyv . ExPASy Bioinformatikai Resource Portal (2020. április 22.). Letöltve: 2020. június 8. Az eredetiből archiválva : 2020. május 13.
  12. Multi-FASTA formátum - Metagenomics . www.metagenomics.wiki. Letöltve: 2020. május 19. Az eredetiből archiválva : 2020. augusztus 12.
  13. Ta Schoenfeld, L McKerracher, R Obar, Rb Vallee. A MAP 1A és MAP 1B szerkezetileg rokon mikrotubulusokhoz kapcsolódó fehérjék, amelyek eltérő fejlődési mintázattal rendelkeznek a központi idegrendszerben  //  The Journal of Neuroscience. - 1989-05-01. — Vol. 9 , iss. 5 . — P. 1712–1730 . — ISSN 1529-2401 0270-6474, 1529-2401 . - doi : 10.1523/JNEUROSCI.09-05-01712.1989 .
  14. : Tao Tao. Nukleotidok egybetűs kódjai . NCBI Oktatási Központ . Nemzeti Biotechnológiai Információs Központ (2011. augusztus 24.). Letöltve: 2012. március 15. Az eredetiből archiválva : 2015. augusztus 13..
  15. ↑ A sorozatleírásban használt kódok  . www.ddbj.nig.ac.jp. Letöltve: 2020. április 16. Az eredetiből archiválva : 2020. szeptember 29.
  16. IUPAC-IUB Biokémiai Nómenklatúra Vegyes Bizottság (JCBN). Az aminosavak és peptidek nómenklatúrája és szimbolikája. Recommendations 1983  //  Biochemical Journal. - 1984. - április 15. ( 219. évf . , 2. sz.). - P. 345-373 . — ISSN 0264-6021 . - doi : 10.1042/bj2190345 .
  17. Igazított FASTA formátum . www.cgl.ucsf.edu. Letöltve: 2020. május 22. Az eredetiből archiválva : 2021. január 24.
  18. NCBI C++ Toolkit Book. FASTA sorozatazonosító formátum . NCBI C++ Toolkit . Letöltve: 2020. május 30. Az eredetiből archiválva : 2020. december 15.
  19. Leonard Shonda A. , Littlejohn Timothy G. , Baxevanis Andreas D. Common File Formats  //  Current Protocols in Bioinformatics. - 2006. - December ( 16. évf. , 1. sz.). — ISSN 1934-3396 . - doi : 10.1002/0471250953.bia01bs16 .
  20. Zahoorullah S MD. A biotechnológia tankönyve. - SM Online Publishers LLC, 2015. - P. 6-7. — ISBN 9780996274531 .
  21. Fájlformátumok igazítása . www.jalview.org. Letöltve: 2020. április 1. Az eredetiből archiválva : 2020. február 19.

Linkek