A bioinformatika egy interdiszciplináris terület, amely egyesíti az általános biológiát, a molekuláris biológiát , a kibernetikát, a genetikát , a kémiát, a számítástechnikát , a matematikát és a statisztikát . A nagy mennyiségű, nagy mennyiségű adat elemzését igénylő biológiai problémákat a bioinformatika számítástechnikai szempontból oldja meg [1] . A bioinformatika elsősorban számítógépes módszerek tanulmányozását és fejlesztését foglalja magában, és biológiai adatok megszerzésére, elemzésére, tárolására, rendszerezésére és megjelenítésére irányul [2] .
Hasonló kontextusban gyakran emlegetik a számítógépes biológia kifejezést . Ez a terület az algoritmusok fejlesztésére és a társadalmi, viselkedési és biológiai rendszerek matematikai modellezésére összpontosít. A bioinformatikát a számítási biológia olyan területének tekintik, amely elsősorban a biológiai adatok statisztikai feldolgozására összpontosít [2] . Megközelítési különbségek különböző oldalakról: a bioinformatikusok olyan biológusok, akik számítástechnikai rendszerek és eszközök biológiai problémák megoldására való felhasználására specializálódtak, míg a számítógépes biológusok informatikusok, matematikusok, statisztikusok és mérnökök, akik az ilyen számításokhoz eszközöket fejlesztenek [2] .
A bioinformatika tágabb értelemben bármilyen biológiai adattal való munkát jelent, beleértve az elektronmikroszkópos felvételek tanulmányozását, a kulcsszavak keresését a biológiai irodalomban stb [3] . Ha a bioinformatikát az adatokkal való munkavégzés megközelítéseinek és módszereinek halmazának tekintjük, akkor a technikai problémák típusától függően magában foglalja [4] :
A bioinformatikai elemzési módszerek azonban számos tudományterülethez is elválaszthatatlanul kapcsolódnak, amelyek konkrét biológiai kérdésekre keresik a választ. Ebben az esetben a fő irányok megkülönböztethetők a vizsgált objektumok alapján:
A felsorolt szekciók mindegyikéhez ki lehet választani a saját szabványos adattípusokat, azok feldolgozási módjait, bioinformatikai algoritmusait és adatbázisait.
A bioinformatika alkalmazott matematikai , statisztikai és számítástechnikai módszereket alkalmaz . A bioinformatikát a biokémia , biofizika , ökológia és más területeken használják. A leggyakrabban használt eszközök és technológiák ezen a területen a Python , R , Java , C# , C++ programozási nyelvek ; jelölőnyelv - XML ; strukturált lekérdezési nyelv adatbázisokhoz - SQL ; párhuzamos számítástechnikai szoftver és hardver architektúra - CUDA ; alkalmazott programcsomag a műszaki számítások problémáinak megoldására és a csomagban használt azonos nevű programozási nyelv - MATLAB , valamint táblázatok .
A bioinformatika a biológia számos területének fontos részévé vált. A bioinformatikai elemzési módszerek nagy mennyiségű kísérleti adat értelmezését teszik lehetővé, ami a terület kialakulása előtt gyakorlatilag lehetetlen volt. Például a kísérleti molekuláris biológia gyakran használ olyan bioinformatikai technikákat, mint a kép- és jelfeldolgozás . A genetika és genomika területén a bioinformatika segíti a genomok funkcionális annotációját, a mutációk kimutatását és elemzését. Fontos feladat a génexpresszió és szabályozási módok tanulmányozása. Ezenkívül a bioinformatikai eszközök lehetővé teszik a genomikai adatok összehasonlítását, ami előfeltétele a molekuláris evolúció elveinek tanulmányozásának .
Általánosságban elmondható, hogy a bioinformatika segít elemezni és katalogizálni a biokémiai útvonalakat és hálózatokat, amelyek a rendszerbiológia fontos részét képezik. A szerkezetbiológiában segít a DNS-, RNS- és fehérjeszerkezetek, valamint a molekuláris kölcsönhatások modellezésében.
A biológiai adatfeldolgozásban a közelmúltban elért eredmények jelentős változásokhoz vezettek a biomedicina területén. A bioinformatika fejlődésének köszönhetően a tudósok azonosítani tudták mind az örökletes, mind a szerzett betegségek hátterében álló molekuláris mechanizmusokat, ami elősegíti a hatékony kezelések és a betegségek diagnosztizálására szolgáló pontosabb vizsgálatok kidolgozását [5] . Azt a kutatási irányt, amely lehetővé teszi a gyógyszerek hatékonyságának és káros hatásainak előrejelzését a betegeknél, farmakogenetikának nevezzük , és bioinformatikai módszereken is alapul.
A bioinformatikának fontos szerepe van a biológiai irodalom elemzésében és a biológiai adatok rendszerezésére szolgáló biológiai és genetikai ontológiák kidolgozásában is.
Az információtovábbítás, -tárolás és -feldolgozás biológiai rendszerekben betöltött fontos szerepének felismerése alapján 1970-ben Pauline Hogeweg bevezette a „bioinformatika” kifejezést, amely a biotikus rendszerek információfolyamatainak vizsgálataként határozta meg [6] [7] . Ez a meghatározás párhuzamot von a bioinformatika és a biofizika (a biológiai rendszerekben zajló fizikai folyamatok vizsgálata) vagy a biokémiával (a biológiai rendszerekben zajló kémiai folyamatok tanulmányozása) között [6] .
SorozatokA szekvencia-bioinformatika története az 1950-es évek fejlődésére vezethető vissza. 1953 februárjában Watson és Crick javasolta a DNS-molekula modelljét, 1953 májusában pedig a Nature folyóiratban publikáltak egy cikket , amely a DNS mint a genetikai információs kód hordozójának kérdésével foglalkozott [8] . Ezenkívül az 1950-es évek végén Sanger közzétette az első fehérjeszekvenciát, az inzulint [9] , [10] .
Az aminosavszekvenciák szekvenálásának leggyakrabban használt módszere az Edman-lebontás lett, melynek fő hátránya a hosszú fehérjeszekvenciák kinyerésének nehézsége volt: az elméleti maximum 50-60 aminosav volt reakciónként. Emiatt a fehérjéket először apró darabokra kellett bontani, majd több száz rövid láncból összeállították a fehérjeszekvenciákat, amit nem mindig lehetett helyesen megtenni. A probléma megoldását Margaret Deyhoff (1925-1983) - amerikai tudós, fizikai kémikus javasolta. Dayhoff munkája során aktívan használta a számítógépes módszereket, és meglátta ezek alkalmazásának lehetőségét a biológia és az orvostudomány területén. 1962-ben fejezte be a COMPROTEIN kifejlesztését, amely eszköz egy fehérje elsődleges szerkezetének meghatározására Edman peptid szekvenálási adatok segítségével [11] . A COMPROTEIN-ben egy aminosav-szekvencia bemenetét és kimenetét hárombetűs rövidítésekkel mutatták be. A fehérjeszekvencia adatok feldolgozásának egyszerűsítésére Dayhoff később kifejlesztette a ma is használatos egybetűs aminosav kódot. Dayhoff hozzájárulása a területhez olyan jelentős, hogy David J. Lipman, a Nemzeti Biotechnológiai Információs Központ (NCBI) korábbi igazgatója "a bioinformatika anyjának és atyjának" nevezte [12] .
Az új fehérjeszekvenciák felhalmozódásával bizonyos mintázatok kezdtek nyomon követni bennük. Például Zuckerkandl és Pauling megjegyezte, hogy az ortológ gerinces fehérjék (pl. hemoglobin) túl nagy fokú szekvenciahasonlóságot mutatnak ahhoz, hogy konvergens evolúció eredménye legyen. Új matematikai és számítógépes módszerekre volt szükség az új evolúciós hipotézisek megerősítéséhez. [13] . Az első dinamikus programozási algoritmust a fehérjeszekvenciák páronkénti összehangolására Needleman és Wunsch fejlesztette ki 1970-ben [14] . A többszörös szekvenciaillesztési algoritmusok jóval később jelentek meg: az első gyakorlati algoritmust Da-Fei Feng és Russell F. Doolittle fejlesztette ki 1987-ben [15] . Ennek egyszerűsítése, a CLUSTAL algoritmus ma is használatos. Ezenkívül 1978-ban a Dayhoffot is magában foglaló tudósok egy csoportja létrehozta az első szubsztitúciós modellt, amely 71, több mint 85%-ban azonos fehérjecsalád filogenetikai fáiban észlelt pont elfogadott mutációk (PAM) megfigyelésén alapult. Ennek eredményeként egy mátrixot kaptunk, amely az aminosav-szubsztitúciók valószínűségi értékeit tartalmazza [16] .
A Molekuláris Biológia Központi Dogmája, amelyet Francis Crick 1970-ben publikált, és a 68 kodon által kódolt összes aminosav fokozatos azonosítása a fehérjeevolúcióról a DNS-evolúcióra való fokozatos paradigmaváltáshoz vezetett az 1970-es és 1980-as években. Meg kellett tanulni a DNS-szekvenciák olvasását. Az első DNS-szekvenálási módszer, amely széles körben elterjedt, a Maxam-Gilbert szekvenálási módszer volt 1976-ban [17] . A legszélesebb körben alkalmazott módszert azonban 1977-ben Frederick Sanger laboratóriumában fejlesztették ki, és ma is használják. A Sanger szekvenálás lehetővé tette az akkori időre vonatkozó meglehetősen nagy mennyiségű információ megszerzését, de a szekvenálható fragmentumok mérete több száz nukleotidra korlátozódott, ami csak az olyan kis genomok, mint a bakteriofág genomok tanulmányozására volt elegendő. Az első Sanger szekvenáló szoftvert Roger Staden adta ki 1979-ben [18] . Ez a szoftvercsomag nem csak szekvenciák összeállítását tette lehetővé kontigokká, hanem ezen szekvenciák ellenőrzését és szerkesztését, valamint annotációkat is.
GenomokAz emberi genom 21. század eleji publikálásával megkezdődött a bioinformatika genomikai korszaka. A projektet 1991-ben indították el az Egyesült Államokban, és 13 év alatt 2,7 milliárd dollárba került [19] . 1998-ban a Celera Genomics egy versengő magántanulmányt készített az emberi genom szekvenálására és összeállítására. A tanulmány tízszer kevesebb pénzt igényelt, és új kísérleti szekvenálási stratégiák kifejlesztését katalizálta, mint például a 454 és az Illumina. A DNS-szekvenálás költsége nagyságrendekkel csökkent, aminek következtében a nyilvános adatbázisokban található szekvenciák száma óriási mértékben megnőtt. Szükség volt a biológiai adatok tárolására és gyors feldolgozására szolgáló módszerek kidolgozására. 2005-ben létrehozták a Genomic Standards Consortiumot, és egy megbízás meghatározta a genomiális szekvencia közzétételéhez szükséges minimális információkat. [20] .
A bioinformatika fő célja, hogy hozzájáruljon a biológiai folyamatok megértéséhez. A bioinformatikát az különbözteti meg a többi megközelítéstől, hogy e cél elérése érdekében a számításigényes módszerek létrehozására és alkalmazására összpontosít. Hasonló módszerek például a mintafelismerés , az adatbányászat , a gépi tanulási algoritmusok és a biológiai adatok megjelenítése . A kutatók fő tevékenysége a szekvencia-illesztés , a génfelfedezés (a DNS-régiót kódoló gének keresése), a genom megfejtése, a gyógyszertervezés, a gyógyszerfejlesztés, a fehérjeszerkezet-illesztés, a fehérjeszerkezet előrejelzés , a génexpresszió előrejelzés és a fehérje- fehérje kölcsönhatások, genomszintű asszociációk keresése és az evolúció modellezése.
A bioinformatika ma adatbázisok, algoritmusok, számítási és statisztikai módszerek és elméletek létrehozását és fejlesztését jelenti a biológiai adatok kezelése és elemzése során felmerülő gyakorlati és elméleti problémák megoldására [21] .
A Phi-X174 fág 1977-es szekvenálása óta egyre több organizmus DNS-szekvenciáját dekódolták és tárolják adatbázisokban . Ezeket az adatokat fehérjeszekvenciák és szabályozó régiók meghatározására használják. Az azonos vagy különböző fajon belüli gének összehasonlítása kimutathatja a fehérjefunkciók hasonlóságát vagy a fajok közötti kapcsolatokat (így filogenetikai fákat lehet összeállítani ). Az adatmennyiség növekedésével régóta lehetetlen a sorozatok manuális elemzése. Napjainkban számítógépes programokat használnak több ezer, több milliárd bázispárból álló organizmus genomjában való keresésre . A programok egyedi módon illeszthetik ( illeszthetik ) a különböző fajok genomjában található hasonló DNS-szekvenciákat; az ilyen szekvenciák gyakran hasonló funkciót töltenek be, és a különbségek kis mutációk, például egyes nukleotidok szubsztitúciói, nukleotidok inszerciói és „elvesztése” (deléciók) eredményeként jelentkeznek. Ezen igazítások egyikét a szekvenálási folyamat során használják. Az úgynevezett " frakcionált szekvenálás " technika (amelyet például a Genetikai Kutatóintézet alkalmazott az első baktériumgenom, a Haemophilus influenzae szekvenciájára) a teljes nukleotidszekvencia helyett rövid DNS-fragmensek szekvenciáit állítja elő. (mindegyik körülbelül 600-800 nukleotid hosszú). A fragmensek végei átfedik egymást, és megfelelően igazítva alkotják a teljes genomot. Ez a módszer gyorsan szekvenálási eredményeket hoz, de a fragmentumok összeállítása nagy kihívást jelenthet a nagy genomoknak. Az emberi genom szekvenálási projektben az összeállítás több hónapig számítógépes időt vett igénybe. Ma már szinte minden genomra alkalmazzák ezt a módszert, és a genom-összeállító algoritmusok jelenleg a bioinformatika egyik legégetőbb problémáját jelentik.
A számítógépes szekvenciaanalízis alkalmazásának másik példája a gének és szabályozó szekvenciák automatikus keresése a genomban. A genomban nem minden nukleotidot használnak a fehérjék szekvenciájára. Például a magasabb rendű szervezetek genomjában a DNS nagy szegmensei nem kódolnak kifejezetten fehérjéket, funkcionális szerepük ismeretlen. A genom fehérjekódoló régióinak azonosítására szolgáló algoritmusok kidolgozása a modern bioinformatika fontos feladata.
A bioinformatika segít összekapcsolni a genomikai és a proteomikai projekteket, például azáltal, hogy segít DNS-szekvenálás segítségével fehérjék azonosítására.
A genomika összefüggésében az annotáció a gének és más entitások jelölésének folyamata egy DNS-szekvenciában . Az első genom annotációs szoftverrendszert 1995-ben Owen White hozta létre , aki az Institute for Genomic Research csapatában dolgozott, amely egy szabadon élő szervezet, a Haemophilus influenzae baktérium első dekódolt genomjának szekvenálását és elemzését végezte . Dr. White felépített egy rendszert a gének (a DNS egy olyan szakasza, amely meghatározza egy adott polipeptid vagy funkcionális RNS szekvenciáját), tRNS és más DNS-objektumok megtalálására, és elkészítette e gének funkcióinak első megjelölését. A legtöbb modern genom annotációs rendszer hasonló módon működik, de a genomikus DNS-elemzéshez elérhető programok, mint például a GeneMark, amelyet a Haemophilus influenzae fehérjekódoló génjeinek megtalálására használnak, folyamatosan változnak és fejlődnek.
Az evolúcióbiológia a fajok eredetét és megjelenését , valamint időbeli fejlődésüket vizsgálja. A számítástechnika számos módon segíti az evolúciós biológusokat:
A számítástechnika genetikai algoritmusokat használó területét gyakran összekeverik a számítógépes evolúciós biológiával , de a két terület nem feltétlenül kapcsolódik egymáshoz. Az ezen a területen végzett munka speciális szoftvereket használ az algoritmusok és számítások javítására, és olyan evolúciós elveken alapul , mint a replikáció , a rekombináción vagy mutáción keresztül történő diverzifikáció és a természetes kiválasztódás általi túlélés .
Az ökoszisztéma biodiverzitása egy adott környezet teljes genetikai összességeként definiálható, amely minden élő fajból áll, legyen az egy elhagyott bányában lévő biofilm , egy csepp tengervíz, egy marék föld vagy a teljes bioszféra . Föld bolygó . Az adatbázisok a fajnevek , leírások, elterjedési területek és genetikai információk gyűjtésére szolgálnak. Speciális szoftvereket használnak az információk keresésére, megjelenítésére és elemzésére, és ami még fontosabb, más emberek számára is átadják azokat. A számítógépes szimulátorok olyan dolgokat modelleznek, mint például a populációdinamika, vagy kiszámítják a növény általános genetikai állapotát az agronómiában . Ennek a területnek az egyik legfontosabb lehetősége a teljes veszélyeztetett fajok DNS-szekvenciáinak vagy teljes genomjának elemzésében rejlik , lehetővé téve a természet genetikai kísérletének eredményeit számítógépen tárolva, és a jövőben esetleg újra felhasználva, még akkor is, ha ezek a fajok teljesen kihalt.
A biodiverzitás egyéb összetevőinek – taxonok (elsősorban fajok) és ökoszisztémák – értékelésére szolgáló módszerek gyakran kimaradnak a bioinformatika hatóköréből. Jelenleg a taxonok bioinformatikai módszereinek matematikai alapjait olyan tudományos irányzat keretei között mutatják be, mint a fenetika , vagy a numerikus taxonómia. Az ökoszisztémák szerkezetének elemzésére szolgáló módszereket olyan területek szakértői fontolgatják, mint a rendszerökológia, a biocenometria .
A strukturális bioinformatika magában foglalja a fehérjék térszerkezetének előrejelzésére szolgáló algoritmusok és programok fejlesztését. A szerkezeti bioinformatika kutatási témái:
Szótárak és enciklopédiák | ||||
---|---|---|---|---|
|
Személyre szabott orvoslás | |
---|---|
Omix adatszakaszok | |
Alkalmazási szakaszok | |
Mód | |
Kapcsolódó cikkek |