E-learning 2. Analýza dat 2.2. Analýza vysokopokryvných genomických dat 2.2.2. Analýza DNA sekvencí

autor: Natália Martínková

Množství sekvenčních dat se díky intenzivním projektům genomového sekvenování a výzkumu jednotlivých laboratoří rapidně zvyšuje. Analýza souborů původního obrazu začíná dosazením nukleotidové sekvence, řešením možného polymorfismu a sekvenční anotace. Sekvenční anotace zahrnuje rozpoznání funkčních částí genomu, jako jsou různé RNA molekuly, a zvláště predikci proteinů. Anotovaná sekvence předložená veřejným databázím může být postupně využita pro analýzu neznámých sekvencí. Možný původ těchto sekvencí lze rozpoznat a proteinová funkce může být odhadnuta na základě podobnosti dotazované sekvence s jinými dostupnými daty. Porovnávání sekvencí vede k identifikaci mutací a jejich možných spojení s geneticky asociovanými nemocemi a k rekonstrukci vývoje funkce.

Lidský genom obsahuje sekvenci 3,2 bilionu nukleotidů. Psáno genetickou abecedou pomocí ATCG by mohl lidský genom odpovídat knihovně obsahující okolo šesti tisíc knih. Všechny tyto informace dostupné na internetu. Bez ohledu na to, že je genom zapisován do databáze, je lidský genom intenzivně analyzován. Tisíce vědců svou pozornost věnovali k pochopení jednotlivých proteinů, jejich mutačních interakcí a metabolismu. Jako výsledek je lidský genom společně s genomy několika modelových organismů nejlépe prostudovaným genomem s nejspolehlivějšími anotacemi.

Sekvence lidského genomu tvoří v genetických databázích pouze zlomek dostupné sekvenční informace, ale je páteří, ze které rozšiřujeme naše znalosti. Sekvence patogenů, zemědělsky důležitých organismů, organismů kulturního zájmu do naší znalostní databáze značně přispívají. Současné sekvenační úsilí každý den vytváří tak obrovské množství dat, že nové uploadované sekvence představují kolem 5% všeho internetového obsahu na světě. Jinými slovy, pět procent nových internetových informací je psáno v A, T, C, G pro adenin, tymin, cytosin a guanin, čtyři nukleotidy, které ovládají všechny DNA sekvence.

Z velké části této informaci nerozumíme, a úlohou bioinformatika je roztřídit, nalézt vzory, rozpoznat funkci a objevovat.

2.2.2.1 Od Sangerova po „shotgun“ sekvenování


Množství získávané sekvenční informace je omezeno technologií a financemi. V současné době je Sangerovo sekvenování nesmírně uznávanou sekvenační metodou běžně dostupnou vědecké veřejnosti, která ve většině molekulárních laboratoří používá sekvencery. Čte v jedné reakci kolem 800 párů bází a každá sekvence je samostatně zpracovávána. Z tohoto důvodu bylo první genomové kompletování dlouhotrvajícím úsilím několika významných laboratoří. Oproti tomu nové celo-genomové sekvenační metody poskytují kratší čtení, od 30 do zhruba 400 párů bází, ale sekvenování je plně paralelní. Kde je do 368 různých sekvenčních částí, to může být čteno běžným sekvencerem jednosměrně. Jednosměrný pohyb genomového sekvenceru čte statisíce různých fragmentů DNA molekul.

Sangerovo sekvenování
Sangerovo sekvenování je založeno na PCR (polymerázové řetězcové reakci). V PCR je templátový DNA fragment, určený k sekvenování, v reakční směsi se dvěma oligonukleotidovými primery, čtyřmi nukleotidovými roztoky a solemi. Enzym, DNA polymeráza, je přidán k zaručení elongace fragmentu. Směs nukleotidových bází je v sekvenční reakci modifikována. Určitá část nukleotidů má formu fluorescenčně označených dideoxynukleotidů. Jakmile se tyto molekuly včlení do DNA fragmentu, zastaví další elongaci DNA řetězce. DNA polymeráza není schopna vázat další nukleotidy do řetězce, který je zakončen dideoxynukleotiem, každá takto zakončená molekula obsahuje pouze jeden označený marker. Výsledkem toho je zakončený řetězec kratší než zamýšlený PCR fragment a je fluorescenčně označen podle posledního začleněného nukleotidu.
Čtení sekvence je prováděno na principu kapilární elektroforézy. Nukleová kyselina má negativní náboj, a tudíž se pohybuje k pozitivnímu náboji elektrického pole. Kapilára je plněna polymerem. DNA molekuly se skrz polymer pohybují různou rychlostí v závislosti na své velikosti. Kratší fragmenty se pohybují rychleji než delší. Velmi vysoké rozlišení kapilární elektroforézy umožňuje separaci DNA molekul, které se liší jedním párem bází. Je detekován fluorescenční signál posledního včleněného nukleotidu a je ohodnocena intenzita signálu.
Výsledkem takového čtení je vlnový signál, kde jsou vrcholy zbarveny podle nukleotidů.

Čtení krátkých fragmentů – „shotgun“
Současné (podzim 2009) technologie k sekvenování celého genomu jsou v České republice omezeny na pyrosekvenování na 454 FLX Genome Sequencer od Roche.
Tato technologie je také označována jako sekvenování vázáním. V podstatě jde o to, že zjistitelný světelný paprsek je uvolněn v momentě, kdy je nový nukleotid navázán k replikovanému DNA řetězci. (V případě Sangerova sekvenování byl fluorescenční signál čten až poté, co byla reakce dokončena a fragmenty roztříděny elektroforézou.)
Pyrosekvenování je založeno na biologickém procesu známém jako bioluminiscence. Reakce nastává ve speciální kolonce, kde se dokonalým předzpracováním izoluje jednořetězcová molekula DNA dlouhá kolem 400 párů bází. Tato templátová DNA je v kolonce fixovaná na malých kuličkách. Jedna kulička navazuje templátovou DNA, jiné nesou nezbytné enzymy, a další kuličky drží všechny reaktanty v kolonce. Kolonky jsou v cyklech postupně promývány zvláštními chemikáliemi, které jsou k reakcím nezbytné.
Důležité je, že je v kolonce každý nukleotid přítomen odděleně. Toto je pro metodu sekvenační detekce rozhodující. DNA je z templátu kopírována (syntetizována) tímto způsobem. Primer se váže na volný konec fragmentu, a DNA polymeráza pak může syntetizovat komplementární řetězec, který začíná od primeru. Kolonka je promývána nukleotidem. Pokud nalezne odpovídající bázi na templátu na konci primeru, může být na tuto bázi navázán. Jestliže DNA polymeráza váže nukleotid na narůstající DNA řetězec, pak je uvolňován pyrofosfát jako výsledek reakce. Enzym sulforyláza, poskytován na enzymové kuličce, převádí pyrofosfát do ATP. ATP molekuly jsou nejčastější molekuly, které nesou a poskytují energii pro enzymatické reakce v živých organismech. V případě pyrosekvenování je reakcí, která vyžaduje energii bioluminiscence. Enzym luciferáza využívá ATP k oxidaci pigmentu luciferinu. Reakce vytváří světlo.
To znamená, že pokud může být nový nukleotid včleněn do narůstajícího DNA řetězce, pak by se kolonka, kde se to uskutečňuje, rozsvítila. Pokud nemůže, kolonka by zůstala tmavá, protože řetězec chemických reakcí by zůstal neaktivní, dokud by kolonka nebyla omyta takovým nukleotidem, který komplementuje syntetizovaný DNA řetězec a může být začleněn. Díky statisícům samostatných kolonek na jedné sekvenační desce zaznamenává tato procedura nukleotidy v masivním počtu DNA fragmentů současně. Výsledné soubory, zvané „flowgrams“, zaznamenávají signál intenzity světla v každé kolonce a mohou být vkládány do nukleotidové sekvence.
 

2.2.2.2. Bioinformatická analýza

Sekvenování DNA vytváří neupravené výsledky. Obsahují nadbytek informace, ale takovým způsobem, že jsou bez následné analýzy nerozeznatelné. K vytažení této informace a odkrytí nových pohledů musí být intenzivně prozkoumány jednoduché sekvence nukleotidů.

Rozpoznání sekvence
Prvním krokem takového výzkumu je identifikace získané sekvence. Veřejné sekvenční databáze již obsahují informace mnoha organismů a genů, a proto je tato identifikace jednoduchá a v přímém očekávání dokončení databází a vymezení vyhledávacích metod.

Genetické databáze
Databáze, které ukládají data DNA sekvencí, jsou podporovány na třech kontinentech. V Evropě EMBL databáze, kterou lze najít na http://www.ebi.ac.uk/embl/. V Severní Americe GenBank databáze, přístupná na http://www.ncbi.nlm.nih.gov/ a v Asii DDBJ na http://www.ddbj.nig.ac.jp/. Informace ve všech třech databázích je každý den vzájemně synchronizována, takže stejná data mohou být získána ve stejnou dobu z kterékoli z nich.
Typický záznam v databázi nukleotidových sekvencí je určen přístupovým číslem (Accession Number), které je pro každou sekvenci jednoznačné, a následované číslem verze. Popis sekvence je textový řádek poskytnutý vědcem, který sekvenci uploadoval. Obvykle obsahuje všechny základní informace, které jsou k rozpoznání sekvence nezbytné – název organismu, název a lokace genů a identifikace haplotypu. Tato data jsou v aktuálním sekvenčním záznamu poskytnuta s více detaily v příslušných polích. V současnosti většina vědeckých časopisů požaduje, aby všechny zmiňované sekvence byly zařazeny do veřejných databází. Taková informace je pak odkazována mezi časopisovými články, kde jsou přístupová čísla poskytována, a nukleotidovou databází, kde je článek citován a kde je dostupný, určený svým PubMed kódem. Sama sekvence je poskytována s anotacemi. Ty detailně představují informaci o sekvenčním původu (organismus, lokace genu, číslo vzorku, lokalita vzorku, datum sběru, atd.), geny, které jsou přítomné v sekvenci a informaci o proteinech kódovaných sekvencí, včetně jejich translace do sekvence aminokyselin.
Všechna pole jsou prohledatelná přes rozhraní jakékoli databáze. Právě nyní je nejsnadnějším nástrojem k prohledávání sekvenčních databází Sequence Retrieval System at EBI (http://srs.ebi.ac.uk/).

Porovnání sekvencí
BLAST je zkratka Basic Local Alignment Search Tool v NCBI (http://blast.ncbi.nlm.nih.gov/); algoritmus, který umožňuje prohledat sekvenční databáze, kde dotaz představuje vědcem poskytnutou neznámou sekvenci. Jde o nástroj tak často používaný, že se slovo "blast" stalo jak podstatným jménem, tak slovesem běžným v bioinformatickém slangu. Kdykoli vědec ze svých experimentů získá sekvenci, BLAST je prvním krokem k postupu s nezpracovanými daty.
Ve skutečnosti poskytuje BLAST vyhledávání seznam sekvencí, které se dotazu nejvíce podobají. Takový seznam vědce informuje, jaké druhy sekvence nejspíše dotaz představuje (protein – který protein, RNA sekcence – která RNA, nekódovaná oblast) a ze kterých organismů může pocházet. Pro projekt, kde je gen nebo organismus znám, poskytuje BLAST vyhledávání základní ujištění, že vědec sekvenoval svůj cílový organismus a gen, ne artefakt nebo nečistotu. Je rutinní činnost provést vědecká setkání kvůli skutečně neznámé nebo značně odchylné sekvenci.
BLAST neporovnává celou dotazovanou sekvenci oproti bilionům párů bází v databázích. Rozláme dotaz na slova. V typickém DNA vyhledávání se prohledávají 11 bází dlouhá slova. Tvoření slov pro BLAST vyhledávání je docela jednoduché, ale s malým háčkem. Nejprve musí být odstraněny málo složité oblasti. Tyto oblasti, jako jsou repetice, dlouhé úseky stejného nukleotidu nebo nejasné oblasti, vrací napříč databází mnoho detekcí, které jsou nejspíš nehomologní. Zbylá sekvence je rozlámaná na slova takovým způsobem, že první slovo představuje prvních 11 pozic zbývající sekvence, druhé slovo je tvořeno z pozic 2-12, třetí 3-13 atd.
Dále jsou slova skórována podle své podobnosti. U DNA slov je shoda skórována jako +5 a neshoda jako -4. Nejlepší shody dávají nejvyšší skóre, a BLAST udržuje a sepisuje nejlépe ohodnocená slova a vyřazuje ta, jejichž skóre je pod hranicí. Pak jsou zbylá vysoce ohodnocená slova organizována do výkonného vyhledávacího stromu. Nakonec je databáze prohledávána pro určité shody vysoce ohodnocených slov.
Pokud algoritmus najde přesnou shodu slova, je toto slovo použito jako počátek pro zarovnání mezi dotazem a sekvencemi z databáze. Zarovnání se roztahuje nalevo a napravo od shodného slova a přepočítává se skóre. Tyto vysoce hodnocené páry segmentů jsou poté tříděny a algoritmus se pokouší zhodnotit jejich významnost, kombinovat a seřadit vícenásobné shody. Výsledný obraz ukazuje Smithovo-Watermanovo lokální zarovnání dotazu a každou ze shodných databázových sekvencí.
Shodné databázové sekvence jsou poskytovány se základní statistikou, která vědci může pomoci zhodnotit věrohodnost nalezených shod. Zejména parametr E-hodnota představuje pravděpodobnost, že by taková shoda mohla nastat v databázi jen náhodou. Pro relativně dlouhé sekvence, které jsou variabilní a komplexní, mají tendenci být E-hodnoty velmi nízké.
 

Zarovnání sekvencí
Existují dva základní druhy zarovnání sekvencí: lokální a globální. Jak jejich názvy signalizují, nejdůležitější vlastností lokálního zarovnání je téměř přesná shoda mezi sekvencemi v lokálním měřítku. Lokální zarovnání se používá pro odlišné sekvence, které jsou vyšetřovány, zda obsahují oblasti podobnosti nebo podobné sekvenční motivy v rámci jejich širšího sekvenčního kontextu. Pro lokální zarovnání se často používá dynamický programovací algoritmus, a to Smithův-Watermanův algoritmus.
Globální zarovnání se na druhou stranu pokouší zarovnat dvě sekvence podél celé jejich délky a je nejužitečnější, když se sekvence v dotazované sadě podobají a jsou zhruba stejné velikosti. V programech globálního zarovnání se používá Needlemanův-Wunschův dynamický programovací algoritmus. Skupina podobných sekvencí se zarovnává takovým způsobem, že zde není žádný rozdíl mezi lokálními a globálními zarovnáním.

Smithův-Watermanův algoritmus k lokálnímu zarovnání
Zarovnání celé sekvence najednou je výpočetně náročným úkolem. Z toho důvodu Smithův-Watermanův algoritmus rozloží problém na menší úlohy, najde jejich řešení, a pak je dá všechny dohromady do tvaru nejvýhodnějšího zarovnání. K určení skóre pro jednotlivé možnosti zarovnání využívá dynamické programování. Všechny zbytky každé porovnávané sekvence jsou na 2D čipu srovnávány s jinými a všechna možná zarovnání jsou na tomto čipu znázorněna jako dráhy. Optimálním zarovnáním je dráha s nejlepším skóre.
Lokální zarovnání dosahuje téměř dokonalých shod mezi sekvencemi na lokálním měřítku s velkými oblastmi mezer, kde se sekvence neshodují. Nejvhodnější je pro sekvence různých délek, vzdáleně příbuzných sekvencí, kde mohou být předpokládány pouze zachované oblasti podobnosti. BLAST algoritmus využívá techniku lokálního zarovnání.

Needlemanův-Wunschův algoritmus pro globální zarovnání
Globální zarovnání maximalizuje skóre podobnosti, aby vrátilo největší počet zbytků jedné sekvence, která může být shodná s jinou za dovolení všech možných delecí. Nicméně globální zarovnání spíše pracuje s ohledem na shodu celé délky zarovnaných sekvencí než s nalezením dokonalé shody v krátkých segmentech odpovídajících sekvencí.

Fylogenetika

Fylogenetická analýza usiluje o rekonstrukci vztahů mezi sekvencemi, je založena na jejich homologii. Informace je prezentována formou fylogenetického stromu. Fylogenetický strom popisuje v základně (kořeni) stromu předka všech analyzovaných sekvencí a průběh evoluce podél jeho délky, kde větvení představují nejposlednější události. Délka každé větve fylogenetického stromu je složena z času odchylky a stupně evoluce. Delší větve a odchylky bližší kořeni představují starší evoluční jednotky během kolísání ve stupni evoluce.

Interpretace fylogenetického stromu
Fylogenetické stromy jsou v podstatě jednorozměrné. Je významná pouze přímá vzdálenost od kořene k větvi. Tato informace je však nejčastěji rozčleněna ve druhé dimenzi, aby byla čitelná a rozeznatelná. Pak, je-li kořen stromu umístěn na levé straně a větve na pravé straně, jsou všechny vertikální vzdálenosti bezvýznamné a pouze horizontální vzdálenosti představují evoluční informaci.
První skupina, která se větví nejblíže ke kořeni, je nejstarší. Spojení představuje nejposlednějšího společného předka skupiny na větvi a zbývajícího stromu. Následně, dále jsou na stromě odchylky z novější doby a v prodloužení jsou více související vyšetřované sekvence.
Sekvence, které pocházejí ve stromě ze společného uzlu, utvářejí monofyletický vztah. Obecně představují evoluční skupinu se společnou historií a jsou díky původu všechny příbuzné, ale existují zde nějaké výjimky. Monofyletická skupina, uložená ve fylogenetickém stromu, by mohla být zvažována pro taxonomickou klasifikaci a interpretaci evolučního vztahu.
Polyfyletická skupina je skupina vzorků, které jsou rozptýleny napříč stromem. Tato informace může ukázat potenciální taxonomicky nesprávnou identifikaci, hybridizaci událostí následovaných introgresí nebo ve smyslu druhové diversity, promíchání evolučních linií.
Parafyletický vztah se ve fylogenetickém stromu vyskytuje, jestliže cílová skupina sekvencí náleží stejnému kladu, ale také v kladu existují další vzorky, které nebyly dříve rozpoznány jako příbuzné s cílovou skupinou.

Závěry
Ve výzkumu DNA sekvence je role bioinformatika zásadní. Obrovské množství dostupných dat dělá z výzkumného projektu intelektuální činnost, která musí být opatrně prováděna a důkladně analyzována. Bioinformatik může navrhnout k výzkumu dotaz, který využívá informaci uloženou ve veřejných databázích v oblasti sekvencí, analyzovat to pomocí Open Source softwaru a uveřejnit své objevy v časopise Open Access. Trend je jasný. Dnes prosazuje mnoho vědců spolupráci a možnost zpřístupnit každému znalostní databázi. S takovými nástroji, které máme k dispozici, má genomický výzkum DNA obrovský potenciál, jak dnes tak v dohledné budoucnosti.