E-learning 2. Analýza dat 2.2. Analýza vysokopokryvných genomických dat 2.2.1. DNA mikročipy 2.2.1.8. Analýza CGH čipů

Metody založené na skrytých Markovových modelech (HMM), kde skryté stavy představují počty kopií vzhledem ke skupinám klonů, jsou kompromisem mezi segmentačními a shlukovacími přístupy. HMM přístup pro data z CGH čipů nejprve navrhl Fridlyand et al. [15], který v práci popsal algoritmus založený na diskrétních stavech. Diskrétní HMM model pro data z CGH čipů se spojitým výstupem je charakterizován (podle [15] a [41]):

(1) Podle počtu stavů v modelu K. Tyto stavy jsou skryté a obecně významné (např. delece, normál, amplifikace). Obvykle jsou stavy propojeny takovým způsobem, že každý stav může být dosažen z jakéhokoli jiného stavu. Jednotlivé stavy označíme jako a stavy v místě l jako.

(2) Podle distribuce počátečního stavu , kde , .

(3) Podle přechodné pravděpodobnostní distirbuce stavu kde

,

Pro zvláštní případ modelu, ve kterém jsou všechny stavy propojeny je pro .

(4) Podle emisní distribuce nebo pozorované hustotní funkce pravděpodobnosti stavu , kde

kde je modelovaný vektor pozorovaných hodnot a G je Gaussova hustata se středním vektorem mk a kovarianční maticí Uk.

Parametry modelu jsou obvykle označeny .

V rámci CGH čipů vektor pozorovaných log2 podílů reprezentuje O a stavy představují skryté počty kopií resp. skupin klonů. Při úpravě K- stavu modelovaného podle O, je k odhadu použit forward-backward algoritmus  - pravděpodobnosti parametrů l vzhledem k vektoru O. Poté je optimální stav pořadí, související s daným pořadím pozorování O, odhadnut Viterbi algoritmem. Pro každé pozorování oi je individuálně vybrán nejpravděpodobnější stav si. Nakonec je použit Baum-Welch (nebo očekávaně-maximalizační) algoritmus pro opětovný odhad parametrů modelu pomocí maximalizace. Tento hlavní princip přístupu HMM je popsán v [15], je zde ale popsáno i několik jiných přístupů založených na HMM modelech. Liší se v definici modelu, algoritmu použitém pro vhodný model a ve specifikaci počátečních parametrů.

V práci Fridlyanda et al. [15] je vektor počátečních pravděpodobností p stanoven umístěním většiny vah na stav odpovídající „normálu“ (nebo mediánu log2 podílů daného vzorku) a zbývající pravděpodobnost je rozdělena rovnoměrně mezi všechny ostatní stavy (změny počtu kopií). K inicializaci A, je přiřazena vysoká pravděpodobnost k zůstávajícím ve stejném stavu a nízká nenulová pravděpodobnost k přechodům mezi stavy. Počáteční parametry emisních distribucí jsou odhadovány  segmentováním pozorování v K stavech pomocí PAM procedury (partitioning among medoids, [22]) a odhadem průměru pro každý stav mediánem log2 podílů klonů, které byly tomuto stavu přiděleny. Počáteční odchylka je považována za známou a pevnou a je odhadována podobně. Optimální počet K stavů je odhadnut díky minimalizaci penalizované funce, založené na Akaike informačním kritériu (AIC; [1]) nebo BIC (Bayesovském informačním kritériu, [45]). Pro finální model je přístup založený na prahové hodnotě použit k shlukování odhadnutých K-stavů do biologicky významných stavů. Tento přístup počítá medián pro každý stav a určuje dva stavy, jejichž mediány jsou nejblíže vypočítané vzdálenosti d. Jestliže je vzdálenost menší než prahová hodnota, jsou tyto dva stavy sloučeny a proces se opakuje, dokud nebude platit podmínka d. Uživatel tedy musí nastavit pouze dva hlavní parametry: Kmax, maximální K je kontrolované, a prahovou hranici. Fridlyand et al. [15] uvádějí, že Kmax = 5 je obvykle dostačující i pro velmi komplikované nádorové profily. Volba prahové hodnoty je spíše závislá na konkrétním cíli studie a požadovaném typu chyby I. a II. druhu.

Jak bylo uvedeno výše, bylo doposud navrženo několik procedur založených na HMM. Marioni et al. [29] navrhli BioHMM proceduru, která spojuje skutečné vzdálenosti mezi klony. Toho je dosaženo pravděpodobnostmi přechodů, které závisí na vzdálenostech mezi klony. To znamená, že Markovův řetězec není více homogenní a pravděpodobnost přechodu matice Al je definována pro každý z l-1 přechodů mezi sousedními klony. [29] oznamuje lepší výsledky v porovnání s HMM navrženým v [15], a to zejména pro chromozomy, kde jsou některé oblasti hustě pokryty a jiné pokryty méně. Nicméně Stjernqvist et al. [49] zdůrazňují, že pro tuto definici přechodové matice Chapman-Kolmogorova rovnice A(t1)A(t2) = A(t1 + t2), kde A(t) je pravděpodobnost matice přechodu mezi dvěma klony oddělenými vzdáleností t, neplatí. Proto Markovův řetězec s BioHMM přechodovými pravděpodobnostmi neexistuje. Navíc navrhli permanentní-index HMM jako další řešení pro nerovnoměrně rozložené klony, který také umožňuje provedení analýzy překrývajících se klonů. Tento model počítá s přechodem stupňů než s přechodem pravděpodobností a umožňuje objevit změnu stavu v libovolném místě páru bází (dokonce i uprostřed klonu). Počet stavů v jejich modelu je určený jako diskrétní-index HMM a pro odhad parametrů používá Monte Carlo EM (MCEM) algoritmus. Nakonec jsou realizace Markovových řetězců generovány pomocí několika simulací Markovových řetězců Monte Carlo (MCMC).

Výše uvedené přístupy založené na Markovových modelech odhadují počet skrytých stavů K pomocí výběrového modelu a provádí samostatnou analýzu pro každý chromozom. Takové přístupy mohou snadno přehodnotit parametry modelu na lokální účinky v chromozomu. Navíc, podobně jako u některých segmentačních metod, je pro detekci biologicky významných označení (delece, normál, amplifikace atd.) potřeba post-zpracování shlukováním, protože zvolené K nemá žádný vnitřní význam.

Přístup, který se zabývá tímto problémem byl navržen Guhaou et al. [16]. Je založen na Bayesovském HMM modelu, který využívá předchozí informace k určení parametrů emisní distribuce. Guha et al. převzali model se stavy K=4, kde S1 odpovídá ztrátě jedné kopie, S2 odpovídá normálu, S3 zisku jedné kopie a S4 vícenásobnému zisku kopií. To vede k uspořádání m1< m2< m3< m4 průměrů příslušných pozorovaných hustotních funkcí pravděpodobnosti stavu. Podle těchto předpokladů je interval omezení daný parametry emisní distribuce založen na teoretických hodnotách. To umožňuje současné členění a shlukování použitím Viterbi algoritmu. Shah et al. [46] rozšířili tento model ve dvou směrech, přidáním procedury ke zlepšení odolnosti proti odlehlým hodnotám a dovolením LSP (location-specific priors), které mohou být použity k zakódování známých míst počtu kopií polymorfismu (CNP). Toho je dosaženo nahrazením Gaussova pozorovaného modelu se smíšením Gaussova modelu s dvěma smíšenými komponenty. Jedna složka reprezentuje log2 podíly očekávané od daného stavu (ztráta, normál, zisk) a další očekávané log2 podíly odlehlých hodnot.

Rueda & Díaz-Uriarte [43] se domnívají, že vhodná metoda pro analýzu CGH čipů by měla uvažovat skutečnou vzdálenost mezi klony, měla by poskytovat pravděpodobnosti změn počtu kopií místo p-hodnot nebo průměru oblastí a v závislosti na zaměření studia by měla umožnit buď analýzu chromozom-chromozom nebo celkovou genomovou analýzu. Navrhli reverzibilní skokovou a CGH (RJaCGH) metodu, která tyto požadavky splňuje a je použitelná pro širokou škálu platforem CGH čipů. Tato metoda upravuje nehomogenní HMM prostřednictvím reverzibilního skoku MCMC. Pro konečný odhad počtu stavů je spíše použit Bayesův průměrovací model, k vysvětlení neurčitého modelu, než explicitní nastavení (tj. počet stavů v modelech) nebo výběr používající penalty. [43] oznámili lepší výkon než několik jiných přístupů a usoudili, že relativní výhoda RJaCGH se zvyšuje s rostoucí mezisondovou variabilitou a šumem v datech. Ve srovnání s [29] jsou pravděpodobnosti přechodů závislé na vzdálenosti mezi klony; navíc pravděpodobnost zůstávající ve stejném skrytém stavu je klesající funkce vzdáleností mezi sondou a předchozí sondou. Pokud je vzdálenost mezi dvěma klony maximální, stav sondy by neměl být ovlivněn stavem předchozího klonu. Tato metoda však nezahrnuje překryv mezi klony.

Jeden z posledních přístupů, který je podobný k Stejrnqvist et al. (2007) a začlenil skutečné vzdálenosti a překryv mezi klony, byl nedávno navržen Anderssonem [2]. Tato metoda se nazývá Aposteriorní maximální segmentace (SMAP- Segmental Maximum A Posteriori) a je také založena na diskrétním stavovém HMM modelu. Stejně jako přístup Guha et al. [16] obsahuje předběžné informace o možném zdroji hluku v emisní distribuci. Vzdálenost založená na přechodné matici je definována v [43], pravděpodobnosti možného přechodu událostí mezi dvěma klony by měly směřovat k rovnosti, pokud jsou jejich pozice genomicky vzdálené. K vysvětlení překryvu klonů, změny v podílu intenzi jsou vážené proti genomickému překryvu předchozích klonů. Segmenty klonů s odchylkami v podílu intenzit jsou ignorovány, jestliže je překryv klonů v předchozím stavu dostatečně nápadný. Počet stavů je udáván uživatelem, nicméně podobně jako [51] Andersson et al. [2] doporučuje používat šesti-stavový model odpovídající dvojité ztrátě klonu, jedné ztrátě, normálu, zisku jedné kopie, zisku dvou kopií a zisku více kopií. Hlavní rozdíl (z hlediska účinnosti odhalování zlomových bodů) mezi jejich přístupem a kontinuálním přístupem v [49] je to, že SMAP nemá přehnaný požadavek na výpočetní čas. V poslední době byl v [24] navržen také jiný druh Bayesovského HMM modelu. Jejich model je opatřen třemi stavy a zahrnuje vzdálenosti mezi klony. Posteriorní pravděpodobnosti se používají pro konečné posouzení segmentů.