E-learning 2. Analýza dat 2.2. Analýza vysokopokryvných genomických dat 2.2.1. DNA mikročipy 2.2.1.8. Analýza CGH čipů

Někteří autoři se domnívají, že vyhlazovací techniky jsou dostačující k vyhledávání oblastí se změnami ([12]; [18]; [19]; [26]).

Obecně plátí, že proces vyhlazování je podobný vhodnému modelu

kde xi představuje pozorované hodnoty a yi pozici klonu.

Doposud byla navržena široká plenta vyhlazovacích nástrojů. Opět platí, že se liší v distribuci předpokladů, objektivních funkcích a optimalizačních algoritmech. Jeden z prvních vhodných přístupů byl kvantilový vyhlazovač, navržen v [12]. Tento typ vyhlazování dat sahá zpět k [54] a byl poprvé použit Schimekem [44] jako grafická technika. Hlavní rozdíl proti jiným vyhlazovacím nástrojům je nestandardní definice její objektivní funkce (např. použití součtu absolutních hodnot místo součtu čtverců). Charakteristiky křivky jsou například náhlé skoky nebo rovinné plochy, které mohou být více zřetelné. To je výhodné při zpracování dat z CGH čipů. V kvantilovém vyhlazování je objektivní funkce minimalizována, kde xi jsou řádky log2podílových hodnot, zi jsou upravené hodnoty, je tzv. kontrolní funkce taková, že , když u>0 a , když u<=0 a t kvantil zájmu. l je seřízený parametr, který kontroluje kompromis rozdílu šikmosti (zvyšující se l hodnoty vytváří vhodné vyhlazovače). Kromě l = 0,5 (tzn. medián) Eilers & de Menezes [12] pro detekci rozsáhlých chromozomových změn uvažují l = 0,15 a l = 0,85. Cílem je získat meze, které umožní  identifikovat malé lokální změny, u kterých se očekává, že leží mimo hraniční oblast. Oba typy změn jsou detekovány pokud přesáhnou předem specifikované mezní hodnoty tak, jak je navrženo v [31].

Dalším slibným přístupem dovolujícím náhlé změny funkce je vlnkové (wavelet) vyhlazování navržené v [18]. Autoři navrhli vhodné vlnky na data a zmenšili tím koeficienty. To znamená, že v plochých částech budou nejvyšší frekvenční koeficienty nulové, ale blízké skoky budou zachovány. Tímto způsobem jsou odhadovány zlomové body. Po odhadu zlomových bodů jsou v konečném výsledku data v takto získaných segmentech zprůměrována. Huang et al. [19] navrhli robustní kvantilovou vyhlazovací proceduru založenou na modelu dvojitého váženého konečného a náhodného efektu. Li & Zhu [26] zavádí koncept "fused" kvantilové regrese, která navíc bere v úvahu skutečné vzdálenosti klonů na genomu, používající rozdělené rozdíly v penalizační objektivní funkci. Kromě toho, v této situaci navrhují metodu pro výběr vyhlazovacího parametru l . Pokud jde o skutečnou vzdálenost klonů, Eilers & de Menezes [12] poukázali na to, že pokud se minimalizuje suma absolutních hodnot v optimalizační funkci, je derivace suma znaků a záleží tak pouze na znacích. Protože jsou klony seřazeny tak, že upravené vzdálenosti mezi sousedními klony nezmění znaky a dají stejné výsledky jak v neupraveném případě.

Dokonce i když je vyhlazování, hlavně v případě zanesených dat šumem, schopné zesílit signál, nemůžeme nikdy očekávat datový soubor bez šumu. Proto není překvapením, že podle srovnávací studie Laia et al. [23] prokázaly vyhlazovací techniky lepší výsledky pro detekci velmi zašuměných dat a poměrně malých regionů s aberacemi, než jiné typy metod. Vyhlazovací metody jsou určeny spíše pro grafickou kontrolu dat než pro automatizované identifikace aberovaných oblastí. Eilers & de Menezes [12] doporučují, aby uživatel zadal hranici k detekování segmentovaných oblastí nálsedující kvantilové vyhlazování. Nicméně to obsahuje riziko neúmyslného vynechání některých změněných klonů (jak již bylo v tomto článku řečeno). Na druhou stranu, podle [23] se zdají být segmentační metody dobře účinné a co je také důležité, jsou přímo interpretovatelné. Lai et al. [23] naznačují, že optimální kombinace vyhlazovacího kroku a segmentačního kroku by mohla zlepšit celkovou výkonnost. Jsme přesvědčeni, že pro vhodnou metodu je nutná automatická detekce aberovaných oblastí, i když jsou data velmi zanesená šumem.