E-learning 2. Analýza dat 2.2. Analýza vysokopokryvných genomických dat 2.2.1. DNA mikročipy 2.2.1.5. Předzpracování dat

Jakmile jsou hybridizovaná mikročipová sklíčka naskenována a výsledné obrazy zanalyzovány pomocí softwaru pro analýzu obrazu za účelem získat intenzitu každého spotu na čipu, pak můžeme začít analýzu. Nejprve ze všeho je nezbytné provést několik kroků předzpracování, čímž se zlepší jejich kvalita. V následujících částech vysvětlíme několik metod, které se aplikují k vytvoření vhodnějších dat  pro detailní analýzu.

2.2.1.5.1. Formát nezpracovaných dat

cDNA čipy

Nezpracovaná data jsou pro každý obraze uložena ve speciálních textových souborech se specifickým formátem, v závislosti na typu použitého softwaru. Například data z GenePix softwaru pro analýzu obrazu mají příponu .gpr, data z Affymetrix příponu .CEL atd. Všechny tyto soubory jsou čitelné jakýmkoli klasickým textovým nebo tabulkovým editorem.

Informace uložené v textových souborech se mohou lišit podle typu mikročipového experimentu a softwaru použitého k analýze obrazu; nicméně nejdůležitější informace je společná pro všechny z nich. Každý řádek reprezentuje jeden spot na mikročipu a sloupce reprezentují různé proměnné. Pro cDNA čipy to jsou zpravidla:

  • pozice spotu na mikročipu (buď v pixelech, nebo souřadnicích na mřížce, obojí je obvyklé)
  • název a další identifikace sondy na spotu
  • další informace o kvalitách spotu (velikost, tvar, kruhovitost, procento saturovaných pixelů,...)
  • intenzita nezpracovaného signálu vzorku na spotu (pro jeden nebo dva kanály) a odvozené charakteristiky (střední hodnota, medián, směrodatná odchylka)
  • intenzita signálu pozadí kolem spotu (jeden nebo dva kanály) a odvozené charakteristiky (střední hodnota, medián, směrodatná odchylka)
  • další odvozené charakteristiky (SNR = signal to noise ratio, logaritmus intenzit, logaritmus podílu mezi dvěma kanály, …)
  • značky (flags) – souhrnné informace o kvalitě spotu ve formě kvalitativní proměnné představované obvykle jako celočíselné hodnoty. Hodnota značky je určena automaticky pomocí algoritmu analýzy obrazu podle nastavení nebo manuálně uživatelem.
     

affymetrix čipy

2.2.1.5.2. Kontrola kvality nezpracovaných dat

cDNA čipy

Jak je popsáno výše, nezpracovaná data získaná z programu pro analýzu obrazu jsou obvykle uspořádaná v matici, kde řádky jsou spoty a každý sloupec odpovídá různým charakteristikám spotu. Například jsou zde informace o intenzitě spotu jako je střední hodnota, medián nebo směrodatná odchylka intenzity pro popředí a pozadí spotu, pak jsou zde nějaké odvozené charakteristiky jako SNR nebo poměr intenzit popředí a pozadí. Velmi důležitá je informace o kvalitě spotu, jako kruhovitost nebo průměr spotu. Parametr označení sumarizuje kvalitu spotu, přiděluje spotu status dobrý, špatný, nenalezen nebo prázdný. Tato značení se mohou v různých programech lišit.

Jakmile získáme soubor nezpracovaných dat, musíme nejprve ze všeho zkontrolovat kvalitu těchto dat. Pro takovou kontrolu jsou velmi užitečné dostupné charakteristiky spotů. Cílem této kontroly je nastavit parametr udávající kvalitu spotů. Tento proces je občas nazýván značkování (flagging).

Zde představíme různé postupy detekce nespolehlivých spotů a každý analytik se musí s ohledem na data individuálně rozhodnout, kterou z těchto metody aplikuje na svá data.

Nejprve mohou být spoty filtrovány podle svého tvaru a velikosti. Tento filtr není vhodný, jestliže je použit v programu analýzy obrazu fixní kruhový segmentační algoritmus (všechny spoty jsou selektovány tak, aby měli stejný průměr) detekce spotu. Spot by měl být vyfiltrován pokud má příliš malý průměr a počet pixelů spotu je příliš nízký. Je-li k detekci spotu použit algoritmus adaptivní segmentace, nezpracovaná data obsahují také parametr určující kruhovitost (cirkularitu) spotu. Pokud je kruhovitost velmi narušená, tak by měl být spot z analýzy odstraněn. Občas můžeme nelézt spot, který má tzv. tvar koblihy – sondy ve středu kruhu nejsou hybridizovány. Takové spoty by měly být vyřazeny také.
Další užitečný parametr je procento saturovaných pixelů. Program pro analýzu obrazu by měl saturované spoty označit jako špatné, nicméně to závisí na nastavení. Vždy je nezbytné kontrolovat saturaci spotů ad-hoc.
Jiná důležitá filtrace je podle intenzity spotů. Existují různá statistická měření, která k tomuto filtrování mohou být použita. Zmíníme dvě z nich, a to SNR (signal to noise ratio) - poměr signálu popředí se směrodatnou odchylkou signálu pozadí a podíl intenzit popředí a pozadí, kde očekáváme (podle předpokladu shodné intenzity pozadí), že se podíl s intenzitou spotu zvyšuje.
Spoty s příliš nízkou intenzitou by měly být vyřazeny. Každý skener má odlišnou hranici detekce. U přesnějších skenerů může být hranice nižší. Ponechání spotů s příliš nízkými intenzitami může v analýze vést ke zkresleným výsledkům, protože nízká intenzita je obtížně odlišitelná od celkového šumu pozadí.
 

Obrázek: Různé typy spotů:
A) Saturovaný spot, B) Koblihový spot, C) Spot nekruhového tvaru, D) Dobře kruhovitý spot

 

affymetrix čipy

 

2.2.1.5.3. Transformace nezpracovaných dat

Jakmile jsou z dat odfiltrovány špatné spoty, měli bychom vždy zkontrolovat jejich rozdělení. Obvyklý způsob je nákres histogramu s rozumným počtem intervalů, a tak zobrazení rozdělení dat. V mikročipových experimentech má rozdělení intenzit vždy pozitivní šikmost - to znamená, že delší konec na pravé straně směřuje k vyšším intenzitám:

 

Numericky můžeme porovnat střední hodnotu a medián rozdělení. Pokud je medián nižší než střední hodnota, pak jsou data pozitivně zešikmena a pokud je medián vyšší, pak jsou data negativně zešikmena. Protože mnoho statistických testů předpokládá data s normálním rozdělením, je potřeba transformace. Navíc tato transformace usnadňuje vizuální prošetření dat – extrémně vysoké hodnoty by jinak neumožňovaly prošetřit nižší a častější intenzity (prohlédněte si histogram nalevo, kde není vidět rozdělení hodnot od 0 do 100).
Existuje několik transformací, které mohou značně zredukovat nesouměrnosti, ale pro výhodnou interpretaci dat je používána ve většině případů log2 transformace. Tato transformace je definována jako X->log2(X).

Někdy se používá logaritmus s jiným základem (log10). Jiná transformace, která stojí za zmínku, je tzv. mocninná transformace (power transformation) definovaná jako X->Xa, kde a>0.

Velmi důležitá a zvláštní skupina transformací spojujících kontrolu kvality, která musí být aplikována na všechna data, se nazývá normalizace dat. Je velmi důležitá a my ji popíšeme v samostatné kapitole.


 2.2.1.5.4. Sumarizace

Sumarizace je poslední důležitý krok po všech provedených transformacích. Na většině mikročipů je každá sonda spotována do vícenásobných spotů, aby se minimalizovaly možné prostorové chyby a kontrolovala variabilita. Nezpracovaná data tudíž obsahují vícenásobné řady pro každou sondu. Pro další analýzu je nutná pouze jedna hodnota představující sondu. Cílem sumarizace je získat jednu reprezentativní míru pro každou sondu.

cDNA čipy

Nejjednodušší způsob je vzít střední hodnotu všech hodnot, zatímco kontrolujeme směrodatnou odchylku tím, že vyřadíme nejextrémnější hodnoty (useknutý průměr - trimmed mean) nebo medián.

 

Affymetrix čipy

Sumarizační techniky pro affymetrix data jsou kvůli odlišnému návrhu čipů poněkud rozdílné od těch, které se používají pro cDNA čipy.