E-learning 2. Analýza dat 2.2. Analýza vysokopokryvných genomických dat 2.2.1. DNA mikročipy 2.2.1.10. Meta-analýza mikročipových experimetnů

Metody meta-analýzy mikročipů jsou implementovány jako (Tabulka 2):

  • R-balíky nebo R-skripty
  • spustitelné soubory
  • WinBUGS kódy

R-software

Většina metod je implementována v programu R, je to tzv. open-source program pro statistické výpočty, popsaný v kapitole 3. Software.

Spustitelné soubory

Spustitelné soubory jsou k dispozici pro VennMapper a proceduru, která implementuje GSFLD.

VennMapper

Nejprve je potřebné načíst vstupní soubor. Venn Mapper akceptuje pouze textové soubory oddělené tabulátorem v následujícím formátu: První řádek musí obsahovat identifikátory sloupců. První záznam popisuje použitý genový identifikátor a může být vyjádřen v jakékoliv alfanumerické hodnotě; toto pole není použito v aplikaci. Další pole obsahují log2 podíly konkrétního genu v určitém experimentu. Data mohou pocházet z různých platforem, jen je potřebné je poté zkombinovat do jednoho souboru (jak bylo popsáno výše). Program je také schopný dobře se vypořádat s chybějícími hodnotami. Uživatel v něm musí nastavit násobnost rozdílu, která je biologicky významná. Násobnost rozdílu slouží k určení hranice identifikující významné geny každého experimentu. Po vyplnění všech potřebných vstupů klikne uživatel na tlačítk "GO!". Program informuje uživatele o průběhu. Když program skončí a zavře tři výstupní soubory: fact_x.x_numbers.txt, fact_x.x_zvalue.txt, fact_x.x_genes.txt, vytvoří tyto soubory do stejné složky, v níž se nachází, vstupní soubor. X.X je nahrazeno vstupní násobností rozdílu. V těchto souborech nalezneme počet shodných genů, příslušné Z-statistiky a názvy genů. Pokud výstupní soubory již existovaly, budou přepsány. Jestliže byly tyto soubory (jeden z nich) dříve načteny do jiného programu např. Microsoft Excel, pak Venn Mapper nebude moci do těchto souborů zapisovat.

Procedura GSFLD

Procedura GSFLD načte z textových souborů vstupní data a vstupní parametry (název vstupního a výstupního souboru). Výstupní soubor generuje do stejné složky. Vstupní soubor obsahuje: počet vzorků, počet genů a transformované expresní profily: řádky představují geny a identifikace skupiny, sloupce vzorky a jeden sloupec reprezentuje názvy genů. Výstupní soubor obsahuje informace o počtu genů, počtu klasifikačních chyb a genových identifikátorech. Transformace dat se provádí programem GeneSpring (v6.1) (Conway, 2003) a procedury jsou napsány v C. Procedury jsou k dispozici jako doplňkový soubor k Jiang et al. (2004).

 

WinBUGS software

Bayesovské modely používají WinBUGS software na odhad parametrů v modelu (Lunn et al., 2000). V tomto SW je implementovaný algoritmus Markovových řetězců Monte Carlo a Gibbs Sampling. WinBUGS je dostupný na www.mrc-bsu.cam.ac.uk/bugs/welcome.shtml. Definice modelu, vstupní data a počáteční hodnoty parametrů jsou načteny z textových souborů, po zbytek analýzy se pracuje v grafickém prostředí.


Tabulka 2. Implementace metod meta-analýzy mikročipů

Metoda

Implementace

Dostupnost

SOGL

R-balík     OrderedList

www.bioconductor.org

Meta-profilování

.exe

Neznáme

VennMapper

.exe

http://www.gatcplatform.nl//vennmapper/index.php

MAP- shody

R skripty

Na vyžádání

Fisherova metoda inverzního chí-kvadrátu

Neznáme

Neznáme

Modelování velikosti efektu

R-balík      GeneMeta

www.bioconductor.org

LASSO

R-balík lasso2

www.bioconductor.org

GSRF

Neznáme

Neznáme

GSFLD

.exe

http://www.biomedcentral.com/content/supplementary/1471-2105-5-81-S4.zip

TSP-klasifikátor

Neznáme

Neznáme

Bayesovské modely

WinBUGS

http://www.mrc-bsu.cam.ac.uk/bugs/welcome.shtml

Odhady FDR

R skripty

Nedostupný

Dvoustupňová ANOVA

Neznáme

Neznáme

Z-statistika

R-balík      metaArray

www.bioconductor.org

Metoda vázané proměnné

R-balík      metaArray

www.bioconductor.org