E-learning 2. Analýza dat 2.2. Analýza vysokopokryvných genomických dat 2.2.1. DNA mikročipy 2.2.1.10. Meta-analýza mikročipových experimetnů
Metody meta-analýzy mikročipů jsou implementovány jako (Tabulka 2):
- R-balíky nebo R-skripty
- spustitelné soubory
- WinBUGS kódy
R-software
Většina metod je implementována v programu R, je to tzv. open-source program pro statistické výpočty, popsaný v kapitole 3. Software.
Spustitelné soubory
Spustitelné soubory jsou k dispozici pro VennMapper a proceduru, která implementuje GSFLD.
VennMapper
Nejprve je potřebné načíst vstupní soubor. Venn Mapper akceptuje pouze textové soubory oddělené tabulátorem v následujícím formátu: První řádek musí obsahovat identifikátory sloupců. První záznam popisuje použitý genový identifikátor a může být vyjádřen v jakékoliv alfanumerické hodnotě; toto pole není použito v aplikaci. Další pole obsahují log2 podíly konkrétního genu v určitém experimentu. Data mohou pocházet z různých platforem, jen je potřebné je poté zkombinovat do jednoho souboru (jak bylo popsáno výše). Program je také schopný dobře se vypořádat s chybějícími hodnotami. Uživatel v něm musí nastavit násobnost rozdílu, která je biologicky významná. Násobnost rozdílu slouží k určení hranice identifikující významné geny každého experimentu. Po vyplnění všech potřebných vstupů klikne uživatel na tlačítk "GO!". Program informuje uživatele o průběhu. Když program skončí a zavře tři výstupní soubory: fact_x.x_numbers.txt, fact_x.x_zvalue.txt, fact_x.x_genes.txt, vytvoří tyto soubory do stejné složky, v níž se nachází, vstupní soubor. X.X je nahrazeno vstupní násobností rozdílu. V těchto souborech nalezneme počet shodných genů, příslušné Z-statistiky a názvy genů. Pokud výstupní soubory již existovaly, budou přepsány. Jestliže byly tyto soubory (jeden z nich) dříve načteny do jiného programu např. Microsoft Excel, pak Venn Mapper nebude moci do těchto souborů zapisovat.
Procedura GSFLD
Procedura GSFLD načte z textových souborů vstupní data a vstupní parametry (název vstupního a výstupního souboru). Výstupní soubor generuje do stejné složky. Vstupní soubor obsahuje: počet vzorků, počet genů a transformované expresní profily: řádky představují geny a identifikace skupiny, sloupce vzorky a jeden sloupec reprezentuje názvy genů. Výstupní soubor obsahuje informace o počtu genů, počtu klasifikačních chyb a genových identifikátorech. Transformace dat se provádí programem GeneSpring (v6.1) (
WinBUGS software
Bayesovské modely používají WinBUGS software na odhad parametrů v modelu (Lunn et al., 2000). V tomto SW je implementovaný algoritmus Markovových řetězců Monte Carlo a Gibbs Sampling. WinBUGS je dostupný na www.mrc-bsu.cam.ac.uk/bugs/welcome.shtml. Definice modelu, vstupní data a počáteční hodnoty parametrů jsou načteny z textových souborů, po zbytek analýzy se pracuje v grafickém prostředí.
Tabulka 2. Implementace metod meta-analýzy mikročipů
Metoda |
Implementace |
Dostupnost |
SOGL |
R-balík OrderedList |
|
Meta-profilování |
.exe |
Neznáme |
VennMapper |
.exe |
|
MAP- shody |
R skripty |
Na vyžádání |
Fisherova metoda inverzního chí-kvadrátu |
Neznáme |
Neznáme |
Modelování velikosti efektu |
R-balík GeneMeta |
|
LASSO |
R-balík lasso2 |
|
GSRF |
Neznáme |
Neznáme |
GSFLD |
.exe |
http://www.biomedcentral.com/content/supplementary/1471-2105-5-81-S4.zip |
TSP-klasifikátor |
Neznáme |
Neznáme |
Bayesovské modely |
WinBUGS |
|
Odhady FDR |
R skripty |
Nedostupný |
Dvoustupňová ANOVA |
Neznáme |
Neznáme |
Z-statistika |
R-balík metaArray |
|
Metoda vázané proměnné |
R-balík metaArray |