E-learning 2. Analýza dat 2.2. Analýza vysokopokryvných genomických dat 2.2.1. DNA mikročipy 2.2.1.11. Analýza biologických drah

2.2.1.11.5 Diskuze

Představili jsme Vám stavební bloky metod analýzy genových sad pro mikročipová data. Každá taková metoda má dvě hlavní složky, kterými jsou biologická databáze používaná k definování genových sad a statistická/matematická metoda k ohodnocení genových sad. Dle našeho názoru je většina softwarových balíků zaměřena pouze na tyto dvě složky. Spousta komerčních softwarových balíků analýzy drah jako Ingenuity Pathways Analysis (http://www.ingenuity.com/products/pathways_analysis.html) nebo Metacore (http://www.genego.com/metacore.php) umožňuje přístup k mnohem detailnějším biologickým informacím než databáze, které jsme rozebírali, mají však sklon používat velmi jednoduché statistické analýzy. Na druhou stranu množství balíků Bioconductor nabízí mnohem sofistikovanější algoritmy, ale umožňují přístup pouze k tradičním veřejně dostupným databázím, které často nesplňují potřeby určitých mikročipových studií. Největší část tohoto textu byla věnována různým filosofiím, které stojí v pozadí statistických metod v tomto kontextu používaných, se zvláštním zaměřením na rozdíl mezi uzavřenými a kompetitivními testy genových sad.

Jak jsme již ukázali, p-hodnoty musí být z kompetitivních testů (např. Fisherova exaktního testu) interpretovány s velkou opatrností, protože a) se týkají spíše neobvyklé nulové hypotézy a b) jsou počítány podle velmi nereálného předpokladu genů na genovou nezávislost. Argument často používaný k obhajobě těchto metod je, že se skutečně nepoužívají pro formální testování hypotéz, ale spíše slouží jako způsob pro seřazení seznamů genových sad. Stále pociťujeme, že toho stejného lze dosáhnout s uzavřenými testy, které navíc poskytují validní p-hodnoty, které jsou rovnoměrně rozloženy podle nulové hypotézy, a tudíž nám dovolují metody použít pro kontrolu FDR.

Všechny zmiňované metody mají jednu společnou vlastnost a to, že nepoužívají žádné jiné znalosti než je složení odpovídající genové sadě. V případě drah je znalost o genových interakcích, které jsou obsaženy v mapě dráhy, kompletně ignorována. Existují články, které se na tento problém zaměřují, jako například analýza dopadu navrhovaná Draghici et al. [2007]. Rozebírat detailně složitější nástroje ovšem přesahuje meze našeho článku, ale dle našeho názoru, představují významný prvek budoucího vývoje této oblasti: navíc k automatickému ohodnocování rozsáhlých databází genových sad, předpokládáme, že v budoucnu bude směřováno více aktivity k detailnější analýze menšího počtu vybraných drah. Skutečná zlepšení v této oblasti budou potřebovat těsnou spolupráci mezi biology/vědci na jedné straně a bioinformatiky/statistiky na straně druhé.