E-learning 2. Analýza dat 2.1. Obecný průběh analýzy 2.1.3. Objevování skupin

Objevování skupin (class discovery) je typ analýzy, u níž se snažíme vytvořit závěry o datovém souboru bez (přihlédnutí k) jakékoliv předchozí znalosti základních principů biologie. Tento typ analýzy se také nazývá shlukování. Jeho cílem je rozdělení objektů v datovém souboru (v našem případě vzorků nebo genů/proteinů) do skupin (shluků) tak, aby si objekty uvnitř stejné skupiny byly velmi podobné, zatímco objekty z různých skupin byly tak odlišné, jak jen je to možné. V genomice a proteomice se mohou vyhledat funkčně příbuzné geny nebo proteiny prostřednictvím hledání skupin genů/proteinů s podobnou expresí. Dalším úkolem může být objevení nových podskupin nemocí. Právě shlukování může pro tento typ analýzy poskytnout dobrý rámec. Je často používáno k vizualizaci a kontrole nástroje po vybrání odlišně exprimovaných genů/proteinů mezi známými skupinami vzorků. Byl-li výběr úspěšný, shlukování vzorků založené na této podskupině genů/vzorků by mělo odhalit víceméně dvě porovnané skupiny. Nové vysokopokryvné genomické a proteomické techniky vytvářejí vícerozměrná data a provedení takového úkolu není možné bez odpovídajících analytických nástrojů. Výhodou shlukovacích technik je, že zmenší velikost datových souborů organizováním genů (nebo vzorků) do sníženého počtu skupin.

Základní princip

Máme datovou matici X o velikosti n x p, kde n je počet objektů (vzorků) a p je a počet proměnných (genů/proteinů). Hledáme nejvhodnější rozdělení dat tak, aby nalezené skupiny byly uvnitř skupin vysoce homogenní a mezi sebou vysoce heterogenní.

Existují různé typy shlukovacích metod a není možné je zde všechny popsat, proto se zaměříme pouze na nejčastěji používané metody. Jsou dva hlavní problémy, které by měl čtenář brát v úvahu předtím, než použije některý z níže uvedených algoritmů:
1) Mnohé shlukovací metody naleznou shluky i v datech, ve kterých se žádné nevyskytují, jen proto, že byly k vyhledání shluků navrženy.
2) Výsledek shlukování by neměl být nikdy považovaný za objektivní reprezentaci informací skrytých v datech. Závisí na algoritmu použitém k analýze.

V některých literaturách, kde autoři používají termíny shlukování s učitelem (supervised) a bez učitele (unsupervised), se může vyskytnout záměna. Shlukování s učitelem využívá předchozí znalosti o datech. Nicméně tento typ shlukování patří spíše k další kapitole o predikci tříd. V následujícím textu se budeme zabývat metodami bez učitele .

Obecně platí, že můžeme rozlišit dva hlavní přístupy shlukování bez učitele: metody založené na vzdálenosti a metody založené na modelu. Nejčastěji se používají metody založené na vzdálenosti, jejichž cílem je seskupení podobných objektů podle a prioriorní míry podobnosti. Tyto metody jsou neparametrické, protože nepředpokládají data pocházející z dříve definovaného rozložení. Naopak, metody založené na modelu jsou založeny na statistickém modelování, kladou silný důraz na předpoklady o rozložení dat, a proto mohou být řazeny do parametrických shlukovacích metod.
Většina shlukovacích technik vytváří odlišné shluky, což znamená, že je každý objekt přiřazen pouze do jedné skupiny. To nemusí být nejlepším řešením, zejména při shlukování genů/proteinů. Mnoho z nich je zapojeno do více než jedné biologické dráhy, což naznačuje, že by každý gen/protein měl mít možnost patřit do více než jednoho shluku. Metody založené na modelu jsou vhodné k přiřazení pravděpodobnosti ke každému genu, se kterou patří do daného shluku.

vyhledávání