Analysis of genomic and proteomic data - e-learning: 2.1.3.1.1. Definování míry podobnosti a vzdálenosti

Aby bylo možné uspořádat objekty do shluků s vysokou podobností uvnitř jednoho shluku a vysokou odlišností mezi shluky navzájem, potřebujeme nějakým způsobem naměřit podobnost (nebo vzdálenost) mezi objekty a mezi shluky. K tomuto účelu bylo navrženo množství různých metrik. Výběr metriky závisí na typu dat a požadovaném výsledku.

Podmínky podobnosti a vzdálenosti jsou navzájem opačné a každá podobnost může být převedena do vzdálenosti nebo naopak. Například Pearsonova korelace, která reprezentuje míru podobnosti, může být snadno převedena do míry vzdálenosti vypočtením |1-R|.

Obecně platí, že naměřená vzdálenost d mezi objekty g a g’ by měla být:

kladná: d(g, g′) ≥ 0
symetrická: d(g, g′) = d(g′, g)
nula pouze tehdy, když se g rovná g′: {d(g, g′) = 0} <=>{g = g′}

Objekt je buď gen/protein nebo shluk.

Podobnost s mezi objekty g a g’ je definována ekvivalentně:

s je kladné s maximem v 1: 0≤ s(g, g′)≤ 0
s je symetrické: s(g, g′) = s(g′, g)
s je 1 pouze tehdy, když se g rovná g′: {s(g, g′) = 0} <=> {g = g′}.

Jakmile je metrika vybrána, následuje analýza, jejíž prvním krokem je často výpočet vzdálenosti (podobnosti) mezi každou dvojicí objektů. Výsledkem je n x n matice (n je počet objektů), která má na diagonále buď

0 – v případě našich metrik se jedná o míru vzdálenosti (vzdálenost objektu od sebe sama je 0)
1 – v případě našich metrik se jedná o míru podobnosti (podobnost objektu sebe samého je maximální, s hodnotou 1)

Poté je stejné měření použito buď na

výpočet vzdálenosti mezi shluky, které mohou být dále shlukovány dohromady, pokud je vzdálenost mezi shluky považována za dostatečně malou a pokud je nový shluk zahrnující oba porovnávané shluky dostatečně homogenní
nebo k výpočtu vzdálenosti objektů uvnitř shluku, s cílem rozdělení tohoto shluku do dvou ještě více homogenních shluků

Všimněte si, že shluk může být někdy tvořen pouze jedním vzorkem.

Nyní popíšeme nejběžnější vzdálenostní / podobnostní metriky široce používané při analýze genomických a proteomických dat. Všechny tyto objekty jsou popsány kvantitativními proměnnými, vhodným výběrem analýzy genomických a proteomických dat, kde jsou exprese genů nebo množství proteinů představovány reálnými čísly.

vyhledávání