Statistické postupy v laboratorní medicíně
Statistická šetření se mohou týkat celé populace nebo jen výseku populace. První typ se
označuje jako vyčerpávající, druhý jako výběrové šetření (šetří čas a peníze, výsledky je ale nutné aplikovat na celou
populaci).
Základní
požadavky na výběrové šetření jsou
·
reprezentativnost
výběru (zmenšenina základního souboru = populace),
·
náhodnost výběru (každý
jedinec má stejnou šanci být vybrán – např. pomocí náhodných čísel –
randomizované studie),
·
velikost výběru (lze
určit statistickými postupy),
·
homogenita souboru nebo
homogenita vhodných subpopulací,
·
volba vhodných
statistických charakteristik (z nabídky metod zahrnutých pod pojem
“deskriptivní statistické metody”) a metod testování hypotéz.
Základní
statistické pojmy jsou spolu s odkazy na jednotlivé postupy a příklady
uvedeny samostatně.
Výklad k základnímu přehledu statistických postupů je uveden samostatně a je
určen pro čtenáře bez větších znalostí. Je vždy výhodnější, pokud se pracovníci
klinických laboratoří, analytici i lékaři, seznámí se základy statistických
přístupů a metod. Běžné statistické problémy potom vyřeší správně sami a
v případě potřeby budou statistikovi poučeným partnerem.
Pro studium pojmů a postupů
v oblasti chemometrie je zpracována samostatná
kapitola.
Pro studium jednotlivých
problémů lze nalézt samostatné kapitoly podle oblasti problematiky.
Deskriptivní statistické
metody se používají k popisu získaných dat, aniž by se ze závěrů
formulovaly a posléze ověřovaly nějaké hypotézy nebo aniž by se výsledky nějak
zevšeobecňovaly. Důležitá je vhodná prezentace dat formou tabulek nebo grafů a
výpočty základních popisných statistických charakteristik.
Statistická prezentace dat Příklad 015: Data pro grafické znázornění Příklad 012: Histogram Příklad 013: Kumulativní frekvence Příklad 014: Box-and-Whisker graf |
Jakékoli
statistické zpracování dat je nutné zahájit přípravnou fází, ve které se data
základním způsobem uspořádají, prezentují, posoudí nebo graficky znázorní.
Základní postupy zahrnují vytvoření tabulek a jednoduchých grafů, ze kterých
je možné posoudit naměřená data. Při grafickém znázornění se používají
histogramy, grafy vousatých krabiček (box graf) a další. |
Statistické míry polohy |
Základní
statistické ukazatele, používané k popisu polohy, jsou aritmetický
průměr, vážený aritmetický průměr, medián, modus a kvantily. Aritmetický
průměr je validní při normálním rozložení dat, medián jako střední hodnota
souboru předpoklad normálního rozložení nevyžaduje. Kvantily lze do určité
míry považovat za ukazatele polohy (medián je 50% kvantil), ale také
ukazatele rozptylu (dolní a horní kvartil a podobně). |
Statistické míry rozptylu |
Mezi
míry rozptylu se počítá rozpětí (interval mezi nejnižší a nejvyšší hodnotou
souboru), rozptyl (populační a výběrový), směrodatná odchylka (populační a
výběrová), relativní směrodatná odchylka (variační koeficient), rozptyl
průměru a směrodatná odchylka průměru (odhad nejistoty průměru) a
interkvartilové rozpětí (interval mezi dolním, tj. 25%, a horním, tj. 75%
kvartilem). Populační ukazatele rozptylu používáme tam, kde popisujeme
sledovaný soubor a výsledky nijak nezevšeobecňujeme. Tam, kde se z výběrového
souboru výsledky zobecňují na celou populaci, používají se populační míry
rozptylu. |
Šikmost a špičatost |
Šikmost
a špičatost se používají pro podrobnější charakteristiku naměřených dat. Jsou
to statistické charakteristiky umožňující posoudit, zda rozložení dat
výběrového souboru odpovídá normálnímu (gaussovskému) rozložení. Za normální
rozložení se považuje takové rozložení, u něhož se hodnota šikmosti i
špičatosti blíží nule. |
Normální rozložení |
Normální
(gaussovské) rozložení je charakterizováno při znázornění frekvenční funkce
(na ose x jsou naměřené hodnoty dat, na ose y je frekvence zjištěných hodnot)
symetrickou křivkou zvonovitého tvaru. Normální rozložení je popsané průměrem
(poloha na ose x) a směrodatnou odchylkou (s, určuje rozptýlení hodnot okolo
průměru). V intervalu –1s až +1s leží 68,3 % všech pozorování,
v intervalu –2s až +2s leží 95,5 % všech pozorování a v intervalu
–3s až +3s leží 99,7 % všech pozorování. |
Logaritmická transformace dat Příklad 007: transformace dat |
Řada
dat, která se získávají měřením v biologických vědách, nemají normální
rozložení. Ve většině případů lze tato data směrem k normálnímu rozložení
transformovat a další statistické postupy uplatňovat na takto
transformovaných datech. Logaritmická transformace dekadickým nebo přirozeným
logaritmem je jednou ze základních transformací, které lze
v biologických vědách s úspěchem použít. Ověříme-li, že
transformovaná data podmínku normálního rozložení splňují, můžeme na nich
aplikovat parametrické statistické postupy (výpočet aritmetického průměru,
směrodatné odchylky, t-testy, ANOVA, lineární regresi, výpočet Pearsonova
variačního koeficientu a další). Nedaří-li se transformace pomocí logaritmu,
lze použít jinou transformaci (mocnina a jiné) nebo používat při dalším
zpracování dat pouze neparametrické statistické postupy (Wilcoxonův test,
Spearmanův koeficient pořadové korelace a další). Pokud bychom výsledky
statistického zpracování chtěli převést zpět do původních hodnot, musí se
použít inverzní funkce (exponenciální funkce). |
Regrese lineární Příklad 021: lineární regrese |
Regresní
analýza studuje vztah mezi závisle proměnnou veličinou (y) a několika (n)
nezávislými proměnnými veličinami (x1 až xn).
Jednoduchá lineární regrese popisuje přímkový vztah mezi závisle proměnnou
veličinou (y) a jedinou nezávisle proměnnou veličinou (x). Rovnice jednoduché
lineární regrese je ve tvaru y = kx + q, kde k je směrnice přímky
(tangens úhlu) a q je úsek na ose y. Na stejných datech je však možné počítat
jednoduchou lineární regresi i tak, že vzájemně zaměníme data a počítáme
regresi x = ly + r. Získáme tak dvě regresní přímky, které se budou protínat
v průměrech hodnot x a y jako nůžky. Čím těsnější bude korelace dat, tím
více budou nůžky stisknuty a naopak. Při porovnávání dvou metod se proto
používá regrese podle Passinga a Bablocka, která pro zjištěná data vypočte
pouze jednu regresní přímku (neparametrickým způsobem). |
Korelační koeficient Koeficient korelační Pearsonův Koeficient korelační Spearmanův Příklad 021: lineární regrese |
Korelační
koeficient (r) je statistická charakteristika určující těsnost vztahu mezi
dvěma párovými proměnnými x a y. Nabývá hodnot mezi –1 až +1. Při hodnotě r =
0 vztah mezi proměnnými neexistuje, při hodnotě r = +1 je lineární přímá
úměra mezi daty, při hodnotě r = –1 je lineární nepřímá úměra mezi daty.
Rozlišuje se parametrický způsob získání korelačního koeficientu (Pearsonův
korelační koeficient) a neparametrický způsob (Spearmanův koeficient pořadové
korelace). |
Statistická hypotéza se
vyslovuje jako předpoklad o vlastnostech zkoumaných dat. Rozlišuje se nulová
hypotéza, kdy předpokládáme náhodné pravděpodobností rozložení ve zkoumaných
datech a alternativní hypotéza, hypotéza kterou formulujeme pro situace
neplatnosti nulové hypotézy. Rozlišují se
Testování hypotéz |
Formulace
nulové hypotézy (H0) a alternativní hypotézy (H1) je
základem k hodnocení zjištěných dat. Pokud srovnáme skutečný stav
s pravdivostí hypotézy, získáváme tzv. chybu I. a II. druhu. Chybu
prvního druhu (odmítnutí nulové hypotézy, která ve skutečnosti platí) lze
minimalizovat volbou nižší hladiny významnosti (místo 0,05 např. zvolíme
0,01), chybu druhého druhu (přijmutí nulové hypotézy, která ale ve
skutečnosti neplatí) zvýšením počtu hodnocených jedinců. Dvoustranné hypotézy
o poloze odpovídají např. na otázku, zda je vůbec nějaký rozdíl v poloze
(ať již kladný nebo záporný). Jednostranné hypotézy o poloze naopak
odpovídají na otázku, zda je poloha hodnot jednoho ze souborů větší. |
T-test párový Příklad 010: t-test párový |
T-test
párový je parametrickým testem hypotézy o poloze, předpokládající normální
rozložení dat a pracující se dvěma závislými soubory (párové hodnoty, měřené
například u jednoho souboru v čase |
T-test nepárový Příklad 009: t-test nepárový |
T-test
nepárový je parametrickým testem hypotézy o poloze, předpokládající normální
rozložení dat a pracující se dvěma nezávislými soubory. |
Chí-kvadrát test Příklad 006: chí-kvadrát test |
Chí-kvadrát
test je neparametrický test hypotézy o rozložení, kdy se testuje shoda
teoretického rozložení se skutečným. |
Fisherův přímý exaktní test Příklad 017: Fisherův přímý exaktní test |
Fisherův
přímý exaktní test je neparametrický test hypotézy o rozložení, ve kterém se
testuje shoda teoretického rozložení se skutečným. Používá se v situacích,
kdy ve čtyřpolní tabulce četností není možné aplikovat chí-kvadrát test
vzhledem k tomu, že v některé z buněk je četnost příliš nízká. |
F-test Příklad 004: F-test Příklad 005: F-test |
F-test
je parametrický test hypotézy o rozptylu, kdy se testuje, zda jsou rozptyly
výběrových souborů totožné. Test vyžaduje normální rozložení dat. |
Mediánový test Příklad 008: mediánový test |
Mediánový
test je alternativou nepárového t-testu, kdy se testuje hypotéza o poloze
v situaci, kdy nelze předpokládat normální rozložení dat. Mediánový test
vyústí v aplikaci chí-kvadrát testu. Data se dichotomizují na hodnoty
pod mediánem a nad mediánem, takže se ztrácí část informace, takže je omezen
na situace, kdy je z nějakého důvodu nevhodné použít Wilcoxonův test. |
Wilcoxonův test pro nepárové hodnoty Příklad 011: Wilcoxonův test nepárový |
Wilcoxonův
test pro nepárové hodnoty (Mann-Whitneyův test) je neparametrický test
hypotézy o poloze pro nepárové hodnoty. Pracuje se s pořadím hodnot,
normální rozložení se nepředpokládá. |
Wilcoxonův test pro párové hodnoty Příklad 018: Wilcoxonův test párový |
Wilcoxonův
test pro párové hodnoty (Wilcoxonův-Whiteův test) je neparametrický test pro
hypotézy o poloze pro párové hodnoty dvou závislých souborů. |
Laboratorní test smí být zařazen do vyšetřovacích algoritmů na základě údajů o dostatečné diagnostické efektivitě. Podrobný výklad k diagnostické efektivitě je rozdělen na úvodní údaje týkající se klinické užitečnosti a na výklad hlavních pojmů s uvedením základních výpočtů.
Pravděpodobnost apriorní |
Apriorní pravděpodobnost je pravděpodobnost choroby (určitého stavu)
v určité populaci. Lze si ji představit jako prevalenci, která se ale
týká obecné populace. Pro užší, více specifikované populace (získané
například předchozím vyšetřením nebo provedením předchozího laboratorního
testu) se spíše používá pojmu apriorní pravděpodobnost. |
Pravděpodobnost aposteriorní Příklad 001: diagnostická efektivita Příklad 002: diagnostická efektivita Příklad 003: diagnostická efektivita |
Aposteriorní pravděpodobnost je podmíněná pravděpodobnost choroby
(stavu) při určitém (např. pozitivním) výsledku laboratorního testu.
Aposteriorní pravděpodobnost je závislá na apriorní pravděpodobnosti choroby,
senzitivitě a specifičnosti. |
Senzitivita diagnostická |
Diagnostická citlivost (senzitivita) je pravděpodobnost pozitivního
výsledku u osob s chorobou. Je nezávislá na prevalenci (apriorní pravděpodobnosti
choroby). Lze ji zvýšit posunem cut-off do nižších hodnot, ovšem za cenu
snížení specifičnosti. |
Specifičnost diagnostická |
Diagnostická specifičnost je pravděpodobnost negativního výsledku u
osob bez choroby. Je nezávislá na prevalenci (apriorní pravděpodobnosti
choroby). Lze ji zvýšit posunem cut-off do vyšších hodnot, ovšem za cenu
snížení senzitivity. |
ROC analýza Příklad 016: ROC analýza Příklad 022: ROC analýza - porovnání ROC |
ROC křivka (Receiver Operating Characteristic curve) je křivka
znázorňující vztah mezi správnou pozitivitou a falešnou pozitivitou (tj.
vztah mezi senzitivitou a 1-specifičností). U testu, který nemá žádnou
schopnost diskriminovat stav nemoci od stavu bez nemoci, probíhá křivka jako
diagonála. U testu, který diskriminuje oba stavy, se křivka posouvá do levého
horního rohu (při uspořádání senzitivity na ose y a 1-specifičnosti na ose
x). Plocha pod ROC křivkou (Area Under the Curve) slouží ke standardnímu
vyjádření diagnostické efektivity testu. Test, jehož AUC je nad 0,75, lze
považovat za uspokojivě diskriminující test. ROC analýza je základním
postupem při hodnocení diagnostické efektivity laboratorních testů. |
Kaplan-Meierova analýza Příklad 023: Kaplan-Meierova analýza přežití |
Kaplan – Meierova analýza přežití je postup používaný pro určení
pravděpodobnosti přežití ve skupinách s různými hodnotami diagnostického
testu, dichotomizovaného pomocí vhodně zvolené cut-off hodnoty. Společně
s ROC analýzou se jedná o jeden z postupů pro hodnocení efektivity
diagnostického testu. |
Sekvenční testování |
Sekvenční testování je postup, kdy se po provedení prvního testu dále
vyšetřuje pouze populace s určitým výsledkem tohoto úvodního testu.
Označuje se někdy také jako reflexní testování. Je nutné zvolit, zda se jako
první test vybere test s vyšší senzitivitou nebo vyšší specifičností.
Celková senzitivita a celková specifičnost po použití obou testů
v libovolném pořadí je stejná, rozdíl je v počtu testovaných
jedinců a v ekonomických nákladech. |
Další informace
Antonín Jabor
.