Statistické postupy v laboratorní medicíně

 

Statistická šetření se mohou týkat celé populace nebo jen výseku populace. První typ se označuje jako vyčerpávající, druhý jako výběrové šetření (šetří čas a  peníze, výsledky je ale nutné aplikovat na celou populaci).

 

Základní požadavky na výběrové šetření jsou

·         reprezentativnost výběru (zmenšenina základního souboru = populace),

·         náhodnost výběru (každý jedinec má stejnou šanci být vybrán – např. pomocí náhodných čísel – randomizované studie),

·         velikost výběru (lze určit statistickými postupy),

·         homogenita souboru nebo homogenita vhodných subpopulací,

·         volba vhodných statistických charakteristik (z nabídky metod zahrnutých pod pojem “deskriptivní statistické metody”) a metod testování hypotéz.

 

 

Základní statistické pojmy jsou spolu s odkazy na jednotlivé postupy a příklady uvedeny samostatně.

 

Výklad k základnímu přehledu statistických postupů je uveden samostatně a je určen pro čtenáře bez větších znalostí. Je vždy výhodnější, pokud se pracovníci klinických laboratoří, analytici i lékaři, seznámí se základy statistických přístupů a metod. Běžné statistické problémy potom vyřeší správně sami a v případě potřeby budou statistikovi poučeným partnerem.

 

Pro studium pojmů a postupů v oblasti chemometrie je zpracována samostatná kapitola.

 

Pro studium jednotlivých problémů lze nalézt samostatné kapitoly podle oblasti problematiky.

 

 

Deskriptivní statistické metody

Deskriptivní statistické metody se používají k popisu získaných dat, aniž by se ze závěrů formulovaly a posléze ověřovaly nějaké hypotézy nebo aniž by se výsledky nějak zevšeobecňovaly. Důležitá je vhodná prezentace dat formou tabulek nebo grafů a výpočty základních popisných statistických charakteristik.

 

Statistická prezentace dat

 

Příklad 015: Data pro grafické znázornění

Příklad 012: Histogram

Příklad 013: Kumulativní frekvence

Příklad 014: Box-and-Whisker graf

Jakékoli statistické zpracování dat je nutné zahájit přípravnou fází, ve které se data základním způsobem uspořádají, prezentují, posoudí nebo graficky znázorní. Základní postupy zahrnují vytvoření tabulek a jednoduchých grafů, ze kterých je možné posoudit naměřená data. Při grafickém znázornění se používají histogramy, grafy vousatých krabiček (box graf) a další.

Statistické míry polohy 

Základní statistické ukazatele, používané k popisu polohy, jsou aritmetický průměr, vážený aritmetický průměr, medián, modus a kvantily. Aritmetický průměr je validní při normálním rozložení dat, medián jako střední hodnota souboru předpoklad normálního rozložení nevyžaduje. Kvantily lze do určité míry považovat za ukazatele polohy (medián je 50% kvantil), ale také ukazatele rozptylu (dolní a horní kvartil a podobně).

Statistické míry rozptylu

Mezi míry rozptylu se počítá rozpětí (interval mezi nejnižší a nejvyšší hodnotou souboru), rozptyl (populační a výběrový), směrodatná odchylka (populační a výběrová), relativní směrodatná odchylka (variační koeficient), rozptyl průměru a směrodatná odchylka průměru (odhad nejistoty průměru) a interkvartilové rozpětí (interval mezi dolním, tj. 25%, a horním, tj. 75% kvartilem). Populační ukazatele rozptylu používáme tam, kde popisujeme sledovaný soubor a výsledky nijak nezevšeobecňujeme. Tam, kde se z výběrového souboru výsledky zobecňují na celou populaci, používají se populační míry rozptylu.

Šikmost a špičatost

Šikmost a špičatost se používají pro podrobnější charakteristiku naměřených dat. Jsou to statistické charakteristiky umožňující posoudit, zda rozložení dat výběrového souboru odpovídá normálnímu (gaussovskému) rozložení. Za normální rozložení se považuje takové rozložení, u něhož se hodnota šikmosti i špičatosti blíží nule.

Normální rozložení

Normální (gaussovské) rozložení je charakterizováno při znázornění frekvenční funkce (na ose x jsou naměřené hodnoty dat, na ose y je frekvence zjištěných hodnot) symetrickou křivkou zvonovitého tvaru. Normální rozložení je popsané průměrem (poloha na ose x) a směrodatnou odchylkou (s, určuje rozptýlení hodnot okolo průměru). V intervalu –1s až +1s leží 68,3 % všech pozorování, v intervalu –2s až +2s leží 95,5 % všech pozorování a v intervalu –3s až +3s leží 99,7 % všech pozorování.

Logaritmická transformace dat

 

Příklad 007: transformace dat

Řada dat, která se získávají měřením v biologických vědách, nemají normální rozložení. Ve většině případů lze tato data směrem k normálnímu rozložení transformovat a další statistické postupy uplatňovat na takto transformovaných datech. Logaritmická transformace dekadickým nebo přirozeným logaritmem je jednou ze základních transformací, které lze v biologických vědách s úspěchem použít. Ověříme-li, že transformovaná data podmínku normálního rozložení splňují, můžeme na nich aplikovat parametrické statistické postupy (výpočet aritmetického průměru, směrodatné odchylky, t-testy, ANOVA, lineární regresi, výpočet Pearsonova variačního koeficientu a další). Nedaří-li se transformace pomocí logaritmu, lze použít jinou transformaci (mocnina a jiné) nebo používat při dalším zpracování dat pouze neparametrické statistické postupy (Wilcoxonův test, Spearmanův koeficient pořadové korelace a další). Pokud bychom výsledky statistického zpracování chtěli převést zpět do původních hodnot, musí se použít inverzní funkce (exponenciální funkce).

Regrese lineární

 

Příklad 021: lineární regrese

Regresní analýza studuje vztah mezi závisle proměnnou veličinou (y) a několika (n) nezávislými proměnnými veličinami (x1 až xn). Jednoduchá lineární regrese popisuje přímkový vztah mezi závisle proměnnou veličinou (y) a jedinou nezávisle proměnnou veličinou (x). Rovnice jednoduché lineární regrese je ve tvaru y = kx + q, kde k je směrnice přímky (tangens úhlu) a q je úsek na ose y. Na stejných datech je však možné počítat jednoduchou lineární regresi i tak, že vzájemně zaměníme data a počítáme regresi x = ly + r. Získáme tak dvě regresní přímky, které se budou protínat v průměrech hodnot x a y jako nůžky. Čím těsnější bude korelace dat, tím více budou nůžky stisknuty a naopak. Při porovnávání dvou metod se proto používá regrese podle Passinga a Bablocka, která pro zjištěná data vypočte pouze jednu regresní přímku (neparametrickým způsobem).

Korelační koeficient

Koeficient korelační Pearsonův

Koeficient korelační Spearmanův

 

Příklad 021: lineární regrese

Korelační koeficient (r) je statistická charakteristika určující těsnost vztahu mezi dvěma párovými proměnnými x a y. Nabývá hodnot mezi –1 až +1. Při hodnotě r = 0 vztah mezi proměnnými neexistuje, při hodnotě r = +1 je lineární přímá úměra mezi daty, při hodnotě r = –1 je lineární nepřímá úměra mezi daty. Rozlišuje se parametrický způsob získání korelačního koeficientu (Pearsonův korelační koeficient) a neparametrický způsob (Spearmanův koeficient pořadové korelace).

 

 

Testování hypotéz

Statistická hypotéza se vyslovuje jako předpoklad o vlastnostech zkoumaných dat. Rozlišuje se nulová hypotéza, kdy předpokládáme náhodné pravděpodobností rozložení ve zkoumaných datech a alternativní hypotéza, hypotéza kterou formulujeme pro situace neplatnosti nulové hypotézy. Rozlišují se

 

Testování hypotéz

Formulace nulové hypotézy (H0) a alternativní hypotézy (H1) je základem k hodnocení zjištěných dat. Pokud srovnáme skutečný stav s pravdivostí hypotézy, získáváme tzv. chybu I. a II. druhu. Chybu prvního druhu (odmítnutí nulové hypotézy, která ve skutečnosti platí) lze minimalizovat volbou nižší hladiny významnosti (místo 0,05 např. zvolíme 0,01), chybu druhého druhu (přijmutí nulové hypotézy, která ale ve skutečnosti neplatí) zvýšením počtu hodnocených jedinců. Dvoustranné hypotézy o poloze odpovídají např. na otázku, zda je vůbec nějaký rozdíl v poloze (ať již kladný nebo záporný). Jednostranné hypotézy o poloze naopak odpovídají na otázku, zda je poloha hodnot jednoho ze souborů větší.

T-test párový 

 

Příklad 010: t-test párový

T-test párový je parametrickým testem hypotézy o poloze, předpokládající normální rozložení dat a pracující se dvěma závislými soubory (párové hodnoty, měřené například u jednoho souboru v čase 1 a v čase 2).

T-test nepárový

 

Příklad 009: t-test nepárový

T-test nepárový je parametrickým testem hypotézy o poloze, předpokládající normální rozložení dat a pracující se dvěma nezávislými soubory.

Chí-kvadrát test

 

Příklad 006: chí-kvadrát test

Chí-kvadrát test je neparametrický test hypotézy o rozložení, kdy se testuje shoda teoretického rozložení se skutečným. 

Fisherův přímý exaktní test

 

Příklad 017: Fisherův přímý exaktní test

Fisherův přímý exaktní test je neparametrický test hypotézy o rozložení, ve kterém se testuje shoda teoretického rozložení se skutečným. Používá se v situacích, kdy ve čtyřpolní tabulce četností není možné aplikovat chí-kvadrát test vzhledem k tomu, že v některé z buněk je četnost příliš nízká.

F-test

 

Příklad 004: F-test

Příklad 005: F-test

F-test je parametrický test hypotézy o rozptylu, kdy se testuje, zda jsou rozptyly výběrových souborů totožné. Test vyžaduje normální rozložení dat.

Mediánový test

 

Příklad 008: mediánový test

Mediánový test je alternativou nepárového t-testu, kdy se testuje hypotéza o poloze v situaci, kdy nelze předpokládat normální rozložení dat. Mediánový test vyústí v aplikaci chí-kvadrát testu. Data se dichotomizují na hodnoty pod mediánem a nad mediánem, takže se ztrácí část informace, takže je omezen na situace, kdy je z nějakého důvodu nevhodné použít Wilcoxonův test.

Wilcoxonův test pro nepárové hodnoty

 

Příklad 011: Wilcoxonův test nepárový

Wilcoxonův test pro nepárové hodnoty (Mann-Whitneyův test) je neparametrický test hypotézy o poloze pro nepárové hodnoty. Pracuje se s pořadím hodnot, normální rozložení se nepředpokládá.

Wilcoxonův test pro párové hodnoty

 

Příklad 018: Wilcoxonův test párový

Wilcoxonův test pro párové hodnoty (Wilcoxonův-Whiteův test) je neparametrický test pro hypotézy o poloze pro párové hodnoty dvou závislých souborů.

 

 

 

Diagnostická efektivita

Laboratorní test smí být zařazen do vyšetřovacích algoritmů na základě údajů o dostatečné diagnostické efektivitě. Podrobný výklad k diagnostické efektivitě je rozdělen na úvodní údaje týkající se klinické užitečnosti a na výklad hlavních pojmů s uvedením základních výpočtů.

 

 

Pravděpodobnost apriorní

Apriorní pravděpodobnost je pravděpodobnost choroby (určitého stavu) v určité populaci. Lze si ji představit jako prevalenci, která se ale týká obecné populace. Pro užší, více specifikované populace (získané například předchozím vyšetřením nebo provedením předchozího laboratorního testu) se spíše používá pojmu apriorní pravděpodobnost.

Pravděpodobnost aposteriorní

 

Příklad 001: diagnostická efektivita

Příklad 002: diagnostická efektivita

Příklad 003: diagnostická efektivita

Aposteriorní pravděpodobnost je podmíněná pravděpodobnost choroby (stavu) při určitém (např. pozitivním) výsledku laboratorního testu. Aposteriorní pravděpodobnost je závislá na apriorní pravděpodobnosti choroby, senzitivitě a specifičnosti.

Senzitivita diagnostická

Diagnostická citlivost (senzitivita) je pravděpodobnost pozitivního výsledku u osob s chorobou. Je nezávislá na prevalenci (apriorní pravděpodobnosti choroby). Lze ji zvýšit posunem cut-off do nižších hodnot, ovšem za cenu snížení specifičnosti.

Specifičnost diagnostická

Diagnostická specifičnost je pravděpodobnost negativního výsledku u osob bez choroby. Je nezávislá na prevalenci (apriorní pravděpodobnosti choroby). Lze ji zvýšit posunem cut-off do vyšších hodnot, ovšem za cenu snížení senzitivity.

ROC analýza

 

Příklad 016: ROC analýza

 

Příklad 022: ROC analýza - porovnání ROC

ROC křivka (Receiver Operating Characteristic curve) je křivka znázorňující vztah mezi správnou pozitivitou a falešnou pozitivitou (tj. vztah mezi senzitivitou a 1-specifičností). U testu, který nemá žádnou schopnost diskriminovat stav nemoci od stavu bez nemoci, probíhá křivka jako diagonála. U testu, který diskriminuje oba stavy, se křivka posouvá do levého horního rohu (při uspořádání senzitivity na ose y a 1-specifičnosti na ose x). Plocha pod ROC křivkou (Area Under the Curve) slouží ke standardnímu vyjádření diagnostické efektivity testu. Test, jehož AUC je nad 0,75, lze považovat za uspokojivě diskriminující test. ROC analýza je základním postupem při hodnocení diagnostické efektivity laboratorních testů.

Kaplan-Meierova analýza

 

Příklad 023: Kaplan-Meierova analýza přežití

 

Kaplan – Meierova analýza přežití je postup používaný pro určení pravděpodobnosti přežití ve skupinách s různými hodnotami diagnostického testu, dichotomizovaného pomocí vhodně zvolené cut-off hodnoty. Společně s ROC analýzou se jedná o jeden z postupů pro hodnocení efektivity diagnostického testu.

Sekvenční testování

Sekvenční testování je postup, kdy se po provedení prvního testu dále vyšetřuje pouze populace s určitým výsledkem tohoto úvodního testu. Označuje se někdy také jako reflexní testování. Je nutné zvolit, zda se jako první test vybere test s vyšší senzitivitou nebo vyšší specifičností. Celková senzitivita a celková specifičnost po použití obou testů v libovolném pořadí je stejná, rozdíl je v počtu testovaných jedinců a v ekonomických nákladech.

 

 

Další informace

 

 

Rejstřík

 

Antonín Jabor

 

.