Informační webinář: Úvod do programování v Pythonu (pro úplné začátečníky)

18. 9. 2024 od 14:00


⚠️ Poslední místa – Regresní analýza v TIBCO Statistica

Brno (Mendelova univerzita) – 6. 6. 2024


⚠️ Poslední místa – Analýza rozptylu v TIBCO Statistica

Brno (Mendelova univerzita) – 7. 6. 2024

Obsah

Percentil: definice, využití a výpočet


Percentil je míra polohy, který dělí uspořádaný soubor hodnot na 100 stejně velkých částí. Standardně ukazuje celočíselný podíl (procento) pozorovaní v datové sadě pod určitou hodnotou.

Např. 20. percentil (označovaný jako P20) je hodnota, pod kterou leží 20 % všech pozorování a 80. percentil (P80) je hodnota, pod kterou leží 80 % všech pozorování.

Spolu s dalšími kvantily lze percentil spočítat u ordinálních proměnných a kvantitativních proměnných. U druhé skupiny je výpočet možný za předpokladu rovnoměrného rozložení dat a dostatečného počtu pozorování v každé kategorii (např. u školních známek, kde předpokládáme stejný rozdíl mezi jednotlivými stupni známkování).

Percentil se počítá podle následujícího vzorce (viz příklad níže):

\[ P_k = \frac{(n+1) \cdot k}{100} \]

\(P_k \) označuje pořadí hodnoty k-tého percentilu v souboru vzestupně seřazených dat. \(n \) je počet hodnot v datovém souboru. V praxi se percentily počítáme s pomocí statistických programů.

V případě, že výsledkem není celé číslo, je potřeba výsledek upravit lineární interpolací mezi dvěma sousedními hodnotami v uspořádaném datovém souboru. Její vzorec je následující (viz příklad níže):

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

\[ y = y_1 + \left( \frac{x – x_1}{x_2 – x_1} \right) \cdot (y_2 – y_1) \]

\( x_1 \) a \( x_2 \) je menší, resp. větší pořadí hodnoty, pro které provádíme interpolaci. \( y_1 \) a \( y_2 \) je pak menší, resp. větší hodnota, které interpolujeme.

Pozor – aplikace pro statistickou analýzu, jako je Excel a jazyk R, nevyužívají pro získání výsledku lineární interpolaci, ale složitější postupy. Výsledky se proto mohou od ručního výpočtu lišit.


Využití percentilů

Percentily jsou dalším z nástrojů pro popis rozložení dat u velkých datových souborů. U normálního rozložení jsou rozestupy mezi percentily od středu podobné (graf výše), zatímco v souborech se zešikmenými daty (viz míry tvaru) se zpravidla výrazně liší – data se koncentrují na jedné straně rozložení:

Spolu s mezikvartilovým rozpětím a dalšími metodami lze percentily použít pro identifikaci odlehlých hodnot. Za extrémní se mohou považovat hodnoty, které leží pod hranicí 5. percentilu (resp. 1. percentilu) a nad hranicí 95. percentilu (resp. 99. percentilu).

Záleží na kontextu – u dat s pravostranným rozložením lze za extrémní brát hodnoty nad 95. percentilem, protože většina dat se nachází napravo od mediánu. Naopak u normálního rozložení je za odlehlé možné považovat hodnoty pod 5. a nad 95. percentilem.

Percentily jsou dobrým ukazatelem pro srovnávání různých datových sad. Předpokladem je:

  • podobné rozdělení (distribuce) datových sad,
  • měření na stejné nebo srovnatelné škále,
  • dostatečná velikost vzorku (za účelem reprezentace dané populace).

Používají se např. pro porovnání znalostí studentů v různých státech nebo míry znečištění v různých regionech. Ve zdravotnictví a dalších oborech slouží percentily pro stanovení norem:

Použití percentilů není vhodné pro:

  • malé datové sady (méně než několik desítek hodnot),
  • výrazně odlišná distribuce srovnávaných datových sad (např. sada hodnot s normálním rozdělením a sada hodnot s výrazně levostrannou distribucí),
  • pro datové sady s vysokým počtem odlehlých hodnot.


Příklad výpočtu percentilů

Vaším úkolem je spočítat 20. a 80. percentil výšky tříletých dívek z následujících dat: 90, 95, 88, 92, 89, 94, 97, 86, 99, 85, 93, 96, 100, 91, 87, 98, 94, 92 a 90 cm. (Jde o ilustrační příklad – pro takto malou datovou sadou není vhodné percentil používat.)

Hodnoty nejprve vzestupně seřadíme:

Pořadí hodnoty 1 2 3 4 5 6 7 8 9 10
Výška (cm) 85 86 87 88 89 90 90 91 92 92
Pořadí hodnoty 11 12 13 14 15 16 17 18 19
Výška (cm) 93 94 94 95 96 97 98 99 100


Pro výpočet 20. percentilu z 19 hodnot dosadíme příslušné hodnoty do výše uvedené rovnice:

\[P_k = \frac{(n+1) \cdot k}{100}\] \[P_{20} = \frac{(19+1) \cdot 20}{100}\] \[P_{20} = 4\]

20. percentil (P20) odpovídá v této sadě 4. hodnotě, tedy výšce 88 cm. V dané datové sadě je tedy 20 % dívek vysokých 88 cm (nebo menších).

Stejným způsobem spočítáme i 80. percentil:

\[P_{80} = \frac{(19+1) \cdot 80}{100}\] \[P_{20} = 16\]

80. percentil (P80) odpovídá 16. hodnotě, výšce 97 cm. V dané sadě dosahuje 80 % dívek výšky maximálně 97 cm.



Příklad výpočtu percentilů s lineární interpolací

Vyjdeme ze stejných dat jako v předchozím příkladu, přidáme pouze navíc jednu hodnotu (106 cm). V datovém souboru bude tedy 20 hodnot:

Pořadí hodnoty 1 2 3 4 5 6 7 8 9 10
Výška (cm) 85 86 87 88 89 90 90 91 92 92
Pořadí hodnoty 11 12 13 14 15 16 17 18 19 20
Výška (cm) 93 94 94 95 96 97 98 99 100 106


Hodnoty dosadíme do vzorce pro výpočet 20. percentilu:

\[P_k = \frac{(n+1) \cdot k}{100}\] \[P_{20} = \frac{(20+1) \cdot 20}{100}\] \[P_{20} = 4.2\]

Pořadí číslo 4,2 (\( x \)) neexistuje. Provedeme proto lineární interpolaci mezi hodnotami na 4. a 5. místě (\( x_1 \) a \( x_2 \)). Tyto hodnoty (88 a 89 cm, tedy \( y_1 \) a \( y_2 \)) dosadíme do příslušného vzorce (viz výše):

\[ y = y_1 + \left( \frac{x – x_1}{x_2 – x_1} \right) \cdot (y_2 – y_1) \] \[ y = 88 + \left( \frac{4.2 – 4}{5 – 4} \right) \cdot (89 – 89) \] \[ y = 88.2 \]

Hodnota 20. percentilu se tedy rovná 88,2 cm. Stejným postupem získáme u 80. percentilu k (neexistujícímu) pořadí 16,8. Po použití lineární interpolace nám vyjde hodnota 80. percentilu 97,8 cm.



Výpočet percentilů v Excelu

# buňky A1 až A100 obsahují naměřené hodnoty

# funkce pro výpočet percentilů
=PERCENTILE.INC(A1:A100, 0.05)  # pro výpočet P5
=PERCENTILE.INC(A1:A100, 0.2)  # pro výpočet P20
=PERCENTILE.INC(A1:A100, 0.8)  # pro výpočet P80
=PERCENTILE.INC(A1:A100, 0.95)  # pro výpočet P95


Výpočet percentilů v jazyce R

# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)

# funkce pro výpočet percentilů P5, P20, P80 a P95
quantile(data, probs = c(0.05, 0.2, 0.8, 0.95))

# funkce pro výpočet percentilů P5, P20, P80 a P95 lineární interpolací
quantile(data, probs = c(0.05, 0.2, 0.8, 0.95), type = 6)


Mohlo by vás zajímat

Naše kurzy

Analýza rozptylu v TIBCO Statistica

    Přihlásit na kurz Lektor: Mgr. Patrik Galeta, Ph.D. Naučte se v TIBCO Statistica správně používat funkce základní a pokročilé analýzy rozptylu a získané

Základy MS Power BI

Naučte se data z obchodu, financí či logistiky zpracovat do přehledných reportů – a naplánujte podle nich své další kroky.

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

[24. 4. 2024] Webinář ZDARMA: Jak získat 82% příspěvek na školení statistiky přes MPSV

Pod vedením zakladatele Datové akademie Dávida Tkáče mj. zjistíte: