Potocznie prawdopodobieństwo, to stopień, w jakim coś może się wydarzyć – czyli jak bardzo coś wydaje się możliwe, oczekiwane lub przewidywalne. Matematycy zamiast coś używają pojęcia zdarzenie. Zdarzenie jest rezultatem końcowym jakiegoś eksperymentu zwanego też obserwacją. Eksperyment może się skończyć na wiele sposobów/zdarzeń, każdy sposób z określonym prawdopodobieństwem. W najprostszym przykładzie eksperymentem jest rzut monetą, a zdarzeniem wypadnięcie orła lub reszki.
Często określa się prawdopodobieństwo liczbowo używając procentów. Jeżeli zdarzenie przykładowo ma 90% prawdopodobieństwo realizacji a eksperyment powtórzymy 100 razy, to będziemy oczekiwać, że zdarzenie powtórzy się około 90 razy. Nie dokładnie 90 razy, ale 90 plus minus kilka razy, no bo czasami się nie zdarzy (90% prawdopodobieństwo to nie pewność!). Z drugiej strony będziemy bardzo zdziwienie jeżeli w tych stu próbach nasze zdarzenie zdarzy się zaledwie 15 albo nawet 25 razy. Dlaczego będziemy zdziwnieni? Bo doświadczenie życiowe uczy nas że takie coś jest bardzo mało prawdopodobne (albo rzadkie).
Matematycy do określenia liczbowej wartości prawdopodobieństwa nie używają procentów tylko liczby z przedziały [0;1]. Wartość zero oznacza, że zdarzenie nie ma szans na realizację, a wartość jeden, że zdarzy się na pewno. Suma prawdopodobieństw wszystkich zdarzeń, którymi może się zakończyć eksperyment wynosi 1, no bo przecież któreś się zrealizuje tylko nie wiemy które. Na pewno wynikiem rzutu monetą będzie orzeł lub reszka.
Zmienną losową można sobie wyobrazić jako abstrakcyjny mechanizm generowania wartości liczbowych z określonymi prawdopodobieństwami. W tym mechaniźmie każdej możliwej do przyjęcia wartości zmiennej odpowiada prawdopodobieństwo zrealizowania się tejże wartości. Mamy więc zmienną, która może przyjąć wartości z pewnego zbioru, ale te wartości może przyjąć z określonymi prawdopodobieństwami, które fachowo określa się jako rozkład prawdopodobieństwa. Rozkład prawdopodobieństwa definiuje zmienną losową; jest to zwykle pewna funkcja matematyczna.
Jeżeli zmienną losową przyjmiemy za model populacji generalnej, to \(n\)-elementowa próba losowa jest \(n\)-krotną realizacją tejże zmiennej losowej. Na podstawie tej próby będziemy wnioskować o szczegółach populacji. Podstawową strategią wnioskowania będzie rzadkość. Omówmy tę strategię na prostym przykładzie.
Przykład: Oszacowanie odsetka kobiet w dużej populacji
Zachodzi przypuszczenie, że w pewnej dużej grupie osób odsetek kobiet wynosi 90%. Pobrano 200 osobową próbę losową, w której znalazły się 167 kobiety, tj. odsetek ten wyniósł 83,5%. Powstaje pytanie czy da się utrzymać przypuszczenie, co do 90% odsetka kobiet w populacji generalnej?
Wyżej wymienione doświadczenie życiowe uczy nas, że 200-krotne potórzenie eksperymentu, w którym wynik oznaczony jako „wylosowano kobietę” ma prawdopodobieństwo równe 90% powinien skutkować wylosowaniem w próbie około 180 kobiet. Jeżeli otrzymamy w próbie na przykład 50 kobiet, to raczej będziemy sceptyczni, że w populacji generalnej kobiet jest 90%. Będziemy sceptyczni, bo takie zdarzenie jest bardzo mało prawdopodobne, tj. jest rzadkie. Ogólnie będziemy uważali otrzymanie zdarzenia rzadkiego jako sygnał do odrzucenia przypuszczenia odnośnie populacji generalnej na zasadzie, że zrealizowało się coś co w zasadzie nie powinno się zdarzyć. Dzięki zastosowaniu metod statystyki matematycznej możemy precyzyjnie zmierzyć ową rzadkość, jako prawdopodobieństwo zrealizowania się określonego zdarzenia.
W naszym konkretnym przykładzie zrealizowało się zdarzenie, którego prawdopodobieństwo wynosi P(K=167) = 0,0014 (symbol \(P(X)\) oznacza prawdopodobieństwo zrealizowania się zdarzenia \(X\)). Prawdopodobieństwo otrzymania 180 kobiet wynosi \(P(K=180) = 0,0936\) czyli też nie jest za duże. Powinniśmy zatem porównywać nie pojedyncze zdarzenia, ale zbiory zdarzeń. Jeżeli nasza strategia oparta jest o rzadkości, to jakie zdarzenia są rzadkie? Różniące się znacznie na plus lub minus od 180. Prawdopodobieństwo zdarzenia \(P(K ≤ 167) = 0,003\)? Natomiast prawdopodobieństwo zdarzenia \(P(K ≥ 193) = 0,00015\). Suma tych prawdopodobieństw jest równa \(0,0031\). Wylosowanie 167 kobiet lub mniej albo 193 kobiet lub więcej przy założeniu, że odsetek kobiet w populacji generalnej jest równy 90% zdarza się 3 razy na tysiąc. To jest mniej więcej tak samo prawdopodobne jak ośmiokrotne wyrzucenie orła pod rząd.
Jeżeli przyjmiemy, że jak coś się zdarza 1 razy na 100 lub mniej to jest rzadkie, wówczas otrzymanie w próbie 167 kobiet lub mniej albo 193 lub więcej będzie skutkować decyzją o odrzuceniu przypuszczenia, że w populacji generalnej 90% to kobiety. Bez statystyki matematycznej odpowiedź na pytanie o związek pomiędzy liczbą kobiet w próbie a odsetkiem kobiet w populacji będzie wybitnie subiektywna. Dla jednych ekspertów różnica 180 ±13 kobiet, to będzie dużo, a dla innych to będzie ciągle za mało. Powiązanie rzadkości z prawdopodobieństwem i wykorzystanie modeli statystycznych pozwala na odpowiedź obiektywną.
A skąd znamy prawdopodobieństwa zdarzeń? Do tego właśnie używamy zmiennej losowej i rozkładu prawdopodobieństwa zmiennej losowej. W tym konkretnym przykładzie jest to zmienna o rozkładzie dwumianowym \(B(n,p)\), który to rozkład opisuje liczbę \(k\) sukcesów w ciągu \(n\) niezależnych prób, z których każda ma stałe prawdopodobieństwo sukcesu równe \(p\). „Sukcesem” jest wylosowanie kobiety z prawdopodobieństwem równym \(p=0,9\), zaś liczba prób jest równa \(n=200\). W każdym dobrym programie statystycznym jest funkcja, która obliczy prawdopodobieństwo \(k=0,...,n\), tj przyjęcia przez zmienną wartości od 0 (wylosowano samych mężczyzn) do \(n\) (wylosowano same kobiety). Rysunek przedstawia rozkład dwumianowy \(B(200, 0{,}9)\) w zakresie [160; 195]. Wartości prawdopodobieństw dla \(k < 160\) albo \(k > 195\) są praktycznie równe zero.
Zmienne losowe mogą przyjmować wartości ze zbioru skończonego (jak zmienna o rozkładzie dwumianowym) lub nieskończonego ale przeliczalnego (czyli takiego, którego elementy możemy ponumerować, nawet do nieskończoności) albo ze zbioru liczb rzeczywistych. W tym drugim przypadku mówimy o zmiennych losowych ciągłych. Dla zmiennych losowych ciągłych nie wyznacza się prawdopodobieństwa dla każdej wartości zmiennej, ale możliwe jest określenie prawdopodobieństwa dla każdego przedziału liczbowego. Najważniejszym rozkładem w teorii statystyki jest rozkład normalny, który jest rozkładem zmiennej losowej ciągłej.
Rozkład normalny jest określony na całym zbiorze liczb rzeczywistych, czyli zmienna losowa o rozkładzie normalnym może przyjąć dowolną wartość rzeczywistą, nawet bardzo dużą lub bardzo małą. Dla każdego przedziału liczbowego określone jest prawdopodobieństwo przyjęcia przez zmienną wartości z tego przedziału. Prawdopodobieństwo punktowe wynosi zero (jak w każdej zmiennej ciągłej). Rozkład normalny jest całkowicie zdefiniowany za pomocą dwóch parametrów, średniej oraz odchylenia standardowego. Fakt, że zmienna \(X\) ma rozkład normalny o wartości średniej równej \(\mu\) oraz odchyleniu standardowym równym \(\sigma\) jest symbolicznie zapisywany jako \(X \sim N(\mu, \sigma)\). Rysunek przedstawia rozkład \(N(5, 2)\).
Zwróćmy uwagę, że oś \(OY\) jest oznaczona jako „gęstość” a nie prawdopodobieństwo. Prawdopodobieństwo jest bowiem równe polu pod krzywą. Pole pod krzywą na całej osi liczbowej, tj od minus do plus nieskończoności jest równe 1. Pole pod krzywą pomiędzy punktami \(x_1\) oraz \(x_2\) jest zaś równe prawdopodobieństwu przyjęcia wartości z przedziału \([x_1;x_2]\). Na wykresie zaznaczono prawdopodobieństwa przyjęcia wartości z przedziału \([-1;1]\) oraz \([4;6]\), które wynoszą odpowiednio 0,021 oraz 0,3829.
Funkcja, która wyznacza prawdopodobieństwo \(P(X < x)\), tj. przyjęcia przez zmienną wartości \(x\) lub mniejszej nazywa się dystrybuantą zmiennej losowej ciągłej. Aby wyznaczyć prawdopodobieństwo przyjęcia przez zmienną losową o rozkładzie normalnym wartości z przedziału \([x_1;x_2]\) wystarczy wykonać odejmowanie \(F(x_2) - F(x_1)\), gdzie \(F(x)\) oznacza wartość dystrybuanty w punkcie \(x\). W każdym programie statystycznym a nawet w arkuszach kalkulacyjnych jest funkcja obliczająca wartość dystrybuanty rozkładu normalnego.
Jeżeli wylosujemy 1000 liczb z rozkładu normalnego, to należy oczekiwać, że:
Otrzymanie wartości normalnej spoza przedziału \(\mu ± 3\sigma\) jest teoretycznie możliwe ale praktycznie bardzo mało prawdopodobne, ponieważ prawdopodobieństwo to wynosi 0,0027. To jest mniej więcej prawdopodobieństwo wyrzucenia 9 orłów pod rząd. Otrzymanie wartości \(\mu ± 4\sigma\) to już w ogóle abstrakcja, bo wynosi około 0,0000633. Coś co się zdarza około sześć razy na 100 tysięcy prób. To jest mniej więcej prawdopodobieństwo wyrzucenia 14 orłów pod rząd.
Rozkład normalny dobrze opisuje wiele zjawisk występujących zarówno w przyrodzie, jak i w naukach społecznych. Przykładami mogą być wzrost, masa ciała, temperatura ciała, ciśnienie tętnicze, poziom hemoglobiny i nieskończenie wiele innych.
Zmienne losowe \(X\) oraz \(Y\) są niezależne jeżeli znajomość wartości jednej nie zmienia rozkładu drugiej. Można to formalnie zapisać jako \(P(X≤x,Y≤y)=P(X≤x)⋅P(Y≤y)\) dla wszystkich \(x\), \(y\). Przykładowo, w losowych odstępach czasu mierzymy masę ciała pewnego osobnika. Masa ciała raczej nie zmienia się drastycznie. Znając masę ciała dla pomiaru \(t\), mamy jakieś pojęcie o wartości masy ciała dla pomiaru \(t+1\). Losowo mierzymy masę ciała dla pewnej dużej grupy osób. Znając wartość pomiaru dla osoby \(n\), nie mamy absolutnie żadnej informacji na temat osoby \(n+1\). Może to być ktoś z dużą nadwagą, chudy lub przeciętny.
Zmienne losowe \(X_1,...,X_n\) tworzą n-elementową prostą próbę losową, jeżeli \(X_1,...X_n\) są niezależnymi zmiennymi losowymi oraz każda zmienna \(X_i\), \(i=1,...,n\) ma ten sam rozkład.
Średnią z próby nazywamy wielkość \(\bar X = \frac{X_1 + ... + X_n}{n}\)
Załóżmu, że zmienna losowa X ma w populacji rozkład \(N(\mu, \sigma)\), przy czym nie znamy wartości \(\mu\) ale znamy wartość \(\sigma\) (jest to mało realistycznie założenie, ale od czegoś trzeba zacząć). Wówczas średnia z próby ma rozkład \(N(\mu, \frac{\sigma}{\sqrt{n}})\).
Przykład: Oszacowanie średniej masy ciała w populacji o rozkładzie normalnym
Zachodzi przypuszczenie, że w pewnej dużej grupie osób średnia masa ciała wynosi 82 kilogramy. Znamy za to prawdziwą wartość odchylenia standardowego w tej populacji i wynosi ono \(\sigma=20,2\) kilogramy. Pobrano 30 osobową próbę losową. Średnia masa ciała w próbie wyniosła 77,9 kilogramów. Czy przypuszczenie odnośnie średniej w populacji jest uzasadnione pomimo, że średnia w próbie różni się od hipotetycznej średniej o 4,1 kilogramy?
Wiemy, że rozkład średniej z próby jest w przybliżeniu normalny \(N(\mu, \frac{\sigma}{\sqrt{n}})\). Nasze przypuszczenie sprowadza się do hipotezy, że \(\mu=82\) kilogramy. Żeby tą hipotezę zweryfikować w sposób podobny do tego, który zastosowaliśmy w poprzednim przykładzie wystarczy obliczyć prawdopodobieństwo przyjęcia przez zmienną o rozkładzie normalnym \(N(82, 3{,}688)\) wartości 77,9 kilogramów oraz mniejszej lub 86,1 kilogramy oraz więcej. Na rysunku jest to suma czerwonych obszarów.
To prawdopodobieństwo jest równe 0.1331305 + 0.1331305 = 0.2662611. Tak wysokie prawdopodobieństwo trudno nazwać zdarzeniem rzadkim. Wniosek zatem jest taki, że nie ma podstaw do twierdzenia iż średnia masa ciała w tej grupie jest różna od 82 kilogramów.
A gdybyśmy zwiększyli próbę dziesięciokrotnie do 300 osób? Wówczas rozkład średniej z próby jest rozkładem normalnym o średniej – tak jak poprzednio – 82 kilogramy, ale ze znacznie mniejszym odchyleniem standardowym równym \(20{,}2\sqrt{300} \approx 1.166\). Oczywiście prawdopodobieństwo przyjęcia przez tę zmienną wartości mniejszej od 77,9 lub większej 86,1 kilogramów też jest mniejsze i wynosi 0.0002194 + 0.0002194 = 0.0004388. Zwiększenie próby powoduje, że wyciągamy inny wniosek: średnia w populacji raczej jest różna od 82 kilogramów. Wraz ze wzrostem liczebności próby test jest coraz bardziej czuły w tym sensie że coraz mniejsza różnica skutkuje zdarzeniem rzadkim.
Rozkład normalny nie tylko dobrze opisuje rozkład średniej z próby, ale także wiele innych rozkładów zmiennych losowych, w tym rozkładów nieznanych:-). Jest to drugi powód — obok jego powszechności w otaczającym nas świecie — dla którego rozkład normalny jest najważniejszym rozkładem w teorii statystyki matematycznej.
Fundamentalne znaczenie dla wnioskowania statystycznego ma Centralne Twierdzenie Graniczne, które mówi, że średnia z \(n\)-elementowej próby losowej, pobranej z dowolnego rozkładu o średniej \(\mu\) oraz odchyleniu standardowym \(\sigma\), ma przybliżony rozkład normalny \(N(\mu, \frac{\sigma}{\sqrt{n}})\) oraz, że przybliżenie to jest tym dokładniejsze im większa jest wartość \(n\), czyli liczebność próby. W praktyce dla \(n>30\) można już korzystać z rozkładu normalnego jako dobrego przybliżenia rozkładu średniej z próby \(\bar X\).
Wariancją z próby nazywamy statystykę określoną wzorem:
\[\begin{equation} s^2 = \frac{\text{suma kwadratów odchyleń od średniej}}{n-1} \end{equation}\]
Zwróćmy uwagę że w mianowniku jest \(n-1\), a nie \(n\), jak w „normalnej” wariancji (tj.
wariancji dla całej populacji). Przykładowo w arkuszu Excel do
obliczenia wariancji dla całej populacji należy stosować
var.p a dla obliczenia wariancji z próby
var.s. W przypadku korzystania z Arkusza Google używamy
odpowiednio var.p oraz var.
Pierwiastek kwadratowy z wariancji z próby nazywamy odchyleniem
standardowym z próby. Jeżeli chcemy policzyć odchylenie standardowe to
używamy oczywiście funkcji zaczynających się od stdev
zamiast var.
Załóżmy, że losujemy próbę z populacji, o której wiemy, że ma rozkład normalny o nieznanej wartości \(\mu\) oraz nieznanej wartości \(\sigma\). Wówczas zmienna losowa \(T\) określona wzorem:
\[\begin{equation} T = \frac{\bar X - \mu}{s/\sqrt{n}} \end{equation}\]
ma rozkład \(t\)-Studenta z \(n-1\) stopniami swobody. Przy czym liczba stopni swobody to barokowa nazwa jedynego parametru tego rozkładu, który jest równy liczebności próby pomniejszonej o jeden. Im mniejsza liczebność próby, tym rozkład \(t\)-Studenta bardziej różni się od rozkładu normalnego. Jeżeli \(n\geq 30\) to rozkład \(t\)-Studenta można dobrze przybliżyć standardowym rozkładem normalnym. Rysunek przedstawia porównanie rozkładu normalnego \(N(5,2)\) z rozkładem \(t\)-Studenta o 4 stopniach swobody, co odpowiada nierealistycznie śmiesznie małej próbie o liczebności \(n=5\).
Przyjęcie przez zmienną o rozkładzie \(N(5,2)\) wartości z przedziału \(5±3\sigma\) wynosi 0.9973. Dla 4 stopni swobody prawdopodobieństwo przyjęcia przez zmienną o rozkładzie t-Studenta wartości z tego samego przedziały wynosi zaś 0.9601
Przykład: Oszacowanie średniej masy ciała w populacji o dowolnym rozkładzie
Zachodzi przypuszczenie, że w pewnej dużej grupie osób średnia masa ciała wynosi 82 kilogramy. Pobrano 30 osobową próbę losową. Średnia masa ciała w próbie wyniosła 77,9 kilogramów, odchylenie standardowe w próbie jest równe \(s=20,2\) kilogramów. Czy przypuszczenie odnośnie średniej w populacji jest uzasadnione pomimo, że średnia w próbie różni się od hipotetycznej średniej o 4,1 kilogramy?
Nie znamy konkretnego kształtu rozkładu, z którego pobrano dużą próbę, ale na mocy Centralnego Twierdzenia Granicznego możemy przyjąć, że rozkład średniej z próby jest zbliżony do rozkładu normalnego; za nieznaną wartość \(\sigma\) przyjmiemy wartość \(s\) (dlaczego wyjaśniono w następnym punkcie).
Obliczamy wartość statystyki \(T\), która wynosi -1.112. Jakie jest prawdopodobieństwo przyjęcia przez zmienną \(T\) wartości -1.112 lub mniejszej albo 1.112 i większej? Prawdopodobieństwo to wynosi 0.1375456 + 0.1375456 = 0.2750913. Tak wysokie prawdopodobieństwo trudno nazwać zdarzeniem rzadkim. Nie ma podstaw do twierdzenia, iż średnia masa ciała w badanej grupie jest różna od 82 kilogramów.
Częstym zabiegiem w statystyce jest policzenie sumy kwadratów odchyleń czegoś od czegoś. Wariancja może być przykładem zastosowania tego zabiegu, ale jest wiele innych współczynników wykorzystujących ten trick.
Jeśli \(Z_1, Z_2,...,Z_n\) są niezależnymi zmiennymi losowymi, z których każda ma rozkład normalny \(N(0,1)\), to zmienna losowa:
\[\begin{equation} χ^2 = Z_1^2 + Z_2^2 +⋯+Z_n^2 \end{equation}\] ma rozkład chi-kwadrat (albo \(χ^2\)) z \(n\) stopniami swobody, gdzie \(n\) to liczba sumowanych zmiennych. Cały ten rozkład o dziwnej nazwie może się wydać mocno teoretyczny i przez to zupełnie nieprzydatny. Rozkład normalny o średniej zero i odchyleniu standardowym jeden? Co w realnym świecie ma taki rozkład? Nie ma nic bardziej mylnego, o czym świadczy kolejny przykład.
Przykład: Oszacowanie skuteczności terapii
Zastosowano trzy sposoby uśmierzenia bólu w trzech grupach losowo wybranych pacjentów. Po zastosowanej terapii pacjenci ocenili czy ich stan się poprawił (Poprawa) czy się nie poprawił (Brak). Rezultaty przedstawiono w tabeli.
| Terapia | Poprawa | Brak | Razem |
|---|---|---|---|
| A | 11 | 5 | 16 |
| B | 15 | 3 | 18 |
| C | 9 | 11 | 20 |
| Razem | 35 | 19 | 54 |
Przypuszczamy, że wszystkie trzy terapie dają ten sam wynik. Jak to zweryfikować? No najlepiej kierując się zdrowym rozsądkiem.
Odsetek tych, którym się poprawiło bez względu na zastosowaną metodę wynosi \(35/54 \cdot 100 = 64{,}8\)%. Odsetek tych, którym się nie poprawiło jest równy \(19/54 \cdot 100 = 35,2\)%. To samo można wyrazić w języku prawdopodobieństwa: prawdopodobieństwo, że terapia przyniesie poprawę, wynosi 0,648, a prawdopodobieństwo, że nie przyniesie poprawy – 0,352. Gdyby zastosowane terapie nie różniły się skutecznością należałoby oczekiwać tego samego prawdopodobieństwa poprawy/braku poprawy dla każdej z porównywanych terapii.
Jeżeli zatem prawdopodobieństwo poprawy wynosi 0,648 a metodę A zastosowano do 16 pacjentów, to należałoby oczekiwać \(0,648 \cdot 16 \approx 10,4\) pacjentów, którzy ocenili że ich stan się poprawił. Dla metody B będzie to analogicznie \(0,648 \cdot 18 \approx 11{,}7\), zaś dla metody C \(0,648 \cdot 20 \approx 13{,}0\). Wszystkie te „oczekiwane” liczebności zestawiono w tabeli
| Terapia | Poprawa.O | Brak.O | Razem |
|---|---|---|---|
| A | 10.37 | 5.63 | 16 |
| B | 11.67 | 6.33 | 18 |
| C | 12.96 | 7.04 | 20 |
| Razem | 35.00 | 19.00 | 54 |
Tabela przedstawia idealne liczebności, wynikające z przyjęcia założenia że terapie A, B oraz C dają ten sam rezultat i w związku z tym prawdopodobieństwo uzyskania/nie uzyskania poprawy w każdej z nich jest takie same. Ponieważ jak widać z pierwszej tabeli faktycznie zaobserwowane liczebności są inne należy teraz ocenić czy zaobserwowane różnice są wyłącznie rezultatem błędu statystycznego czy też mają bardziej systematyczny charakter.
Do tej oceny można wykorzystać różnice pomiędzy wartością faktycznie zaobserwowaną (pierwsza tabela) oraz wartością oczekiwaną gdyby przypuszczenie co do tej samej skuteczności terapii było prawdziwe (druga tabela). Im suma tych różnic jest większa tym gorzej dla przypuszczenia o tej samej skuteczności.
Problem w tym, że suma różnic zawsze będzie równa zeru, bo różnice na plus oraz na minus się dokładnie wyzerują bez względu jak duże będą co do bezwzględnej wielkości. Na szczęście udowodniono, że suma kwadratów odchyleń:
\[\begin{equation} χ2 = \sum \frac{(\text{wartość oczekiwana} - \text{wartość faktyczna})^2}{\text{wartość oczekiwana}} \end{equation}\] ma rozkład \(χ2\) z \((m-1)(n-1)\) stopniami swobody, gdzie \(m\) jest liczbą wierszy a \(n\) jest liczbą kolumn tabeli (bez wiersza/kolumny „razem”).
Wartość sumy \(χ2\) wynosi 6.26. Liczba stopni swobody zaś wynosi \((3 -1)\cdot(2-1) = 2\). Jak zawsze rzadkość jest przesłanką za odrzuceniem hipotezy zerowej. Zwróćmy uwagę, że kwadraty odchyleń mogą być tylko dodatnie – im większe tym gorzej (dla hipotezy zerowej), zatem należy teraz tylko ustalić jakie jest prawdopodobieństwo że zmienna \(χ2\) przyjmie wartość większą od 6.26. W każdym programie statystycznym, a nawet w arkuszach kalkulacyjnych są funkcje obliczające stosowne prawdopodobieństwo. W naszym przykładzie wynosi ono 0.0437457.
Jeżeli przyjmiemy, że jak coś się zdarza 1 razy na 100 lub mniej to jest rzadkie; to nie ma podstaw do odrzucenia przypuszczenia że terapie A, B i C mają identyczną skuteczność. Natomiast jeżeli nieco poluzujemy nasze kryterium i przyjmiemy że jak coś zdarza 5 razy na 100 lub mniej to jest rzadkie to wtedy wniosek jest inny: skuteczność terapii A, B i C istotnie się różni.
Wnioskowanie to dział statystyki, który zajmuje się wyciąganiem wniosków o całej populacji na podstawie próby losowej. Jednym ze sposobów wnioskowania jest estymacja zwana także szacowaniem.
Na marginesie, uwaga językowa: w języku polskim szacowanie, to przybliżone określanie wartości jakiejś wielkości przy posiadaniu niepełnych danych, występowania zakłóceń lub stosowaniu uproszczonego modelu opisującego kształtowanie się tej wielkości.
Dowolną funkcję zmiennych tworzących próbę losową \(f(X_1,...,X_n)\) nazywamy statystyką. Przykładami statystyk jest średnia z próby \(\bar X\), wariancja z próby \(s^2\) albo wskaźnik struktury z próby. Statystyka z próby losowej, która służy do szacowania wartości nieznanego parametru populacji nazywana jest estymatorem. Przykładowo estymatorem średniej jest średnia z próby.
Każdy estymator jest zmienną losową a jego wartość (ocena parametru) zależy od wybranej próby. Dla jednej próby ocena może być bliska wartości prawdziwej, a dla innej próby różnica między oceną a prawdziwą wartością może być większa.
Estymator \(\hat E\) parametru \(e\) nazywamy nieobciążonym, jeżeli wartość średnia estymatora jest równa wartości szacowanego parametru. Własność tę można intuicyjnie zinterpretować w następujący sposób: gdyby powtórzyć losowanie próby \(k\) razy i dla każdej próby obliczyć wartość estymatora \(\hat e_1, \hat e_2,…,\hat e_k\), to średnia z tych wartości \(\bar{\hat{e}}\) zbliżałaby się do \(e\), jeżeli \(k\) jest duże.
Estymator \(\hat E\) parametru \(e\) nazywamy zgodnym, jeżeli wraz ze wzrostem liczebności próby prawdopodobieństwo, że estymator przyjmie wartości bliskie prawdziwej wartości parametru \(e\), dąży do 1. Innymi słowy im większa liczebność próby \(n\), tym dokładniejsze są oszacowania parametru \(e\) ponieważ estymator coraz silniej skupia się wokół prawdziwej wartości.
Jeżeli mamy dwa różne estymatory służące do oszacowania tego samego parametru i oba są nieobciążone oraz zgodne, to wybieramy ten, który ma mniejszą wariancję. Estymator o najmniejszej wariancji nazywamy efektywnym.
Dobry estymator powinien więc spełniać trzy kluczowe własności: być nieobciążony, zgodny oraz efektywny (czyli charakteryzować się możliwie najmniejszą wariancją).
Przykładowo można matematycznie wykazać, że dla estymacji średniej w populacji estymatorem o minimalnej możliwej wariancji jest średnia arytmetyczna z próby.
Są dwa rodzaje estymacji: estymacja punktowa oraz estymacja przedziałowa. Estymacja punktowa polega na podaniu jednej liczby jako przybliżonej wartości szacowanego parametru populacji. Tą jedną liczbą jest oczywiście wartość estymatora (nieobciążonego, zgodnego i efektywnego) obliczona dla pobranej próby. Wadą estymacji punktowej jest brak oszacowania błędu estymacji, co oznacza, że nie wiemy jak bardzo możemy się mylić.
Estymatorem punktowym średniej jest średnia z próby, a estymatorem punktowym proporcji/ryzyka jest proporcja/ryzyko z próby.
Estymacja przedziałowa polega na wyznaczeniu przedziału wartości, w którym z określonym poziomem ufności znajduje się rzeczywista wartość parametru populacji. Choć potocznie myślimy tu o prawdopodobieństwie, formalnie poprawniej jest mówić o poziomie ufności, który wyraża stopień pewności związanej z procedurą estymacji, a nie z samym parametrem.
Poziom ufności to miara określająca, jak często przedziały wyznaczane tą samą metodą będą zawierały prawdziwą wartość parametru, gdyby estymację powtarzać wielokrotnie. Jest on wyrażany w procentach, np. 95%. Określenie „95% przedział ufności” oznacza, że w długiej serii losowań próby i budowania takich przedziałów — około 95 z 100 przedziałów będzie zawierać rzeczywistą wartość parametru, a pozostałe 5 – nie.
Zamiast „95% przedział ufności zawiera prawdziwą wartość parametru” mówi się „na poziomie ufności równym 95% przedział zawiera prawdziwą wartość parametru”. Z jakiegoś powodu poziom ufności oznacza się symbolicznie jako \(1-\alpha\).
Ideę konstruowania przedziałów ufności zilustrujemy na przykładzie pobrania próby losowej z rozkładu normalnego. Przypomnijmy, że jeżeli próba \(X_1,...,X_n\) została pobrana z rozkładu normalnego \(N(\mu, \sigma)\), to wówczas zmienna losowa \(T\) określona wzorem:
\[\begin{equation} T = \frac{\bar X - \mu}{s/\sqrt{n}} \end{equation}\] ma rozkład \(t\)-Studenta z \(n-1\) stopniami swobody. Skoro tak, to możliwe jest wyznaczenie symetrycznego przedziału ufności \((-t_0, t_0)\), takiego że będzie on zawierał 95% wartości zmiennej \(T\), co można zapisać jako (przypominamy, że symbol \(P(...)\) oznacza prawdopodobieństwo): \[\begin{equation} P(-t_0 < \frac{\bar X -\mu}{s/\sqrt{n}} < t_0 ) = 0{,}95 \end{equation}\] albo po elementarnym przekształceniu: \[\begin{equation} P(\bar X -t_0 s/\sqrt{n} < \mu < \bar X + t_0 s/\sqrt{n} ) = 0{,}95 \end{equation}\] Ideę przedstawiono na rysunku.
Oczywiście w praktyce nie liczmy końców przedziałów „na piechotę”. Każdy porządny program statystyczny policzy to za nas. Powyższe rozważania mają jednak na celu zrozumienie samej metody.
W estymacji przedziałowej istnieje zależność między precyzją szacowania (określaną przez długość przedziału), a wiarygodnością szacowania (czyli poziomem ufności). Precyzja szacowania zależy także od zmienności populacji generalnej (\(s\)) oraz wielkości próby \(n\). Im wyższy jest poziom ufności tym przedział będzie szerszy. Im większa będzie liczebność próby tym będzie on węższy. Najczęściej przyjmowanym w praktyce poziomem ufności jest 0,95, ale można przyjąć też 0,9 albo 0,99. Programy komputerowe domyślnie przyjmują 0,95.
Wiele analiz statystycznych polega na porównaniu. Przykładowo w przykładzie dotyczącym odsetka kobiet w populacji porównywaliśmy odsetek postulowany z tym który otrzymaliśmy w próbie, a w przykładzie dotyczącym średniej masy ciała porównywaliśmy hipotetyczną średnią masę ciała ze średnią z próby. Kolejnym przykładem może być sprawdzenie czy średnia wieku w dwóch populacjach jest równa. Załóżmy, że mamy dwie próby pochodzące z pewnych populacji mężczyzn (średnia wieku 46,1 lat) oraz kobiet (45,2 lata). Różnica wynosi 1,9 lat i może być spowodowana błędem przypadkowym (tj. gdybyśmy wylosowali jeszcze raz dwie próby, to wynik byłby zupełnie odmienny, np. 45,8 vs 45,9) i/lub wynikać z tego, że faktycznie mężczyźni są przeciętnie starsi od kobiet. W każdej z tego typu sytuacji stosujemy metodę zwaną testem statystycznym.
Test statystyczny to procedura składająca się z następujących kroków:
Stawiamy hipotezę zerową (\(H_0\)) i alternatywną (\(H_1\)).
Wybieramy odpowiednią statystykę testu.
Obliczamy wartość statystyki testu, oraz prawdopodobieństwo \(p\) otrzymania tej wartości lub większej.
Ustalamy poziom istotności \(\alpha\).
Wnioskujemy: jeżeli \(p < \alpha\) należy odrzucić \(H_0\); w przeciwnym wypadku nie ma do tego podstaw.
Test zaczyna się od postawienia hipotezy, która jest pewnym przypuszczeniem odnośnie badanego zjawiska. Jest to tak zwana hipoteza zerowa (oznaczana symbolicznie jako \(H_0\)), która zwykle zakłada, że nie ma efektu, różnicy ani związku między badanymi zjawiskami. Dla przykładu pobrano dwie próby losowe: jedną z populacji kobiet, a drugą z populacji mężczyzn. Przypuszczamy, że średni wiek w populacji kobiet i mężczyzn różni się, jednak hipotezę formułujemy w postaci \(\mu_{m} = \mu_{k}\), a nie \(\mu_{m} \neq \mu_{k}\) (gdzie \(\mu_{m}\), \(\mu_{k}\) to odpowiednio średni wiek mężczyzn i kobiet).
Następnie należy postawić hipotezę alternatywną, którą może być proste zaprzeczenie hipotezy zerowej (\(\mu_{m} \ne \mu_{k}\)), lub która może być bardziej szczegółowa, jeżeli dysponujemy jakimiś pozastatystycznymi informacjami (np. że średni wiek kobiet nie może być większy od średniego wieku mężczyzn, tzn. \(\mu_{k} < \mu_{m}\)). Jeżeli hipoteza alternatywna ma postać zaprzeczenia hipotezy zerowej, to test nazywamy dwustronnym. Jeżeli hipoteza alternatywna określa, że coś jest większe lub mniejsze od czegoś a nie, że jest różne od czegoś, to test nazywamy jednostronnym.
Z powyższego wynika, że chcemy udowodnić prawdziwość hipotezy alternatywnej poprzez stwierdzenie, że hipoteza zerowa jest fałszywa. Dlaczego postępujemy w ten sposób, a nie bezpośrednio dowodzimy prawdziwości \(H_0\) – wyjaśnimy za chwilę.
Hipotezy weryfikujemy za pomocą statystykę testowej czyli zmiennej losowej, której rozkład prawdopodobieństwa jest znany przy założeniu, że hipoteza zerowa jest prawdziwa. Konkretna postać statystyki testowej zależy od tego, co jest przedmiotem testowania, od wielkości próby oraz ewentualnie od kilku dodatkowych detali. Jaką konkretną statystykę testu wybrać ustalamy konsultując się z podręcznikiem statystyki, np. z tą książką.
Kontynuując przykład, nietrudno się domyślić, że statystyką testową w teście różnicy średnich jest różnica średnich w próbie, tj. \(\bar x_m - \bar x_k\), gdzie \(\bar x_m\) oznacza średnią dla próby mężczyzn, a \(\bar x_k\) – średnią dla próby kobiet. Dokładniej mówiąc, jest to zmodyfikowana różnica, która uwzględnia liczebność próby oraz zmienność obu populacji. Dlatego faktyczna postać formuły obliczającej statystykę testową jest bardziej złożona niż prosta różnica \(\bar x_m - \bar x_k\). Załóżmy, że otrzymana wartość statystyki testu (zmodyfikowanej różnicy) wynosi \(t^*\) (taką informację oczywiście odczytujemy z wydruku programu komputerowego, nie liczymy niczego „na piechotę” albo „w arkuszu”).
Konsultując się z teorią wnioskowania statystycznego ustalamy, że przy założeniu prawdziwości hipotezy zerowej \(H_0\), statystyka testowa ma rozkład \(t\)-Studenta (oznaczmy ją \(T\); jeżeli \(\bar x_m > \bar x_k\) to \(T>0\), a jeżeli \(\bar x_m < \bar x_k\), to \(T<0\)). Duże wartości tej statystyki, które pojawiają się z coraz mniejszym prawdopodobieństwem, przemawiają na korzyść hipotezy alternatywnej, natomiast wartości bliskie zeru wspierają hipotezę zerową.
Brzmi znajomo? Coraz większa różnica pomiędzym \(\bar x_m\) a \(\bar x_k\), skutkująca coraz większą wartością statystyki \(T\), jest zdarzeniem coraz rzadszym. Należy obliczyć prawdopodobieństwo \(p\), odpowiadające wystąpieniu różnicy, którą otrzymaliśmy, lub jeszcze większej. Jeżeli test jest dwustronny zakładamy, że różnica może być na plus lub na minus, tj. obliczamy prawdopodobieństwo tego, że \(T<-t^*\) lub \(T>t^*\). Jeżeli test jest jednostronny zakładamy tylko różnice na plus lub na minus (w zależności od postaci hipotezy alternatywnej). Dla testu prawostronnego będzie to prawdopodobieństwo tego, że \(T > t^*\).
Należy się teraz zdecydować na konkretny poziom rzadkości, który świadczy przeciwko hipotezie zerowej. Poziom ten nazywa się poziomem istotności. Określa on, jak często możemy się pomylić, odrzucając hipotezę zerową, która jest prawdziwa. Poziom istotności jest symbolicznie oznaczany jako \(\alpha\). Przyjmując \(\alpha=0{,}05\), zakładamy, że w 5 na 100 przypadków możemy popełnić błąd odrzucenia prawdziwej hipotezy zerowej. Jest to najczęściej stosowana w praktyce wartość \(\alpha\). Graficzną interpretację testu dwustronnego oraz jednostronnego przedstawiono na rysunku.
Ale jest jeszcze drugi przypadek popełnienia błędu: nie odrzucamy hipotezy zerowej, mimo że jest ona fałszywa. W testach statystycznych nie określa się prawdopodobieństwa popełnienia tego błędu, a w związku z tym nie można przyjąć hipotezy zerowej (bo nie znamy ryzyka popełnienia błędu). W konsekwencji hipotezę zerową albo się odrzuca, albo nie ma podstaw do jej odrzucenia.
Ostatni krok procedury testowej – wnioskowanie – sprowadza się do porówania \(p\) z \(\alpha\). Jeżeli \(p \leq \alpha\), to odrzucamy hipotezę zerową (różnica jest istotna statystycznie). Jeżeli \(p > \alpha\), to nie ma podstaw do jej odrzucenia, co oznacza że nie udało nam się ustalić że \(\mu_{k}\) oraz \(\mu_{m}\) się różnią.
Kontynuując przykład przyjmijmy, że prawdopodobieństwo wystąpienia różnicy 1,9 lat (i większej na plus lub minus) obliczone na podstawie odpowiedniej statystyki testu wynosi \(p=0{,}2\), co znaczy, że coś takiego zdarza się względnie często – dwa razy na 10 pobranych prób.
Załóżmy z kolei, że ta różnica wyniosła 3,2 lata. Prawdopodobieństwo wystąpienia takiej różnicy (i większej na plus lub minus) wynosi \(p=0{,}019\), co znaczy, że coś takiego zdarza się względnie rzadko – 19 razy na tysiąc prób.
Przyjmując \(\alpha=0{,}05\), powiemy że w pierwszym przypadku że nie ma podstaw do odrzucenia hipotezy \(H_0\). Różnica 1,9 lat wynika z przypadku. W drugim wypadku powiemy, że hipoteza jest fałszywa, bo zdarzyło się coś, co nie powinno się zdarzyć.
Przykład: Porównanie średniego poziom glukozy w dwu grupach
Zmierzono średni poziom glukozy u 20 pacjentek. Wśród 13 z nich stwierdzono cukrzycę, a u 7 nie stwierdzono tej choroby. Szczegółowe wartości poziomu glukozy w obu grupach przedstawiono poniżej:
pacjentki z cukrzycą: 148, 183, 137, 78, 197, 125, 168, 189, 166, 100, 118, 107, 115
pacjentki bez cukrzycy: 85, 89, 116, 115, 110, 139, 103
Średni poziom glukozy w grupie chorych na cukrzycę wyniósł 140.846 (odchylenie standardowe 37.516), zaś w grupie nie chorującej na cukrzycę wyniósł 108.143 (odchylenie standardowe 18.225). Różnica średnich w próbach wynosi zatem 32.703.
Stawiamy hipotezę, że średni poziom glukozy w obu grupach jest jednakowy, wobec hipotezy alternatywnej że poziom glukozy w grupie chorych na cukrzycę jest wyższy. Zwracamy uwagę że nasz test jest jednostronny.
Konsultując się z teorią wnioskowania ustalamy, że dla małej próby, należy zastosować test pn. \(t\)-Welcha (więcej na ten temat w następnym rozdziale)
Obliczamy, za pomocą stosownego programu prawdopodobieństwo wystąpienia tak dużej różnicy, które wynosi \(p=0.0086808\).
Przyjmujemy typowy poziom istotności \(\alpha=0{,}05\). Zwykle nie wymaga to żadnych dodatkowych działań, ponieważ \(\alpha=0{,}05\) jest domyślnym poziomem w większości programów statystycznych.
Na poziomie istotności równym \(\alpha = 0{,}05\) hipotezę zerową należy odrzucić. Średni poziom glukozy chorych na cukrzycę jest istotnie wyższy.
Można testować hipotezy na temat wartości parametrów, ale można też testować przypuszczenia o charakterze mniej konkretnym. Na przykład, że dwie zmienne są niezależne (rodzaj zastosowanej terapii i wynik terapii w przykładzie „oszacowanie skuteczności terapii”) albo że dwa rozkłady są podobne do siebie (rozkłady, nie średnie). Takie hipotezy/testy określa się jako nieparametryczne. Przykładami są testy niezależności chi-kwadrat albo normalności Shapiro-Wilka (opisane w następnym rozdziale).
Oczywiste, ale powtórzmy: przypuszczenia o charakterze nieparametrycznym możemy tylko testować (sprawdzać hipotezy); nie obliczamy wtedy ani ocen, ani nie wyznaczamy przedziałów ufności.
Aby przekonać czytelników, że przedstawione powyżej teorie nie są jedynie matematyczną abstrakcją, lecz mają odzwierciedlenie w otaczającym nas świecie, w tym punkcie przedstawimy wyniki dwóch eksperymentów opartych na rzeczywistych (a nie wygenerowanych komputerowo) danych. Oczywiście nie będziemy empirycznie weryfikować całej teorii – ograniczymy się jedynie do Centralnego Twierdzenia Granicznego, ze względu na jego, można powiedzieć, centralne znaczenie.
W wyborach samorządowych w Polsce w roku 2018 o mandat radnego sejmików wojewódzkich ubiegało się 7076 kandydatów. Znamy szczegółowe dane odnośnie do wieku każdego kandydata, bo to zostało publicznie podane przez Państwową Komisję Wyborczą. Średnio kandydat miał 46.24 lat, a odchylenie standardowe wieku wyniosło 14.61 lat. Rozkład jest z jakichś powodów dwumodalny (por. rysunek @ref(fig:wiekKnR)).
Rozkład wieku kandydatów na radnych
Traktujemy kandydatów na radnych jako populację generalną, dla której znamy prawdziwe wartości średniej i odchylenia standardowego (odpowiednio \(\mu\) oraz \(\sigma\)). Szacujemy wartość średnią w „populacji” na podstawie \(n\)-elementowej próby. Losowanie próby powtarzamy 1000 razy. Dla obliczonych średnich z próby obliczmy średnią i odchylenie standardowe. Obliczamy ponadto wartość \(\sigma/\sqrt{n}\). Powtarzamy procedurę kilka razy dla różnych wartości \(n\). Wynik eksperymentu zestawiono w tabeli.
| \(n\) | średnia | \(s/\sqrt{n}\) | \(\sigma/\sqrt{n}\) |
|---|---|---|---|
| 2 | 46.580 | 10.383 | 10.333 |
| 10 | 46.287 | 4.571 | 4.621 |
| 40 | 46.197 | 2.246 | 2.311 |
| 70 | 46.180 | 1.708 | 1.747 |
Jeżeli Centralne Twierdzenie Graniczne działa w praktyce, średnie ze średnich powinny w przybliżeniu odpowiadać wartości \(\mu\) populacji, niezależnie od liczebności próby. Równocześnie odchylenie standardowe rozkładu średnich powinno maleć, a jego wartość w przybliżeniu powinna być równa wartości \(\sigma/\sqrt{n}\). Zamiast \(\sigma\) możemy też stosować odchylenie standardowe z próby \(s\). Analizując poszczególne kolumny tabeli można stwierdzić, że wszystkie te postulaty są spełnione.
Centralne Twierdzenie Graniczne utrzymuje także, że w miarę zwiększania liczebności próby rozkład średnich z prób powinien być coraz bardziej zbliżony do rozkładu \(N(\mu,\sigma/n)\). Wykres rozkładu wartości średnich przedstawiony na rysunku @ref(fig:wiekSredni) sugeruje, że tak jest w istocie.
Rozkład średniej wieku kandydatów w zależności od wielkości próby
Dane dotyczące kandydatów na radnych do sejmików wojewódzkich
zawierają także płeć kandydata. Ktoś może być ciekaw, jaki był odsetek
kobiet w tej grupie. Taki parametr nazywa się proporcją albo ryzykiem, a
potocznie i niefachowo procentem. Matematycznym modelem jest
zmienna dwuwartościowa, która z określonym
prawdopodobieństwem przyjmuje wartość kobieta.
Obliczmy empiryczną wartość tego prawdopodobieństwa jako liczbę kobiet do liczby wszystkich kandydatów. Wartość tego parametru wynosi 0.4587 (albo 45.87%). Potraktujmy to jako prawdziwą wartość prawdopodobieństwa (\(p\)), że kandydat jest kobietą.
Szacujemy wartość \(p\) na podstawie \(n\)-elementowej próby. Losowanie próby powtarzamy 1000 razy. Powtarzamy procedurę kilka razy dla różnych wartości \(n\). Rozkład otrzymanych wartości przedstawia rysunek @ref(fig:rozkladP).
Rozkład wielkości p dla różnej wielkości próby
Pionowa kreska oznacza średnią wartość \(p\) z próby. Jak widać jest ona w każdym przypadku równa w przybliżeniu wartości prawdziwej \(p\). Rozproszenie rozkładu maleje wraz ze wzrostem liczebności próby. Dla próby 20 elementowej rozkład nie przypomina rozkładu normalnego. Dla próby 120-elementowej, a zwłaszcza dla próby 420-elementowej rozkład jest podobny do normalnego.
Rozkład normalny jest tak magiczny, że nawet jeżeli zmienna, której parametr szacujemy, ma rozkład „skrajnie nienormalny” (jak w przypadku zmiennej, która przyjmuje tylko dwie wartości), to i tak rozkład estymatora tego parametru będzie normalny. Co najwyżej będziemy potrzebowali większej próby, żeby „znormalniał” (jak w opisywanym przykładzie).
W punkcie @ref(fnightingale) przypomnieliśmy postać Florence Nightingale – matki statystyki i bardzo dobrej kobiety. A kto był ojcem tejże statystyki? Ojców było więcej niż matek oczywiście, a wśród nich Francis Galton (regresja), Carl Pearson (współczynnik korelacji liniowej, test niezależności chi-kwadrat) oraz Ronald Fisher (podstawy wnioskowania). Niestety, wszyscy wymienieni byli zadeklarowanymi rasistami oraz wyznawcami społecznego darwninizmu i eugeniki. Pierwszymi zastosowaniami „nowoczesnych” metod statystycznych było naukowe udowodnienie, że biali ludzie są lepsi od innych:
Przez ile stuleci, ile tysięcy lat Kaffirowie […] lub Murzyni rządzili w Afryce nie niepokojeni przez białych ludzi? Jednak ich walki międzyplemienne nie stworzyły cywilizacji w najmniejszym stopniu porównywalnej z aryjską […] Historia pokazuje jeden i tylko jeden sposób, w jaki powstaje wysoka cywilizacja, a mianowicie walka rasy i przetrwanie rasy sprawniejszej fizycznie i psychicznie…
To cytat z National Life from the standpoint of science Carla Pearsona (Londyn 1905).
Naszym zdaniem dobrze jest pamiętać o tym fatalnym starcie „nowoczesnej statystyki”, bo chociaż jest mało prawdopodobne, że zostanie ona znowu wykorzystania do równie odrażających celów, to jest raczej więcej niż pewne, że będzie użyta do innych szwindli. Jeszcze jeden argument, żeby nie traktować wyników analiz statystycznych jako wiedzy objawionej, absolutnie pewnej i 100% prawdziwej (por. uwagę w punkcie @ref(przedmiotS)).
Estymacja (punktowa, przedziałowa): szacowanie wartości parametru na podstawie próby.
Estymator (nieobciążony, zgodny, efektywny): funkcja na wartościach próby która służy do oszacowania parametru.
Hipoteza statystyczna: przypuszczenie dotyczące parametru lub rozkładu zmiennej.
Ocena (parametru): konkretna wartość estymatora dla pewnej próby.
Poziom istotności (testu; oznaczany jako \(\alpha\); zwykle 0,05): prawdopodobieństwo popełnienia błędu.
Poziom ufności: prawdopodobieństwo, że przedział ufności zawiera prawdziwą wartość parametru; oznaczany jako \(1- \alpha\); zwykle 0,95.
Rozkład (prawdopodobieństwa): przypisanie prawdopodobieństwa wartościom zmiennej losowej.
Test statystyczny: metoda weryfikacji hipotezy statystycznej.
Wnioskowanie statystyczne: wnioskowanie o całości na podstawie próby.