---
title: "Testy t"
output:
html_document: default
pdf_document: default
---
## Test *t* dla jednej próby
W poprzednim odcinku zajmowaliśmy się problemem pojedyńczej próby i pytaniem o populację, z której ta próba pochodzi (czy możemy odrzucić hipotezę, że średnia w populacji wynosi ileś, albo w jakim przedziale z określonym prawdopodobieństwem znajduje się średnia w populacji).
Ustaliliśmy, że test $t$ dla jednej próby można rozumieć jako pewnego rodzaju modyfikację testu $z$, gdzie zamiast statystyki testowej z próby, wykorzystującej znaną wariancję w populacji:
$$
z = \frac{\bar{X} - \mu}{\sigma/\sqrt{N}}
$$
korzystamy ze statystyki testowej, gdzie wariancję estymujemy również z próby:
$$
t = \frac{\bar{X} - \mu}{s/\sqrt{N}}
$$
Taka statystyka testowa ma przy założeniu hipotezy zerowej rozkład $t$ o $N-1$ stopniach swobody.
Załóżmy na przykład, że z wieloletniej praktyki wiemy, że studenci kognitywistyki rozwiązują pewin test zaliczeniowy ze statystyki ze średnim wynikiem $26.5$. W tym roku pojawiło się dziesięcioro nowych studentów, którzy uzyskali `wyniki = c(10, 50, 46, 32, 37, 28, 41, 20, 32, 43)`. Czy mamy podstawy sądzić, że ci studenci są lepsi ze statystyki niż przeciętny student kognitywistyki? Odpowiedzieć na to pytanie pomoże nam test t dla jednej próby: `t.test(wyniki, mu=26.5)`.
**Pytanie**
Które z poniższych twierdzeń są prawdziwe?
- Prawdopodobieństwo wylosowania z populacji o średniej $26.5$ dziesięcioelementowej próby o średniej co najmniej tak różnej od $26.5$ jak obserwowana średnia $33.9$ wynosi około $8.9\%$.
- Zakładając $\alpha = 0.05$, nie mamy podstaw, żeby odrzucić hipotezę zerową, że tych dziesięcioro studentów pochodzi z populacji o średniej $26.5$.
- Ponieważ 95-procentowy przedział ufności wokół średniej w próbie obejmuje wartość $26.5$, nie mamy podstaw, żeby odrzucić hipotezę, że tych dziesięcioro studentów pochodzi z populacji o średniej $26.5$.
- Średni wynik w próbie wynosi $33.9$.
**Odpowiedź**
Wszystkie cztery są prawdziwe.
## Test *t* dla prób zależnych
W praktyce badawczej znacznie częściej mamy do czynienia z dwiema próbami, a nie jedną. W takiej sytuacji hipoteza zerowa mówi zazwyczaj, że próby te pochodzą z populacji o tej samej średniej. Czy kobiety mają wyższą inteligencję werbalną od mężczyzn? Czy wypicie filiżanki kawy zmniejsza czas reakcji w jakimś zadaniu poznawczym? Czy przestawienie szyku zdania powoduje, że wolniej to zdanie rozumiemy (Człowiek pogryzł psa a Psa pogryzł człowiek)? To są wszystko przykłady problemów z taką właśnie hipotezą zerową.
Szczególnym przypadkiem jest sytuacja, kiedy dwie próby są ze sobą powiązane w taki sposób, że pomiary z obu prób łączą się w pary. Na przykład losowej grupie studentów kognitywistyki mierzymy inteligencję przed początkiem semestru i ponownie na początku ferii zimowych, bo naszym pytaniem badawczym jest, czy 30 godzin statystyki z R w ciągu semestru podnosi inteligencję ogólną. Mamy zatem teoretycznie dwie próby pomiarów, ale tylko o tej pierwszej moglibyśmy powiedzieć, że była losowa: druga jest w całości zdeterminowana tą pierwszą (bo mierzymy inteligencję ponownie tym samym osobom).
W takiej sytuacji stosujemy test t dla prób zależnych (po angielsku brzmi to nawet lepiej, bo *paired-sample t test*), który w istocie nie różni się niczym od testu t dla jednej próby. Interesują nas pary pomiarów, a właściwie różnice między dwoma pomiarami w każdej parze. Hipoteza zerowa mówi, że średnia taka różnica w populacji wynosi zero.
No to załóżmy, że przetestowaliśmy w ten sposób 49 studentów kognitywistyki, każdemu mierząc inteligencję przed i po kursie statystyki z R i odejmując pierwszy pomiar od drugiego. Niektórzy wypili więcej kawy przed pierwszym pomiarem, inni byli zmęczeni sesją egzaminacyjną, więc niektóre różnice wyszły ujemne, a średnia różnica wyniosła tylko pół punkta (na korzyść późniejszego pomiaru).
**Pytanie I**
Jaka jest wartość statystyki t przy założeniu, że odchylenie standardowe tych $49$ różnic wyniosło aż $1.75$?
Wartość t otrzymujemy, dzieląc różnicę między średnią w próbie ($0.5$) a zakładaną w hipotezie zerowej średnią w populacji ($0$) przez odchylenie standardowe w próbie ($1.75$) dzielone przez pierwiastek liczebności ($49$). Następnie możemy skorzystać z rozkładu $t$ o $N-1$ stopniach swobody, by oszacować prawdopodobieństwo uzyskania co najmniej tak skrajnej różnicy między średnią w próbie a średnią w populacji, jak ta, którą uzyskaliśmy.
**Pytanie II**
Jaka będzie nasza konkluzja?
- Przyjmując $\alpha = 0.01$, nie mamy podstaw, żeby odrzucić hipotezę zerową, że 30 godzin statystyki w semestrze nie wpływa na poziom inteligencji ogólnej.
- Nawet gdybyśmy całkowicie odrzucili możliwość, że wpływ kursu statystyki na inteligencję może być negatywny, i przeprowadzili test jednostronny (czyli zakładający kierunkową hipotezę alternatywną), przy $\alpha = 0.01$ nie mielibyśmy podstaw, żeby odrzucić hipotezę zerową.
- Przyjmując $\alpha = 0.05$, nie mamy podstaw, żeby odrzucić hipotezę zerową, że 30 godzin statystyki w semestrze nie wpływa na poziom inteligencji ogólnej.
- Nawet gdybyśmy całkowicie odrzucili możliwość, że wpływ kursu statystyki na inteligencję może być negatywny, i przeprowadzili test jednostronny (czyli zakładający kierunkową hipotezę alternatywną), przy $\alpha = 0.05$ nie mielibyśmy podstaw, żeby odrzucić hipotezę zerową.
**Odpowiedzi**
- Wartość statystyki testowej $t$ wynosi $2$!
- Fałszywa jest opcja numer 4
## Test *t* dla prób zależnych
Jeszcze jeden przykład. Amerykańscy badacze porównywali satysfakcję z życia seksualnego kobiet i mężczyzn żyjących w stałym związku (badanie jest autentyczne, ale liczby zmyśliłem). Załóżmy, że w tym celu przepytali 15 par i każda osoba musiała ocenić swoją satysfakcję na skali 1--5. Mamy więc 15 odpowiedzi mężczyzn i 15 odpowiedzi kobiet, ale zasadne jest analizowanie ich parami.
Dlaczego? Przyjmijmy, że na poziomie populacji średnia satysfakcja mężczyzn jest wyższa od średniej kobiet. Mimo to w naszej próbie mógł się trafić mężczyzna, który jest na tyle nieusatysfakcjonowany, że będzie wyjątkowo zaniżał średnią w grupie mężczyzn (a zatem "utrudniał" odkrycie istniejącej na poziomie populacji różnicy). Może to być jednak spowodowane obiektywnym faktem, że życie seksualne danej pary nie układa się najlepiej, a ocena tego mężczyzny, mimo że niska na tle innych mężczyzn, może wciąż przewyższać ocenę jego partnerki. Stosując test t dla prób zależnych, bierzemy właśnie to pod uwagę.
Jeśli odpowiedzi mężczyzn są takie:
`m <- c(1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5)`
a odpowiedzi kobiet takie:
`k <- c(1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 5, 5)`
zakładając, że odpowiadające sobie elementy obu wektorów tworzą pary, możemy zastosować `t.test(m, k, paired=TRUE)`.
**Pytanie**
Wybierz prawidłową odpowiedź:
- 95-procentowy przedział ufności nie obejmuje $0$. Wynika z tego, że przy $\alpha = 0.05$ możemy odrzucić hipotezę zerową.
- 95-procentowy przedział ufności nie obejmuje $0$. Wynika z tego, że przy $\alpha = 0.01$ możemy odrzucić hipotezę zerową.
- 95-procentowy przedział ufności nie obejmuje $0$. Wynika z tego, że przy $\alpha = 0.05$ nie możemy odrzucić hipotezy zerowej.
- 95-procentowy przedział ufności nie obejmuje $0$. Wynika z tego, że przy $\alpha =0.01$ nie możemy odrzucić hipotezy zerowej.
**Odpowiedź**
Oczywiście prawidłową odpowiedzią jest odpowiedź pierwsza.
## Test *t* dla prób zależnych - przypomnienie.
Amerykańscy badacze porównywali satysfakcję z życia seksualnego kobiet i mężczyzn żyjących w stałym związku (badanie jest autentyczne, ale liczby zmyśliłem). Załóżmy, że w tym celu przepytali 15 par i każda osoba musiała ocenić swoją satysfakcję na skali 1–5. Mamy więc 15 odpowiedzi mężczyzn i 15 odpowiedzi kobiet, ale zasadne jest analizowanie ich parami.
Dlaczego? Przyjmijmy, że na poziomie populacji średnia satysfakcja mężczyzn jest wyższa od średniej kobiet. Mimo to w naszej próbie mógł się trafić mężczyzna, który jest na tyle nieusatysfakcjonowany, że będzie wyjątkowo zaniżał średnią w grupie mężczyzn (a zatem "utrudniał" odkrycie istniejącej na poziomie populacji różnicy). Może to być jednak spowodowane obiektywnym faktem, że życie seksualne danej pary nie układa się najlepiej, a ocena tego mężczyzny, mimo że niska na tle innych mężczyzn, może wciąż przewyższać ocenę jego partnerki. Stosując test *t* dla prób zależnych, bierzemy właśnie to pod uwagę.
Jeśli odpowiedzi mężczyzn są takie:
`m <- c(1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5)`
a odpowiedzi kobiet takie:
`k <- c(1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 5, 5)`
zakładając, że odpowiadające sobie elementy obu wektorów tworzą pary, możemy zastosować `t.test(m, k, paired=TRUE)`.
```{r}
m <- c(1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5)
k <- c(1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 5, 5)
t.test(m,k, paired = TRUE)
```
## Test *t* dla prób niezależnych
Różnica między kobietami a mężczyznami okazała się istotna statystycznie. Wartość *p* była niższa niż .05, a 95-procentowy przedział ufności nie objął zera. Co by jednak było, gdybyśmy te same odpowiedzi uzyskali od 15 kobiet i 15 mężczyzn wylosowanych zupełnie niezależnie od siebie?
Nie moglibyśmy odpowiedzi połączyć w pary i zastosować tej samej procedury, co w przypadku pojedyńczej próby. W przypadku pojedyńczej próby punktem wyjścia jest rozkład średniej z próby, czyli rozkład określający prawdopodobieństwo wylosowania prób o różnych średnich z populacji o danej średniej (założonej w hipotezie zerowej). Podobnie jest w przypadku dwóch prób zależnych, kiedy interesują nas różnice w parach (a hipotetyczna średnia tych różnic w populacji wynosi zero). Natomiast w przypadku dwóch prób niezależnych statystyką, która nas interesuje, nie jest pojedyńcza średnia, tylko różnica między średnimi.
Przede wszystkim więc musimy określić rozkład różnicy średnich z prób. Jak wygląda taki rozkład? Na podstawie naszej wiedzy statystycznej możemy już formułować pewne intuicje. Jako coraz bardziej zaawansowani użytkownicy R możemy z kolei nasze intuicje sprawdzać!
```{r}
N <- 20
mu <- 165
sigma1 <- 10
sigma2 <- 8
i <- 100000
s1 <- replicate(i, mean(rnorm(N, mu, sigma1)))
s2 <- replicate(i, mean(rnorm(N, mu, sigma2)))
```
**Pytanie**
`s1` i `s2` to przybliżenia rozkładu średniej z próby, każde bazujące na `i` losowań z populacji o tej samej średniej mu. Zatem `s1 - s2` będzie przybliżeniem rozkładu różnicy średnich z prób.
Które z poniższych stwierdzeń są prawdziwe?
* `var(s1)` oscyluje wokół `sigma1^2/N`.
* `sd(s2)` oscyluje wokół `sigma2/sqrt(N)`.
* `var(s1-s2)` oscyluje wokół `var(s1) + var(s2)`.
* `mean(s1-s2)` oscyluje wokół `mu * 2`.
```{r}
var(s1)
sd(s2)
var(s1-s2)
mean(s1-s2)
```
Rozkład różnicy średnich z prób to rozkład normalny o średniej równej różnicy średnich w populacji (zazwyczaj, zgodnie z hipotezą zerową, $0$).
Wariancja tego rozkładu jest natomiast sumą wariancji rozkładów poszczególnych średnich.
Wariancja rozkładu średniej z próby to w pewnym sensie niedokładność, z jaką średnia próby odpowiada średniej w populacji, a związana z losowaniem tej próby. Jeśli losujemy z tej samej populacji dwie próby, to różnica pomiędzy średnimi powinna oczywiście oscylować wokół zera, ale tak jak nie możemy być pewni, że średnia jednej czy drugiej próby jest równa średniej w populacji, tym bardziej nie możemy być pewni, że różnica tych średnich będzie równa zero.
```{r}
options(repr.plot.width=7.5, repr.plot.height=5)
par(mfrow = c(1,2), cex = 0.6)
wariancja_roznicy <- expression(sigma[bar(X[1]) - bar(x[2])]^2 == sigma[bar(X[1])]^2 + sigma[bar(X[2])]^2)
wariancja_roznicy2 <- expression(sigma[bar(X[1]) - bar(x[2])]^2 == frac(sigma[1]^2, N[1]) + frac(sigma[2]^2, N[2]))
curve(dnorm(x),
main = 'Rozkład różnicy średnich z prób',
from= -4,
to=4,
xaxt = 'n',
xlab = '')
text(2.2, 0.3, labels = wariancja_roznicy)
text(2.2, 0.25, labels = wariancja_roznicy2)
abline(v = 0, lty = 3)
mtext(side = 1, expression(H[0]: mu[1] - mu[2] == 0), cex = 0.6, line = 1)
z_roznicy <- expression(z == frac((bar(X[1]) - bar(X[2])) - (mu[1] - mu[2]),
sqrt(sigma[1]^2/N[1] + sigma[2]^2/N[2])))
h0_z <- expression(H[0]: z == frac(bar(X[1]) - bar(X[2]),
sqrt(frac(sigma[1]^2, N[1]) + frac(sigma[2]^2, N[2]))))
curve(dnorm(x),
main = 'Standaryzowany rozkład różnicy średnich z prób',
from= -4,
to=4,
xlab = '')
text(2.5, 0.3, labels = z_roznicy)
text(2.2, 0.22, labels = h0_z)
abline(v = 0, lty = 3)
```
Pozostaje jeszcze pytanie, czy zamieniając we wzorze na $z$ (drugi wykres) obie sigmy ($\sigma$, których zazwyczaj nie znamy) na wariancje policzone w próbach ($s$), otrzymamy statystykę o rozkładzie $t$, jak w przypadku pojedyńczej próby. William Gosset (a.k.a. Student), który w ogóle jako pierwszy zaproponował rozkład $t$, wykazał, że tak, pod warunkiem, że obie wartości $s$ są estymatorami tego samego parametru (czyli, że wariancje w obu populacjach są identyczne: nie jest to założenie pozbawione sensu, a poza tym pojawia się we wszystkich pokrewnych metodach, jak analiza wariancji, czy analiza regresji; warto więc o nim pamiętać). Gosset zaproponował, żeby w takim wypadku zamiast dwóch oddzielnych estymatorów stosować jeden uśredniony (licząc ich średnią ważoną, czyli biorąc poprawkę na różnicę w liczebnościach obu prób). Rozkład prawdopodobieństwa otrzymanej statystyki to rozkład $t$ o liczbie stopni swobody równej sumie stopni swobody w obu próbach.
**Pytanie**
Zatem liczba stopni swobody w teście t Studenta dla prób niezależnych wynosi:
* $N_1 + N_2 - 2$
* $N_1 + N_2 - 1$
* $N - 1$
* $2N$
**Problem Behrensa-Fishera**
Pytanie o to, jaki rozkład ma statystyka t w przypadku heterogeniczności wariancji (czyli, gdy wariancje w obu populacjach są różne), nazywa się problemem Behrensa-Fishera. Najczęsciej używanym przybliżonym rozwiązaniem tego problemu jest rozwiązanie Welcha-Satterthwaite'a, które zakłada, że jest to rozkład t, ale o liczbie stopni swobody mniejszej niż $N_1 + N_2 - 2$. Dokładną liczbę $df$ daje rozwiązanie równania Welcha-Satterthwaite'a, a test $t$ stosowany z tą poprawką nazywa się często testem $t$ Welcha.
**Pytanie**
Jeśli wynik testu $t$ Studenta jest istotny statystycznie, czy test $t$ Welcha policzony na tych samych danych też okaże się istotny (zakładając ten sam poziom $\alpha$)?
* Niekoniecznie. Jest raczej na odwrót: jeśli test t Welcha jest istotny statystycznie, test t Studenta policzony na tych samych danych również będzie istotny.
* Tak.
* Niekoniecznie. Zależy od tego, czy mamy do czynienia z heterogenicznością wariancji.
* Niekoniecznie.
**Test *t* Studenta vs test *t* Welcha**
Kiedy stosować test *t* Studenta, a kiedy — test *t* Welcha? Najlepiej zawsze Welcha (i tak domyślnie robi R), bo jest to rozwiązanie konserwatywne: jeśli uzyskamy istotny statystycznie wynik w teście Welcha, to pewnie tym bardziej uzyskalibyśmy taki wynik w teście Studenta. Podstawowa różnica to redukcja $df$ względem $N_1 + N_2 - 2$ w rozwiązaniu Welcha, a im mniejsza liczba df, tym grubsze ogony rozkładu $t$ i tym dalej zaczyna się obszar krytyczny: tym trudniej w niego "wpaść".
**Pytanie**
Na koniec wróćmy do naszych mężów i żon. Jaki wynik uzyskamy, jeśli przyjmiemy, że nie byli to mężowie i żony, ale 15 kobiet i 15 mężczyzn wylosowanych do badania niezależnie od siebie?
* Wartość $t$ w teście Welcha wynosi $1.0583$.
* Liczba stopni swobody w teście Studenta wynosi $28$.
* Wartość $t$ w teście Studenta wynosi $1.0237$.
* Liczba stopni swobody w teście Welcha wynosi $28$.
Te same dane prowadzą do zupełnie innych wniosków, jeśli potraktować je innym (niewłaściwym) testem. Wartość statystyki $t$ w teście dla prób niezależnych zawsze będzie niższa, bo mianownik jest większy: skoro obie próby losowane były niezależnie, to musimy uwzględnić (dodać do siebie) wariancje generowane przez nie obie.