Test t dla jednej próby

W poprzednim odcinku zajmowaliśmy się problemem pojedyńczej próby i pytaniem o populację, z której ta próba pochodzi (czy możemy odrzucić hipotezę, że średnia w populacji wynosi ileś, albo w jakim przedziale z określonym prawdopodobieństwem znajduje się średnia w populacji).

Ustaliliśmy, że test \(t\) dla jednej próby można rozumieć jako pewnego rodzaju modyfikację testu \(z\), gdzie zamiast statystyki testowej z próby, wykorzystującej znaną wariancję w populacji:

\[ z = \frac{\bar{X} - \mu}{\sigma/\sqrt{N}} \]

korzystamy ze statystyki testowej, gdzie wariancję estymujemy również z próby:

\[ t = \frac{\bar{X} - \mu}{s/\sqrt{N}} \]

Taka statystyka testowa ma przy założeniu hipotezy zerowej rozkład \(t\) o \(N-1\) stopniach swobody.

Załóżmy na przykład, że z wieloletniej praktyki wiemy, że studenci kognitywistyki rozwiązują pewin test zaliczeniowy ze statystyki ze średnim wynikiem \(26.5\). W tym roku pojawiło się dziesięcioro nowych studentów, którzy uzyskali wyniki = c(10, 50, 46, 32, 37, 28, 41, 20, 32, 43). Czy mamy podstawy sądzić, że ci studenci są lepsi ze statystyki niż przeciętny student kognitywistyki? Odpowiedzieć na to pytanie pomoże nam test t dla jednej próby: t.test(wyniki, mu=26.5).

Pytanie

Które z poniższych twierdzeń są prawdziwe?

Odpowiedź

Wszystkie cztery są prawdziwe.

Test t dla prób zależnych

W praktyce badawczej znacznie częściej mamy do czynienia z dwiema próbami, a nie jedną. W takiej sytuacji hipoteza zerowa mówi zazwyczaj, że próby te pochodzą z populacji o tej samej średniej. Czy kobiety mają wyższą inteligencję werbalną od mężczyzn? Czy wypicie filiżanki kawy zmniejsza czas reakcji w jakimś zadaniu poznawczym? Czy przestawienie szyku zdania powoduje, że wolniej to zdanie rozumiemy (Człowiek pogryzł psa a Psa pogryzł człowiek)? To są wszystko przykłady problemów z taką właśnie hipotezą zerową.

Szczególnym przypadkiem jest sytuacja, kiedy dwie próby są ze sobą powiązane w taki sposób, że pomiary z obu prób łączą się w pary. Na przykład losowej grupie studentów kognitywistyki mierzymy inteligencję przed początkiem semestru i ponownie na początku ferii zimowych, bo naszym pytaniem badawczym jest, czy 30 godzin statystyki z R w ciągu semestru podnosi inteligencję ogólną. Mamy zatem teoretycznie dwie próby pomiarów, ale tylko o tej pierwszej moglibyśmy powiedzieć, że była losowa: druga jest w całości zdeterminowana tą pierwszą (bo mierzymy inteligencję ponownie tym samym osobom).

W takiej sytuacji stosujemy test t dla prób zależnych (po angielsku brzmi to nawet lepiej, bo paired-sample t test), który w istocie nie różni się niczym od testu t dla jednej próby. Interesują nas pary pomiarów, a właściwie różnice między dwoma pomiarami w każdej parze. Hipoteza zerowa mówi, że średnia taka różnica w populacji wynosi zero.

No to załóżmy, że przetestowaliśmy w ten sposób 49 studentów kognitywistyki, każdemu mierząc inteligencję przed i po kursie statystyki z R i odejmując pierwszy pomiar od drugiego. Niektórzy wypili więcej kawy przed pierwszym pomiarem, inni byli zmęczeni sesją egzaminacyjną, więc niektóre różnice wyszły ujemne, a średnia różnica wyniosła tylko pół punkta (na korzyść późniejszego pomiaru).

Pytanie I

Jaka jest wartość statystyki t przy założeniu, że odchylenie standardowe tych \(49\) różnic wyniosło aż \(1.75\)?

Wartość t otrzymujemy, dzieląc różnicę między średnią w próbie (\(0.5\)) a zakładaną w hipotezie zerowej średnią w populacji (\(0\)) przez odchylenie standardowe w próbie (\(1.75\)) dzielone przez pierwiastek liczebności (\(49\)). Następnie możemy skorzystać z rozkładu \(t\) o \(N-1\) stopniach swobody, by oszacować prawdopodobieństwo uzyskania co najmniej tak skrajnej różnicy między średnią w próbie a średnią w populacji, jak ta, którą uzyskaliśmy.

Pytanie II

Jaka będzie nasza konkluzja?

Odpowiedzi

Test t dla prób zależnych

Jeszcze jeden przykład. Amerykańscy badacze porównywali satysfakcję z życia seksualnego kobiet i mężczyzn żyjących w stałym związku (badanie jest autentyczne, ale liczby zmyśliłem). Załóżmy, że w tym celu przepytali 15 par i każda osoba musiała ocenić swoją satysfakcję na skali 1–5. Mamy więc 15 odpowiedzi mężczyzn i 15 odpowiedzi kobiet, ale zasadne jest analizowanie ich parami.

Dlaczego? Przyjmijmy, że na poziomie populacji średnia satysfakcja mężczyzn jest wyższa od średniej kobiet. Mimo to w naszej próbie mógł się trafić mężczyzna, który jest na tyle nieusatysfakcjonowany, że będzie wyjątkowo zaniżał średnią w grupie mężczyzn (a zatem “utrudniał” odkrycie istniejącej na poziomie populacji różnicy). Może to być jednak spowodowane obiektywnym faktem, że życie seksualne danej pary nie układa się najlepiej, a ocena tego mężczyzny, mimo że niska na tle innych mężczyzn, może wciąż przewyższać ocenę jego partnerki. Stosując test t dla prób zależnych, bierzemy właśnie to pod uwagę.

Jeśli odpowiedzi mężczyzn są takie:

m <- c(1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5)

a odpowiedzi kobiet takie:

k <- c(1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 5, 5)

zakładając, że odpowiadające sobie elementy obu wektorów tworzą pary, możemy zastosować t.test(m, k, paired=TRUE).

Pytanie

Wybierz prawidłową odpowiedź:

Odpowiedź

Oczywiście prawidłową odpowiedzią jest odpowiedź pierwsza.

Test t dla prób zależnych - przypomnienie.

Amerykańscy badacze porównywali satysfakcję z życia seksualnego kobiet i mężczyzn żyjących w stałym związku (badanie jest autentyczne, ale liczby zmyśliłem). Załóżmy, że w tym celu przepytali 15 par i każda osoba musiała ocenić swoją satysfakcję na skali 1–5. Mamy więc 15 odpowiedzi mężczyzn i 15 odpowiedzi kobiet, ale zasadne jest analizowanie ich parami.

Dlaczego? Przyjmijmy, że na poziomie populacji średnia satysfakcja mężczyzn jest wyższa od średniej kobiet. Mimo to w naszej próbie mógł się trafić mężczyzna, który jest na tyle nieusatysfakcjonowany, że będzie wyjątkowo zaniżał średnią w grupie mężczyzn (a zatem “utrudniał” odkrycie istniejącej na poziomie populacji różnicy). Może to być jednak spowodowane obiektywnym faktem, że życie seksualne danej pary nie układa się najlepiej, a ocena tego mężczyzny, mimo że niska na tle innych mężczyzn, może wciąż przewyższać ocenę jego partnerki. Stosując test t dla prób zależnych, bierzemy właśnie to pod uwagę.

Jeśli odpowiedzi mężczyzn są takie:

m <- c(1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5)

a odpowiedzi kobiet takie:

k <- c(1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 5, 5)

zakładając, że odpowiadające sobie elementy obu wektorów tworzą pary, możemy zastosować t.test(m, k, paired=TRUE).

m <- c(1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5)
k <- c(1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 5, 5)

t.test(m,k, paired = TRUE)
## 
##  Paired t-test
## 
## data:  m and k
## t = 4, df = 14, p-value = 0.001316
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
##  0.2473618 0.8193049
## sample estimates:
## mean difference 
##       0.5333333

Test t dla prób niezależnych

Różnica między kobietami a mężczyznami okazała się istotna statystycznie. Wartość p była niższa niż .05, a 95-procentowy przedział ufności nie objął zera. Co by jednak było, gdybyśmy te same odpowiedzi uzyskali od 15 kobiet i 15 mężczyzn wylosowanych zupełnie niezależnie od siebie?

Nie moglibyśmy odpowiedzi połączyć w pary i zastosować tej samej procedury, co w przypadku pojedyńczej próby. W przypadku pojedyńczej próby punktem wyjścia jest rozkład średniej z próby, czyli rozkład określający prawdopodobieństwo wylosowania prób o różnych średnich z populacji o danej średniej (założonej w hipotezie zerowej). Podobnie jest w przypadku dwóch prób zależnych, kiedy interesują nas różnice w parach (a hipotetyczna średnia tych różnic w populacji wynosi zero). Natomiast w przypadku dwóch prób niezależnych statystyką, która nas interesuje, nie jest pojedyńcza średnia, tylko różnica między średnimi.

Przede wszystkim więc musimy określić rozkład różnicy średnich z prób. Jak wygląda taki rozkład? Na podstawie naszej wiedzy statystycznej możemy już formułować pewne intuicje. Jako coraz bardziej zaawansowani użytkownicy R możemy z kolei nasze intuicje sprawdzać!

N <- 20
mu <- 165 
sigma1 <- 10 
sigma2 <- 8
i <- 100000
s1 <- replicate(i, mean(rnorm(N, mu, sigma1)))
s2 <- replicate(i, mean(rnorm(N, mu, sigma2)))

Pytanie

s1 i s2 to przybliżenia rozkładu średniej z próby, każde bazujące na i losowań z populacji o tej samej średniej mu. Zatem s1 - s2 będzie przybliżeniem rozkładu różnicy średnich z prób.

Które z poniższych stwierdzeń są prawdziwe?

var(s1)
## [1] 5.014385
sd(s2)
## [1] 1.799469
var(s1-s2)
## [1] 8.257624
mean(s1-s2)
## [1] 0.004517868

Rozkład różnicy średnich z prób to rozkład normalny o średniej równej różnicy średnich w populacji (zazwyczaj, zgodnie z hipotezą zerową, \(0\)).

Wariancja tego rozkładu jest natomiast sumą wariancji rozkładów poszczególnych średnich.

Wariancja rozkładu średniej z próby to w pewnym sensie niedokładność, z jaką średnia próby odpowiada średniej w populacji, a związana z losowaniem tej próby. Jeśli losujemy z tej samej populacji dwie próby, to różnica pomiędzy średnimi powinna oczywiście oscylować wokół zera, ale tak jak nie możemy być pewni, że średnia jednej czy drugiej próby jest równa średniej w populacji, tym bardziej nie możemy być pewni, że różnica tych średnich będzie równa zero.

options(repr.plot.width=7.5, repr.plot.height=5)

par(mfrow = c(1,2), cex = 0.6)

wariancja_roznicy <- expression(sigma[bar(X[1]) - bar(x[2])]^2 == sigma[bar(X[1])]^2 + sigma[bar(X[2])]^2)
wariancja_roznicy2 <- expression(sigma[bar(X[1]) - bar(x[2])]^2 == frac(sigma[1]^2, N[1]) + frac(sigma[2]^2, N[2]))
curve(dnorm(x),
     main = 'Rozkład różnicy średnich z prób', 
     from= -4,
     to=4,
     xaxt = 'n', 
     xlab = '')
text(2.2, 0.3, labels = wariancja_roznicy)
text(2.2, 0.25, labels = wariancja_roznicy2)
abline(v = 0, lty = 3)
mtext(side = 1, expression(H[0]: mu[1] - mu[2] == 0), cex = 0.6, line = 1)

z_roznicy <- expression(z == frac((bar(X[1]) - bar(X[2])) - (mu[1] - mu[2]),
                                 sqrt(sigma[1]^2/N[1] + sigma[2]^2/N[2])))
h0_z <- expression(H[0]: z == frac(bar(X[1]) - bar(X[2]),
                      sqrt(frac(sigma[1]^2, N[1]) + frac(sigma[2]^2, N[2]))))

curve(dnorm(x),
     main = 'Standaryzowany rozkład różnicy średnich z prób', 
     from= -4, 
     to=4,
     xlab = '')
text(2.5, 0.3, labels = z_roznicy)
text(2.2, 0.22, labels = h0_z)
abline(v = 0, lty = 3)

Pozostaje jeszcze pytanie, czy zamieniając we wzorze na \(z\) (drugi wykres) obie sigmy (\(\sigma\), których zazwyczaj nie znamy) na wariancje policzone w próbach (\(s\)), otrzymamy statystykę o rozkładzie \(t\), jak w przypadku pojedyńczej próby. William Gosset (a.k.a. Student), który w ogóle jako pierwszy zaproponował rozkład \(t\), wykazał, że tak, pod warunkiem, że obie wartości \(s\) są estymatorami tego samego parametru (czyli, że wariancje w obu populacjach są identyczne: nie jest to założenie pozbawione sensu, a poza tym pojawia się we wszystkich pokrewnych metodach, jak analiza wariancji, czy analiza regresji; warto więc o nim pamiętać). Gosset zaproponował, żeby w takim wypadku zamiast dwóch oddzielnych estymatorów stosować jeden uśredniony (licząc ich średnią ważoną, czyli biorąc poprawkę na różnicę w liczebnościach obu prób). Rozkład prawdopodobieństwa otrzymanej statystyki to rozkład \(t\) o liczbie stopni swobody równej sumie stopni swobody w obu próbach.

Pytanie

Zatem liczba stopni swobody w teście t Studenta dla prób niezależnych wynosi:

Problem Behrensa-Fishera

Pytanie o to, jaki rozkład ma statystyka t w przypadku heterogeniczności wariancji (czyli, gdy wariancje w obu populacjach są różne), nazywa się problemem Behrensa-Fishera. Najczęsciej używanym przybliżonym rozwiązaniem tego problemu jest rozwiązanie Welcha-Satterthwaite’a, które zakłada, że jest to rozkład t, ale o liczbie stopni swobody mniejszej niż \(N_1 + N_2 - 2\). Dokładną liczbę \(df\) daje rozwiązanie równania Welcha-Satterthwaite’a, a test \(t\) stosowany z tą poprawką nazywa się często testem \(t\) Welcha.

Pytanie

Jeśli wynik testu \(t\) Studenta jest istotny statystycznie, czy test \(t\) Welcha policzony na tych samych danych też okaże się istotny (zakładając ten sam poziom \(\alpha\))?

Test t Studenta vs test t Welcha

Kiedy stosować test t Studenta, a kiedy — test t Welcha? Najlepiej zawsze Welcha (i tak domyślnie robi R), bo jest to rozwiązanie konserwatywne: jeśli uzyskamy istotny statystycznie wynik w teście Welcha, to pewnie tym bardziej uzyskalibyśmy taki wynik w teście Studenta. Podstawowa różnica to redukcja \(df\) względem \(N_1 + N_2 - 2\) w rozwiązaniu Welcha, a im mniejsza liczba df, tym grubsze ogony rozkładu \(t\) i tym dalej zaczyna się obszar krytyczny: tym trudniej w niego “wpaść”.

Pytanie

Na koniec wróćmy do naszych mężów i żon. Jaki wynik uzyskamy, jeśli przyjmiemy, że nie byli to mężowie i żony, ale 15 kobiet i 15 mężczyzn wylosowanych do badania niezależnie od siebie?

Te same dane prowadzą do zupełnie innych wniosków, jeśli potraktować je innym (niewłaściwym) testem. Wartość statystyki \(t\) w teście dla prób niezależnych zawsze będzie niższa, bo mianownik jest większy: skoro obie próby losowane były niezależnie, to musimy uwzględnić (dodać do siebie) wariancje generowane przez nie obie.