--- title: "Praca domowa (założenia testu t)" author: "Bartosz Maćkiewicz" date: "12 grudnia 2020" output: html_document --- ```{r setup, include=FALSE} knitr::opts_chunk$set(echo = T) ``` # Zadanie I Proszę zaproponować prostą symulację (kilka linijek kodu), która pozwoli sprawdzić odporność testu $t$ dla prób niezależnych na heterogeniczność wariancji. Państwa symulacja powinna pozwolić odpowiedzieć na następujące pytania: * jak heterogeniczność wariancji zniekształca poziom α (przy równolicznych grupach), * jak różnice w liczebnościach grup wpływają na to zniekształcenie (zarówno, kiedy liczniejsza grupa pochodzi z populacji o większej wariancji, jak i w sytuacji odwrotnej), * jak bardzo poprawka Welcha niweluje problem heterogeniczności wariancji w powyższych konfiguracjach. Aby rozwiązać pracę domową musimy zastanowić się co tak naprawdę mamy sprawdzić. W teorii testy powinny gwarantować taki poziom $\alpha$ jaki zakładamy (czyli np. $5\%$). W praktyce jednak, w sytuacji, w której złamane są pewne założenia testów, wartość ta może być mniejsza lub większa. Obie sytuacje są niedobre - $\alpha$ powinna być taka, jaką zakładamy. Spróbujmy sprawdzić sobie, czy przy założeniu hipotezy zerowej i spełnieniu założeń testu faktycznie $\alpha$ wynosi $5\%$, tak jak zakładamy. W tym celu przeprowadzimy proste badanie symulacyjne. ```{r} set.seed(42) i <- 10000 # liczba powtórzeń symulacji n <- 30 # wybieramy na początek jakąś arbitralną liczebność próby mu <- 165 # oraz arbitralną średnią odch <- 15 # i odchylenie standardowe simulated_pvalues <- replicate(i, { proba_1 <- rnorm(n, mu, odch) # losujemy pierwszą próbę proba_2 <- rnorm(n, mu, odch) # losujemy drugą próbę # Następnie przeprowadzimy test t Studenta i obliczymy p-value pval <- t.test(proba_1, proba_2, var.equal = T)$p.value pval }) # Sprawdzimy teraz, w jakiej liczbie przypadków odrzuciliśmy hipotezę zerową w sytuacji, w której była ona prawdziwa. To jest właśnie błąd pierwszego rodzaju a jego prawdopodobieństwo nazywamy alfą! sum(simulated_pvalues < 0.05)/i ``` Okazuje się, że w przypadku testu t Studenta i w przypadku spełnionych założeń faktycznie nasza $\alpha$ pozostaje na poziomie $5\%$. Co jednak gdy zmodyfikujemy nasze założenia? 1. Proszę powtórzyć powyższa symulację, ale tym razem zamiast równych wariancji zrobić tak, żeby jedna populacja miała 1.5 krotnie wyższą wariancję. Jak wpływa to na obliczone prawdopodobieństwo błędu pierwszego rodzaju? 2. Proszę zobaczyć, czy sytuacja zmieni się, jeśli z populacji o **wyższej** wariancji weźmiemy 1.5 krotnie liczniejszą próbę (czyli $N = 45$). 3. Proszę zobaczyć, czy sytuacja zmieni się, jeśli z populacji o **niższej** wariancji weźmiemy 1.5 krotnie liczniejszą próbę (czyli $N = 45$). 4. Proszę zobaczyć, czy sytuacja zmieni się, jeśli w symulacjach z podpunktu 2 i 3 zamiast testu t Studenta zastosujemy test t Welcha. Jeśli Państwo "załapią" ogólną metodę, to potem mogą Państwo ulepszać i rozwijać Państwa badanie - mogą Państwo systematycznie zobaczyć jak wraz ze wzrostem różnicy w wariancjach zmienia się $\alpha$ dla każdego z tych testów, jak wpływa na to liczebność próby itp. Na początek jednak trzeba uchwycić podstawy i niniejszy dokument ma Państwu w tym pomóc.