// Statystyka - pytania_SiAD_AI-1.pdf z dysku Informatyka 2023 pytania 1-20 Mediana (drugi kwartyl): -| jest wartością środkową w zbiorze obserwacji - oddziela 75% swoich wyższych obserwacji od 25% swoich niższych obserwacji - pojawia się najczęściej wśród wszystkich obserwacji Rozkład prawdopodobieństwa dyskretnej zmiennej losowej może być przedstawiony: -| w postaci tabeli, z wartościami zmiennej losowej w pierwszym wierszu i odpowiednimi prawdopodobieństwami w drugim wierszu - w postaci tabeli, z wartościami zmiennej losowej w pierwszym wierszu i odpowiednimi częstościami w drugim wierszu - jako $\int_{-\infty}^{\infty} f(x) dx$ Niech $L$ i $U$ będą funkcjami zmiennych losowych stanowiących próbkę spełniającą $P(L < \sigma^2 < U) = 0{,}9$. Następnie różnica $(U-L)$: -| jest długością 90% przedziału ufności dla wariancji populacji - z 90% ufnością obejmuje prawdziwą wartość wariancji populacji - jest 90% przedziałem ufności dla wariancji populacji Hipoteza: $H_0: \sigma^2 = 0{,}9$, $H_1: \sigma^2 \neq 0{,}9$, jest związana z testowaniem: -| wariancji populacji - poziomu istotności - wariancji próby Załóżmy, że dwie próbki są losowo wybierane z normalnie rozmieszczonych populacji. Zanim zostanie skonstruowany przedział ufności dla różnicy między środkami populacji, najpierw zweryfikujemy, czy: - średnie próbek są równe - wariancje próbek są równe -| wariancje populacji nie różnią się istotnie Załóżmy, że przeprowadzono analizę wariancji i odrzucono hipotezę zerową o równości kilku środków populacji. Następnie możemy wykonać testy post-hoc, na przykład test Tukey Honest Significant Difference. Co wywnioskujemy z takiego testu post-hoc? -| które ze średnich populacji są istotnie podobne/różne - które ze środków próbki są jednorodne/heterogeniczne - że populacje są/nie są normalnie rozłożone Załóżmy, że wartość kowariancji próbki między dwiema zmiennymi losowymi jest równa $-0{,}9$. To pokazuje, że: -| wzrost wartości jednej zmiennej oznacza spadek wartości drugiej zmiennej - istnieje bardzo silne liniowe powiązanie między dwiema zmiennymi losowymi - kowariancja nie może być ujemna Testy nieparametryczne opierają się na: - statystykach skonstruowanych jako funkcje pomiarów o rozkładzie normalnym -| rangach obserwacji - graficznych ocenach obserwacji Na wykresie pudełkowym można zobaczyć następujące wielkości: - kwartyle, zakres, odchylenie standardowe -| zakres, minimum, pierwszy kwartyl - zakres, wariancja, pierwszy kwartyl Załóżmy, że $X$ jest zmienną losową o rozkładzie wykładniczym z parametrem $\lambda$. Prawdopodobieństwo, że $X$ jest większe od pewnego $a$, czyli $P(X > a)$, można obliczyć jako: - suma prawdopodobieństw związanych z wartościami całkowitymi $X$, które są większe od $a$ - $1/\lambda$ -| $1 - F(a)$, gdzie $F(x)$ to skumulowana dystrybuanta (CDF) zmiennej $X$ Próba: - zawiera co najmniej 40 zmiennych losowych -| jest podzbiorem populacji - zazwyczaj oznaczana przez $\bar{X}$ Niech $L$ i $U$ będą funkcjami zmiennych losowych tworzących próbkę spełniającą $P(L < \mu < U) = 0{,}99$. Wtedy z 99% pewnością przedział $(L,U)$ pokrywa prawdziwą wartość: - poziomu ufności -| średniej populacji - średniej próbki Znaczenie testu, zazwyczaj oznaczane przez $\alpha$, jest równe: - poziomowi ufności -| prawdopodobieństwu błędu I rodzaju - prawdopodobieństwu błędu II rodzaju Załóżmy, że dwie próbki są losowo wybrane z populacji o rozkładzie normalnym. Aby skonstruować przedział ufności dla różnicy średnich populacji, nie musimy weryfikować założenia o: - homogeniczności wariancji populacji - homogeniczności wariancji próbek -| normalności rozkładu obu populacji Aby przeprowadzić analizę wariancji (ANOVA) w celu przetestowania hipotezy o równości kilku średnich populacji, muszą być spełnione następujące założenia: - normalność rozkładu każdego leczenia i równość rozmiarów próbek -| normalność rozkładu każdej populacji i homogeniczność wariancji populacji - równość rozmiarów próbek i homogeniczność wariancji próbek Która z poniższych funkcji nie jest przeznaczona do testowania normalności rozkładu? - Test Kołmogorowa-Lillieforsa - test Shapiro-Wilka -| test Friedmana Rozważmy przykład, w którym chcemy porównać dwa rozkłady, a założenie o normalności nie ma sensu, ponieważ na przykład zbieramy tylko pomiary całkowite lub rozkłady są skośne. Który test jest odpowiedni do sprawdzenia, czy rozkłady są identyczne, jeśli próbki nie są niezależne? - test chi-kwadrat -| test rang Wilcoxona - test Pearsona // Statystyka — test - II_ Przegląd próby.pdf z dysku Informatyka 2023, pytania 1–10 ze zrzutów ekranu Analiza wariancji (ANOVA) służy do testowania hipotezy o równości: -| kilku średnich populacyjnych - kilku średnich z próby - kilku wariancji populacyjnych Która z poniższych funkcji nie przyda się do testowania normalności rozkładu prawdopodobieństwa? -| sigma.test - shapiro.test - lillie.test Błąd I-go rodzaju popełniamy, gdy: - nie odrzucimy prawdziwej hipotezy zerowej -| odrzucimy prawdziwą hipotezę zerową - fałszywa hipoteza zerowa zostanie odrzucona Z wykresu pudełkowego nie odczytamy wartości: - minimum, rozstępu i rozstępu międzykwartylowego -| rozstępu, wariancji i pierwszego kwartyla - rozstępu, minimum i trzeciego kwartyla Niech $f(x)$ będzie funkcją gęstości prawdopodobieństwa ciągłej zmiennej losowej $X$ i niech $F(x)$ będzie jej dystrybuantą. Wówczas $P(a < X < b)$ nie może być obliczone ze wzoru: - $\int_a^b f(x)\,dx$ - $F(b)-F(a)$ -| $f(b)-f(a)$ Załóżmy, że pobrana została $n$-elementowa próba z rozkładu normalnego ze znanym odchyleniem standardowym $\sigma$. Do oceny przedziałowej średniej populacyjnej możemy wykorzystać funkcję: - zsum.test wykorzystującą kwantyle rozkładu $N(0,1)$ -| z.test wykorzystującą kwantyle rozkładu $N(0,1)$ - t.test wykorzystującą kwantyle rozkładu t-Studenta z $n-1$ stopniami swobody Jeżeli $X_1,\ldots,X_n$ jest próbą z rozkładu normalnego ze średnią $\mu$ i odchyleniem standardowym $\sigma$, to suma $X_1+\cdots+X_n$: -| ma rozkład $N(n\mu,\sqrt{n}\sigma)$ - ma asymptotyczny rozkład $N(\mu,\sigma/\sqrt{n})$ - ma asymptotyczny rozkład $N(n\mu,\sqrt{n}\sigma)$ Rozważmy eksperyment, w którym badana jest liczba niedopełnionych puszek w zależności od automatu napełniającego (jest 6 automatów). Eksperymentator zauważył, że z upływem czasu ilość napoju w puszce maleje, niezależnie od tego, który automat je napełnia. Zatem założenie o normalności rozkładu liczby niedopełnionych puszek nie ma sensu. Którego testu użyć do sprawdzenia, czy wybór automatu ma wpływ na liczbę niedopełnionych puszek? - ANOVA -| H Kruskala-Wallisa - testu Wilcoxona Załóżmy, że pobrane zostały losowo dwie próby z rozkładów normalnych. Do oceny przedziałowej ilorazu wariancji populacyjnych można wykorzystać funkcję: - t.test -| var.test - sigma.test // Statystyka — brakujące pytania ze statystyka.md Funkcja gęstości prawdopodobieństwa ciągłej zmiennej losowej jest: - dowolną funkcją przyjmującą wartości z przedziału od 0 do 1 - dowolną funkcją ciągłą, dla której pole pod wykresem wynosi 1 -| dowolną funkcją nieujemną, dla której pole pod wykresem wynosi 1 Zbiór wartości, który z prawdopodobieństwem $1-\alpha$ pokrywa prawdziwą wartość nieznanego parametru populacji, to: - obszar krytyczny - poziom ufności -| przedział ufności Do testowania hipotezy o normalności rozkładu populacji można użyć: - funkcji `zsum.test`, jeśli próba jest duża -| funkcji `chisq.test` po odpowiednim pogrupowaniu danych - funkcji `z.test`, jeśli odchylenie standardowe populacji jest znane Jeśli te same osoby rozwiązują kilka zadań w losowej kolejności i chcemy porównać rozkłady czasów ich rozwiązywania, użyjemy: - testu Spearmana -| testu Friedmana - testu Kruskala-Wallisa Konstruując szereg rozdzielczy lub histogram, należy zadbać, aby przedziały: - mogły się nakładać, o ile nie są puste - nie musiały pokrywać wszystkich wartości -| były rozłączne i pokrywały cały zbiór wartości Do weryfikacji hipotezy o dwóch średnich populacyjnych nie użyjemy: - funkcji `zsum.test`, gdy próby są duże i nie pochodzą z rozkładu normalnego -| funkcji `var.test` - funkcji `t.test`, gdy próby pochodzą z rozkładu normalnego Notacja $H_0:\mu \geq 5$, $H_1:\mu < 5$ opisuje: - hipotezę lewostronną o średniej z próby - hipotezę prawostronną o średniej populacyjnej -| hipotezę lewostronną o średniej populacyjnej Testu chi-kwadrat nie użyjemy bezpośrednio do testowania: - niezależności dwóch zmiennych w tablicy kontyngencji - równości dwóch proporcji populacyjnych -| normalności rozkładu populacji Moda (dominanta): - oddziela 75% większych obserwacji od 25% mniejszych obserwacji -| występuje najczęściej w zbiorze obserwacji - jest wartością środkową w zbiorze obserwacji Estymatorów współczynników równania regresji nie wyznaczymy za pomocą: - metody najmniejszych kwadratów - funkcji `lm(y~x)` -| funkcji `anova(y~x)` W analizie wariancji nie odrzucimy hipotezy zerowej, gdy wartość statystyki testowej jest: - niższa od odpowiedniego kwantyla rozkładu t-Studenta - niższa od odpowiedniego kwantyla rozkładu chi-kwadrat -| niższa od odpowiedniego kwantyla rozkładu F-Snedecora Jeżeli $X_1,\ldots,X_n$ jest dużą próbą z rozkładu o wartości oczekiwanej $\mu$ i odchyleniu standardowym $\sigma$, to suma $X_1+\cdots+X_n$ ma asymptotyczny rozkład: - $N(\mu,\sigma/\sqrt{n})$ -| $N(n\mu,\sqrt{n}\sigma)$ - $N(0,1)$ Hipotezę zerową odrzucamy, gdy: -| wartość statystyki testowej należy do obszaru krytycznego - wartość statystyki testowej należy do przedziału ufności - poziom istotności jest niższy niż p-value Do weryfikacji hipotezy o dwóch proporcjach populacyjnych można wykorzystać funkcję: - `t.test` - `binom.test` -| `prop.test` Jeżeli $(L,U)$ jest 95% przedziałem ufności dla odchylenia standardowego populacji, to z ufnością 95% przedział ten: - pokrywa prawdziwą wartość średniej populacyjnej - pokrywa prawdziwą wartość odchylenia standardowego z próby -| pokrywa prawdziwą wartość odchylenia standardowego populacji Dodatnia wartość kowariancji między zmiennymi $X$ i $Y$ oznacza, że: -| gdy wartość $X$ rośnie, wartość $Y$ zwykle również rośnie - wartość $Y$ rośnie o wartość kowariancji, gdy $X$ rośnie o 1 - gdy wartość $X$ rośnie, wartość $Y$ maleje Ujemna wartość współczynnika korelacji między zmiennymi $X$ i $Y$ oznacza, że: - współczynnik korelacji nie może być ujemny - wartość $Y$ maleje dokładnie o wartość współczynnika korelacji, gdy $X$ rośnie o 1 -| gdy wartość $X$ rośnie, wartość $Y$ zwykle maleje Jeżeli chcemy sprawdzić, czy kolor samochodu wpływa na średnią sprzedaż danego modelu, a dostępne są co najmniej trzy kolory, najrozsądniej jest: - przeprowadzić test chi-kwadrat równości dwóch wariancji -| przeprowadzić analizę wariancji - użyć `t.test` do porównania dwóch średnich Gdy dwóch ekspertów sporządza rankingi tych samych tancerzy, do sprawdzenia zgodności ich opinii użyjemy: - testu Pearsona -| testu Spearmana - testu Wilcoxona Niech dyskretna zmienna losowa $X$ przyjmuje wartości $x_1\alpha$ -| $p\text{-value}<\alpha$ - $p\text{-value}=1-\alpha$ Notacji H0:p≤0.9, H1:p>0.9 użyjemy do zapisu: - hipotezy prawostronnej o proporcji z próby - hipotezy lewostronnej o proporcji z próby -| hipotezy prawostronnej o proporcji populacyjnej Jeśli równanie prostej regresji ma postać y=b0+b1x, to dodatnia wartość współczynnika regresji b1 informuje: - o ile wzrośnie wartość y, jeśli wartość wzrośnie o b1 - jaka jest wartość y, jeśli x jest równy b1 -| o ile wzrośnie wartość y, jeśli x wzrośnie o 1 Jeśli równanie prostej regresji ma postać y=b0+b1x, to ujemna wartość współczynnika regresji informuje: - o ile wzrośnie wartość y, jeśli wartość x zmaleje o b1 - jaka jest wartość y dla x równego b1 -| o ile zmaleje wartość y, jeśli wartość x wzrośnie o 1 Załóżmy, że po przeprowadzeniu analizy wariancji hipoteza zerowa o równości kilku średnich populacyjnych została odrzucona. Wówczas interesujące jest zazwyczaj wyznaczenie grup jednorodnych. Nie dokonamy tego wykorzystując: - test najmniejszych istotnych różnic (LSD) zaproponowany przez Fishera - test Tukeya uczciwych istotnych różnic (funkcja TukeyHSD) -| przedział ufności dla ilorazu wariancji populacyjnych (funkcja var.test) Która z poniższych funkcji przeznaczona jest do testowania hipotezy o dopasowaniu rozkładu liczebności do zadanego wzorca? - lillie.test - shapiro.test -| chisq.test Która z wielkości nie mierzy zróżnicowania? - rozstęp - wariancja -| moda Jedną z miar zróżnicowania jest: - kwantyl dowolnego rzędu - mediana -| odchylenie standardowe Do oceny przedziałowej różnicy proporcji populacyjnych można wykorzystać funkcję: - var.test - binom.test -| prop.test