// Statystyka - pytania_SiAD_AI-1.pdf z dysku Informatyka 2023 pytania 1-20

Mediana (drugi kwartyl):
-| jest wartością środkową w zbiorze obserwacji
- oddziela 75% swoich wyższych obserwacji od 25% swoich niższych obserwacji
- pojawia się najczęściej wśród wszystkich obserwacji

Rozkład prawdopodobieństwa dyskretnej zmiennej losowej może być przedstawiony:
-| w postaci tabeli, z wartościami zmiennej losowej w pierwszym wierszu i odpowiednimi prawdopodobieństwami w drugim wierszu
- w postaci tabeli, z wartościami zmiennej losowej w pierwszym wierszu i odpowiednimi częstościami w drugim wierszu
- jako $\int_{-\infty}^{\infty} f(x) dx$

Która z poniższych reprezentuje statystyki?
- proporcji populacji
-| suma zmiennych losowych stanowiących próbę
- średnia populacyjna

Niech $L$ i $U$ będą funkcjami zmiennych losowych stanowiących próbkę spełniającą $P(L < \sigma^2 < U) = 0{,}9$. Następnie różnica $(U-L)$:
-| jest długością 90% przedziału ufności dla wariancji populacji
- z 90% ufnością obejmuje prawdziwą wartość wariancji populacji
- jest 90% przedziałem ufności dla wariancji populacji

Hipoteza: $H_0: \sigma^2 = 0{,}9$, $H_1: \sigma^2 \neq 0{,}9$, jest związana z testowaniem:
-| wariancji populacji
- poziomu istotności
- wariancji próby

Załóżmy, że dwie próbki są losowo wybierane z normalnie rozmieszczonych populacji. Zanim zostanie skonstruowany przedział ufności dla różnicy między środkami populacji, najpierw zweryfikujemy, czy:
- średnie próbek są równe
- wariancje próbek są równe
-| wariancje populacji nie różnią się istotnie

Załóżmy, że przeprowadzono analizę wariancji i odrzucono hipotezę zerową o równości kilku środków populacji. Następnie możemy wykonać testy post-hoc, na przykład test Tukey Honest Significant Difference. Co wywnioskujemy z takiego testu post-hoc?
-| które ze średnich populacji są istotnie podobne/różne
- które ze środków próbki są jednorodne/heterogeniczne
- że populacje są/nie są normalnie rozłożone

Załóżmy, że wartość kowariancji próbki między dwiema zmiennymi losowymi jest równa $-0{,}9$. To pokazuje, że:
-| wzrost wartości jednej zmiennej oznacza spadek wartości drugiej zmiennej
- istnieje bardzo silne liniowe powiązanie między dwiema zmiennymi losowymi
- kowariancja nie może być ujemna

Która z poniższych funkcji jest poświęcona testowaniu hipotezy o dopasowaniu rozkładu częstotliwości do konkretnego wzorca?
-| chisq.test
- var.test
- t.test

Testy nieparametryczne opierają się na:
- statystykach skonstruowanych jako funkcje pomiarów o rozkładzie normalnym
-| rangach obserwacji
- graficznych ocenach obserwacji

Na wykresie pudełkowym można zobaczyć następujące wielkości:
- kwartyle, zakres, odchylenie standardowe
-| zakres, minimum, pierwszy kwartyl
- zakres, wariancja, pierwszy kwartyl

Załóżmy, że $X$ jest zmienną losową o rozkładzie wykładniczym z parametrem $\lambda$. Prawdopodobieństwo, że $X$ jest większe od pewnego $a$, czyli $P(X > a)$, można obliczyć jako:
- suma prawdopodobieństw związanych z wartościami całkowitymi $X$, które są większe od $a$
- $1/\lambda$
-| $1 - F(a)$, gdzie $F(x)$ to skumulowana dystrybuanta (CDF) zmiennej $X$

Próba:
- zawiera co najmniej 40 zmiennych losowych
-| jest podzbiorem populacji
- zazwyczaj oznaczana przez $\bar{X}$

Niech $L$ i $U$ będą funkcjami zmiennych losowych tworzących próbkę spełniającą $P(L < \mu < U) = 0{,}99$. Wtedy z 99% pewnością przedział $(L,U)$ pokrywa prawdziwą wartość:
- poziomu ufności
-| średniej populacji
- średniej próbki

Znaczenie testu, zazwyczaj oznaczane przez $\alpha$, jest równe:
- poziomowi ufności
-| prawdopodobieństwu błędu I rodzaju
- prawdopodobieństwu błędu II rodzaju

Załóżmy, że dwie próbki są losowo wybrane z populacji o rozkładzie normalnym. Aby skonstruować przedział ufności dla różnicy średnich populacji, nie musimy weryfikować założenia o:
- homogeniczności wariancji populacji
- homogeniczności wariancji próbek
-| normalności rozkładu obu populacji

Aby przeprowadzić analizę wariancji (ANOVA) w celu przetestowania hipotezy o równości kilku średnich populacji, muszą być spełnione następujące założenia:
- normalność rozkładu każdego leczenia i równość rozmiarów próbek
-| normalność rozkładu każdej populacji i homogeniczność wariancji populacji
- równość rozmiarów próbek i homogeniczność wariancji próbek

Jeśli linia regresji ma postać $y = b_0 + b_1x$, to ujemna wartość estymacji $b_1$ pokazuje:
- jak duża jest wartość $y$, gdy $x$ jest równy estymacji $b_1$
- o ile wartość $y$ wzrasta, gdy $x$ maleje o estymację $b_1$
-| o ile wartość $y$ maleje, gdy $x$ wzrasta o 1

Która z poniższych funkcji nie jest przeznaczona do testowania normalności rozkładu?
- Test Kołmogorowa-Lillieforsa
- test Shapiro-Wilka
-| test Friedmana

Rozważmy przykład, w którym chcemy porównać dwa rozkłady, a założenie o normalności nie ma sensu, ponieważ na przykład zbieramy tylko pomiary całkowite lub rozkłady są skośne. Który test jest odpowiedni do sprawdzenia, czy rozkłady są identyczne, jeśli próbki nie są niezależne?
- test chi-kwadrat
-| test rang Wilcoxona
- test Pearsona

// Statystyka — test - II_ Przegląd próby.pdf z dysku Informatyka 2023, pytania 1–10 ze zrzutów ekranu

Analiza wariancji (ANOVA) służy do testowania hipotezy o równości:
-| kilku średnich populacyjnych
- kilku średnich z próby
- kilku wariancji populacyjnych

Która z poniższych funkcji nie przyda się do testowania normalności rozkładu prawdopodobieństwa?
-| sigma.test
- shapiro.test
- lillie.test

Błąd I-go rodzaju popełniamy, gdy:
- nie odrzucimy prawdziwej hipotezy zerowej
-| odrzucimy prawdziwą hipotezę zerową
- fałszywa hipoteza zerowa zostanie odrzucona

Z wykresu pudełkowego nie odczytamy wartości:
- minimum, rozstępu i rozstępu międzykwartylowego
-| rozstępu, wariancji i pierwszego kwartyla
- rozstępu, minimum i trzeciego kwartyla

Niech $f(x)$ będzie funkcją gęstości prawdopodobieństwa ciągłej zmiennej losowej $X$ i niech $F(x)$ będzie jej dystrybuantą. Wówczas $P(a < X < b)$ nie może być obliczone ze wzoru:
- $\int_a^b f(x)\,dx$
- $F(b)-F(a)$
-| $f(b)-f(a)$

Załóżmy, że pobrana została $n$-elementowa próba z rozkładu normalnego ze znanym odchyleniem standardowym $\sigma$. Do oceny przedziałowej średniej populacyjnej możemy wykorzystać funkcję:
- zsum.test wykorzystującą kwantyle rozkładu $N(0,1)$
-| z.test wykorzystującą kwantyle rozkładu $N(0,1)$
- t.test wykorzystującą kwantyle rozkładu t-Studenta z $n-1$ stopniami swobody

Jeżeli $X_1,\ldots,X_n$ jest próbą z rozkładu normalnego ze średnią $\mu$ i odchyleniem standardowym $\sigma$, to suma $X_1+\cdots+X_n$:
-| ma rozkład $N(n\mu,\sqrt{n}\sigma)$
- ma asymptotyczny rozkład $N(\mu,\sigma/\sqrt{n})$
- ma asymptotyczny rozkład $N(n\mu,\sqrt{n}\sigma)$

Rozważmy eksperyment, w którym badana jest liczba niedopełnionych puszek w zależności od automatu napełniającego (jest 6 automatów). Eksperymentator zauważył, że z upływem czasu ilość napoju w puszce maleje, niezależnie od tego, który automat je napełnia. Zatem założenie o normalności rozkładu liczby niedopełnionych puszek nie ma sensu. Którego testu użyć do sprawdzenia, czy wybór automatu ma wpływ na liczbę niedopełnionych puszek?
- ANOVA
-| H Kruskala-Wallisa
- testu Wilcoxona

Jeśli równanie prostej regresji ma postać $y=b_0+b_1x$, to ujemna wartość współczynnika regresji $b_1$ informuje:
- o ile wzrośnie wartość $y$ jeśli wartość $x$ zmaleje o $b_1$
-| o ile zmaleje wartość $y$ jeśli wartość $x$ wzrośnie o 1
- jaka jest wartość $y$ dla $x$ równego $b_1$

Załóżmy, że pobrane zostały losowo dwie próby z rozkładów normalnych. Do oceny przedziałowej ilorazu wariancji populacyjnych można wykorzystać funkcję:
- t.test
-| var.test
- sigma.test


// Statystyka — pytania analogiczne / potencjalne

Wykres dystrybuanty zmiennej losowej dyskretnej ma kształt:
-| schodkowy
- dzwonowy
- liniowy bez skoków

Dystrybuanta $F(x)$ zmiennej losowej oznacza:
-| prawdopodobieństwo $P(X \leq x)$
- prawdopodobieństwo $P(X = x)$
- wartość funkcji gęstości w punkcie $x$

Dla ciągłej zmiennej losowej dystrybuanta jest zwykle:
-| funkcją ciągłą
- funkcją zawsze schodkową
- funkcją malejącą

Dla dyskretnej zmiennej losowej dystrybuanta:
-| może mieć skoki w punktach przyjmowanych przez zmienną losową
- zawsze jest funkcją gęstości
- zawsze jest linią prostą

Statystyka to:
-| dowolna funkcja zmiennych losowych stanowiących próbę, niezawierająca nieznanych parametrów
- dowolna funkcja nieznanych parametrów populacji
- wyłącznie średnia populacyjna

Która z poniższych wielkości nie jest statystyką?
- średnia z próby
- suma obserwacji z próby
-| średnia populacyjna $\mu$

Która z poniższych wielkości jest statystyką?
-| wariancja z próby
- wariancja populacji $\sigma^2$
- parametr $\lambda$ rozkładu wykładniczego

Statystyka może być funkcją:
-| obserwacji z próby
- wyłącznie parametrów populacji
- wyłącznie poziomu ufności

Estymator jest:
-| statystyką służącą do szacowania nieznanego parametru populacji
- zawsze znanym parametrem populacji
- zawsze błędem losowym

Niech $L$ i $U$ będą statystykami spełniającymi $P(L < \theta < U)=1-\alpha$. Wtedy przedział $(L,U)$ jest:
-| przedziałem ufności dla parametru $\theta$ na poziomie ufności $1-\alpha$
- przedziałem predykcji dla każdej przyszłej obserwacji
- przedziałem zawierającym zawsze wszystkie obserwacje z próby

Jeżeli $P(L < \mu < U)=0{,}95$, to przedział $(L,U)$ jest:
-| 95% przedziałem ufności dla średniej populacji
- 95% przedziałem ufności dla średniej próby
- 95% przedziałem ufności dla poziomu istotności

W przedziale ufności dla średniej populacji $\mu$ losowe są:
-| granice przedziału $L$ i $U$
- parametr $\mu$
- poziom ufności po obliczeniu przedziału

Poziom ufności $1-\alpha$ oznacza:
-| prawdopodobieństwo pokrycia prawdziwego parametru przez losowo skonstruowany przedział
- prawdopodobieństwo błędu I rodzaju
- wartość średniej populacji

Poziom istotności $\alpha$ oznacza:
-| prawdopodobieństwo popełnienia błędu I rodzaju
- prawdopodobieństwo popełnienia błędu II rodzaju
- prawdopodobieństwo przyjęcia hipotezy zerowej

Błąd I rodzaju polega na:
-| odrzuceniu prawdziwej hipotezy zerowej
- nieodrzuceniu fałszywej hipotezy zerowej
- odrzuceniu fałszywej hipotezy zerowej

Błąd II rodzaju polega na:
-| nieodrzuceniu fałszywej hipotezy zerowej
- odrzuceniu prawdziwej hipotezy zerowej
- odrzuceniu fałszywej hipotezy zerowej

Jeżeli hipoteza zerowa jest prawdziwa, a my ją odrzucimy, to popełniamy:
-| błąd I rodzaju
- błąd II rodzaju
- błąd estymacji punktowej

Jeżeli hipoteza zerowa jest fałszywa, a my jej nie odrzucimy, to popełniamy:
-| błąd II rodzaju
- błąd I rodzaju
- błąd standardowy średniej

Wykres pudełkowy pozwala odczytać:
-| minimum, pierwszy kwartyl, medianę, trzeci kwartyl i maksimum
- średnią, wariancję i odchylenie standardowe
- wyłącznie wartości odstające

Z wykresu pudełkowego nie odczytamy bezpośrednio:
-| wariancji
- mediany
- rozstępu międzykwartylowego

Rozstęp międzykwartylowy to:
-| różnica między trzecim a pierwszym kwartylem
- różnica między maksimum a minimum
- różnica między średnią a medianą

Mediana na wykresie pudełkowym jest zazwyczaj przedstawiona jako:
-| linia wewnątrz pudełka
- koniec górnego wąsa
- punkt odstający

ANOVA służy do testowania hipotezy o równości:
-| kilku średnich populacyjnych
- kilku wariancji z próby
- kilku median populacyjnych w każdej sytuacji

Hipoteza zerowa w jednoczynnikowej analizie wariancji ANOVA mówi, że:
-| wszystkie średnie populacyjne są równe
- wszystkie wariancje z próby są różne
- wszystkie populacje mają rozkład jednostajny

Po odrzuceniu hipotezy zerowej w ANOVA możemy stwierdzić, że:
-| co najmniej jedna średnia populacyjna różni się od pozostałych
- wszystkie średnie populacyjne są na pewno parami różne
- wszystkie wariancje populacyjne są równe

Testy post-hoc po ANOVA stosuje się, aby:
-| sprawdzić, które średnie różnią się istotnie między sobą
- sprawdzić normalność każdej populacji
- obliczyć dystrybuantę zmiennej losowej

Test Tukeya jest przykładem:
-| testu post-hoc po analizie wariancji
- testu normalności rozkładu
- testu zgodności chi-kwadrat

Funkcja `shapiro.test` służy do:
-| testowania normalności rozkładu
- testowania równości wariancji dwóch populacji
- testowania niezależności dwóch zmiennych jakościowych

Funkcja `var.test` w R służy do:
-| testowania równości wariancji dwóch populacji normalnych
- testowania normalności rozkładu
- testowania równości kilku średnich populacyjnych

Funkcja `t.test` w R może służyć do:
-| testowania hipotez dotyczących średniej
- testowania zgodności rozkładu empirycznego z teoretycznym
- testowania normalności rozkładu

Funkcja `chisq.test` może służyć do:
-| testu zgodności lub testu niezależności
- testowania średniej populacyjnej przy znanym odchyleniu standardowym
- testowania normalności rozkładu

Test Kruskala-Wallisa jest nieparametrycznym odpowiednikiem:
-| jednoczynnikowej analizy wariancji ANOVA
- testu Shapiro-Wilka
- testu F dla wariancji

Test Wilcoxona stosuje się między innymi, gdy:
-| porównujemy rozkłady bez zakładania normalności
- zawsze znamy wariancję populacji
- badamy wyłącznie zmienne nominalne

Kowariancja ujemna oznacza, że:
-| wzrostowi jednej zmiennej zwykle towarzyszy spadek drugiej zmiennej
- zmienne nie mogą być ze sobą powiązane
- obie zmienne zawsze mają rozkład normalny

Dodatnia wartość współczynnika regresji $b_1$ w modelu $y=b_0+b_1x$ oznacza, że:
-| gdy $x$ wzrasta o 1, przewidywana wartość $y$ wzrasta o $b_1$
- gdy $x$ wzrasta o 1, przewidywana wartość $y$ maleje o $b_1$
- wartość $y$ jest zawsze równa $b_0$

Ujemna wartość współczynnika regresji $b_1$ w modelu $y=b_0+b_1x$ oznacza, że:
-| gdy $x$ wzrasta o 1, przewidywana wartość $y$ maleje o $|b_1|$
- gdy $x$ wzrasta o 1, przewidywana wartość $y$ wzrasta o $b_1$
- zmienna $x$ nie ma żadnego wpływu na $y$

Dla zmiennej losowej ciągłej prawdopodobieństwo $P(a<X<b)$ obliczamy jako:
-| $F(b)-F(a)$
- $f(b)-f(a)$
- $F(a)-F(b)$

Dla zmiennej losowej ciągłej prawdopodobieństwo $P(a<X<b)$ można obliczyć jako:
-| $\int_a^b f(x)dx$
- $\int_b^a f(x)dx$
- $f(a)+f(b)$

Dla zmiennej losowej wykładniczej z dystrybuantą $F(x)$ prawdopodobieństwo $P(X>a)$ wynosi:
-| $1-F(a)$
- $F(a)$
- $f(a)$