// Statystyka - pytania_SiAD_AI-1.pdf z dysku Informatyka 2023 pytania 1-20 Mediana (drugi kwartyl): -| jest wartością środkową w zbiorze obserwacji - oddziela 75% swoich wyższych obserwacji od 25% swoich niższych obserwacji - pojawia się najczęściej wśród wszystkich obserwacji Rozkład prawdopodobieństwa dyskretnej zmiennej losowej może być przedstawiony: -| w postaci tabeli, z wartościami zmiennej losowej w pierwszym wierszu i odpowiednimi prawdopodobieństwami w drugim wierszu - w postaci tabeli, z wartościami zmiennej losowej w pierwszym wierszu i odpowiednimi częstościami w drugim wierszu - jako $\int_{-\infty}^{\infty} f(x) dx$ Która z poniższych reprezentuje statystyki? - proporcji populacji -| suma zmiennych losowych stanowiących próbę - średnia populacyjna Niech $L$ i $U$ będą funkcjami zmiennych losowych stanowiących próbkę spełniającą $P(L < \sigma^2 < U) = 0{,}9$. Następnie różnica $(U-L)$: -| jest długością 90% przedziału ufności dla wariancji populacji - z 90% ufnością obejmuje prawdziwą wartość wariancji populacji - jest 90% przedziałem ufności dla wariancji populacji Hipoteza: $H_0: \sigma^2 = 0{,}9$, $H_1: \sigma^2 \neq 0{,}9$, jest związana z testowaniem: -| wariancji populacji - poziomu istotności - wariancji próby Załóżmy, że dwie próbki są losowo wybierane z normalnie rozmieszczonych populacji. Zanim zostanie skonstruowany przedział ufności dla różnicy między środkami populacji, najpierw zweryfikujemy, czy: - średnie próbek są równe - wariancje próbek są równe -| wariancje populacji nie różnią się istotnie Załóżmy, że przeprowadzono analizę wariancji i odrzucono hipotezę zerową o równości kilku środków populacji. Następnie możemy wykonać testy post-hoc, na przykład test Tukey Honest Significant Difference. Co wywnioskujemy z takiego testu post-hoc? -| które ze średnich populacji są istotnie podobne/różne - które ze środków próbki są jednorodne/heterogeniczne - że populacje są/nie są normalnie rozłożone Załóżmy, że wartość kowariancji próbki między dwiema zmiennymi losowymi jest równa $-0{,}9$. To pokazuje, że: -| wzrost wartości jednej zmiennej oznacza spadek wartości drugiej zmiennej - istnieje bardzo silne liniowe powiązanie między dwiema zmiennymi losowymi - kowariancja nie może być ujemna Która z poniższych funkcji jest poświęcona testowaniu hipotezy o dopasowaniu rozkładu częstotliwości do konkretnego wzorca? -| chisq.test - var.test - t.test Testy nieparametryczne opierają się na: - statystykach skonstruowanych jako funkcje pomiarów o rozkładzie normalnym -| rangach obserwacji - graficznych ocenach obserwacji Na wykresie pudełkowym można zobaczyć następujące wielkości: - kwartyle, zakres, odchylenie standardowe -| zakres, minimum, pierwszy kwartyl - zakres, wariancja, pierwszy kwartyl Załóżmy, że $X$ jest zmienną losową o rozkładzie wykładniczym z parametrem $\lambda$. Prawdopodobieństwo, że $X$ jest większe od pewnego $a$, czyli $P(X > a)$, można obliczyć jako: - suma prawdopodobieństw związanych z wartościami całkowitymi $X$, które są większe od $a$ - $1/\lambda$ -| $1 - F(a)$, gdzie $F(x)$ to skumulowana dystrybuanta (CDF) zmiennej $X$ Próba: - zawiera co najmniej 40 zmiennych losowych -| jest podzbiorem populacji - zazwyczaj oznaczana przez $\bar{X}$ Niech $L$ i $U$ będą funkcjami zmiennych losowych tworzących próbkę spełniającą $P(L < \mu < U) = 0{,}99$. Wtedy z 99% pewnością przedział $(L,U)$ pokrywa prawdziwą wartość: - poziomu ufności -| średniej populacji - średniej próbki Znaczenie testu, zazwyczaj oznaczane przez $\alpha$, jest równe: - poziomowi ufności -| prawdopodobieństwu błędu I rodzaju - prawdopodobieństwu błędu II rodzaju Załóżmy, że dwie próbki są losowo wybrane z populacji o rozkładzie normalnym. Aby skonstruować przedział ufności dla różnicy średnich populacji, nie musimy weryfikować założenia o: - homogeniczności wariancji populacji - homogeniczności wariancji próbek -| normalności rozkładu obu populacji Aby przeprowadzić analizę wariancji (ANOVA) w celu przetestowania hipotezy o równości kilku średnich populacji, muszą być spełnione następujące założenia: - normalność rozkładu każdego leczenia i równość rozmiarów próbek -| normalność rozkładu każdej populacji i homogeniczność wariancji populacji - równość rozmiarów próbek i homogeniczność wariancji próbek Jeśli linia regresji ma postać $y = b_0 + b_1x$, to ujemna wartość estymacji $b_1$ pokazuje: - jak duża jest wartość $y$, gdy $x$ jest równy estymacji $b_1$ - o ile wartość $y$ wzrasta, gdy $x$ maleje o estymację $b_1$ -| o ile wartość $y$ maleje, gdy $x$ wzrasta o 1 Która z poniższych funkcji nie jest przeznaczona do testowania normalności rozkładu? - Test Kołmogorowa-Lillieforsa - test Shapiro-Wilka -| test Friedmana Rozważmy przykład, w którym chcemy porównać dwa rozkłady, a założenie o normalności nie ma sensu, ponieważ na przykład zbieramy tylko pomiary całkowite lub rozkłady są skośne. Który test jest odpowiedni do sprawdzenia, czy rozkłady są identyczne, jeśli próbki nie są niezależne? - test chi-kwadrat -| test rang Wilcoxona - test Pearsona // Statystyka — test - II_ Przegląd próby.pdf z dysku Informatyka 2023, pytania 1–10 ze zrzutów ekranu Analiza wariancji (ANOVA) służy do testowania hipotezy o równości: -| kilku średnich populacyjnych - kilku średnich z próby - kilku wariancji populacyjnych Która z poniższych funkcji nie przyda się do testowania normalności rozkładu prawdopodobieństwa? -| sigma.test - shapiro.test - lillie.test Błąd I-go rodzaju popełniamy, gdy: - nie odrzucimy prawdziwej hipotezy zerowej -| odrzucimy prawdziwą hipotezę zerową - fałszywa hipoteza zerowa zostanie odrzucona Z wykresu pudełkowego nie odczytamy wartości: - minimum, rozstępu i rozstępu międzykwartylowego -| rozstępu, wariancji i pierwszego kwartyla - rozstępu, minimum i trzeciego kwartyla Niech $f(x)$ będzie funkcją gęstości prawdopodobieństwa ciągłej zmiennej losowej $X$ i niech $F(x)$ będzie jej dystrybuantą. Wówczas $P(a < X < b)$ nie może być obliczone ze wzoru: - $\int_a^b f(x)\,dx$ - $F(b)-F(a)$ -| $f(b)-f(a)$ Załóżmy, że pobrana została $n$-elementowa próba z rozkładu normalnego ze znanym odchyleniem standardowym $\sigma$. Do oceny przedziałowej średniej populacyjnej możemy wykorzystać funkcję: - zsum.test wykorzystującą kwantyle rozkładu $N(0,1)$ -| z.test wykorzystującą kwantyle rozkładu $N(0,1)$ - t.test wykorzystującą kwantyle rozkładu t-Studenta z $n-1$ stopniami swobody Jeżeli $X_1,\ldots,X_n$ jest próbą z rozkładu normalnego ze średnią $\mu$ i odchyleniem standardowym $\sigma$, to suma $X_1+\cdots+X_n$: -| ma rozkład $N(n\mu,\sqrt{n}\sigma)$ - ma asymptotyczny rozkład $N(\mu,\sigma/\sqrt{n})$ - ma asymptotyczny rozkład $N(n\mu,\sqrt{n}\sigma)$ Rozważmy eksperyment, w którym badana jest liczba niedopełnionych puszek w zależności od automatu napełniającego (jest 6 automatów). Eksperymentator zauważył, że z upływem czasu ilość napoju w puszce maleje, niezależnie od tego, który automat je napełnia. Zatem założenie o normalności rozkładu liczby niedopełnionych puszek nie ma sensu. Którego testu użyć do sprawdzenia, czy wybór automatu ma wpływ na liczbę niedopełnionych puszek? - ANOVA -| H Kruskala-Wallisa - testu Wilcoxona Jeśli równanie prostej regresji ma postać $y=b_0+b_1x$, to ujemna wartość współczynnika regresji $b_1$ informuje: - o ile wzrośnie wartość $y$ jeśli wartość $x$ zmaleje o $b_1$ -| o ile zmaleje wartość $y$ jeśli wartość $x$ wzrośnie o 1 - jaka jest wartość $y$ dla $x$ równego $b_1$ Załóżmy, że pobrane zostały losowo dwie próby z rozkładów normalnych. Do oceny przedziałowej ilorazu wariancji populacyjnych można wykorzystać funkcję: - t.test -| var.test - sigma.test // Statystyka — pytania analogiczne / potencjalne Wykres dystrybuanty zmiennej losowej dyskretnej ma kształt: -| schodkowy - dzwonowy - liniowy bez skoków Dystrybuanta $F(x)$ zmiennej losowej oznacza: -| prawdopodobieństwo $P(X \leq x)$ - prawdopodobieństwo $P(X = x)$ - wartość funkcji gęstości w punkcie $x$ Dla ciągłej zmiennej losowej dystrybuanta jest zwykle: -| funkcją ciągłą - funkcją zawsze schodkową - funkcją malejącą Dla dyskretnej zmiennej losowej dystrybuanta: -| może mieć skoki w punktach przyjmowanych przez zmienną losową - zawsze jest funkcją gęstości - zawsze jest linią prostą Statystyka to: -| dowolna funkcja zmiennych losowych stanowiących próbę, niezawierająca nieznanych parametrów - dowolna funkcja nieznanych parametrów populacji - wyłącznie średnia populacyjna Która z poniższych wielkości nie jest statystyką? - średnia z próby - suma obserwacji z próby -| średnia populacyjna $\mu$ Która z poniższych wielkości jest statystyką? -| wariancja z próby - wariancja populacji $\sigma^2$ - parametr $\lambda$ rozkładu wykładniczego Statystyka może być funkcją: -| obserwacji z próby - wyłącznie parametrów populacji - wyłącznie poziomu ufności Estymator jest: -| statystyką służącą do szacowania nieznanego parametru populacji - zawsze znanym parametrem populacji - zawsze błędem losowym Niech $L$ i $U$ będą statystykami spełniającymi $P(L < \theta < U)=1-\alpha$. Wtedy przedział $(L,U)$ jest: -| przedziałem ufności dla parametru $\theta$ na poziomie ufności $1-\alpha$ - przedziałem predykcji dla każdej przyszłej obserwacji - przedziałem zawierającym zawsze wszystkie obserwacje z próby Jeżeli $P(L < \mu < U)=0{,}95$, to przedział $(L,U)$ jest: -| 95% przedziałem ufności dla średniej populacji - 95% przedziałem ufności dla średniej próby - 95% przedziałem ufności dla poziomu istotności W przedziale ufności dla średniej populacji $\mu$ losowe są: -| granice przedziału $L$ i $U$ - parametr $\mu$ - poziom ufności po obliczeniu przedziału Poziom ufności $1-\alpha$ oznacza: -| prawdopodobieństwo pokrycia prawdziwego parametru przez losowo skonstruowany przedział - prawdopodobieństwo błędu I rodzaju - wartość średniej populacji Poziom istotności $\alpha$ oznacza: -| prawdopodobieństwo popełnienia błędu I rodzaju - prawdopodobieństwo popełnienia błędu II rodzaju - prawdopodobieństwo przyjęcia hipotezy zerowej Błąd I rodzaju polega na: -| odrzuceniu prawdziwej hipotezy zerowej - nieodrzuceniu fałszywej hipotezy zerowej - odrzuceniu fałszywej hipotezy zerowej Błąd II rodzaju polega na: -| nieodrzuceniu fałszywej hipotezy zerowej - odrzuceniu prawdziwej hipotezy zerowej - odrzuceniu fałszywej hipotezy zerowej Jeżeli hipoteza zerowa jest prawdziwa, a my ją odrzucimy, to popełniamy: -| błąd I rodzaju - błąd II rodzaju - błąd estymacji punktowej Jeżeli hipoteza zerowa jest fałszywa, a my jej nie odrzucimy, to popełniamy: -| błąd II rodzaju - błąd I rodzaju - błąd standardowy średniej Wykres pudełkowy pozwala odczytać: -| minimum, pierwszy kwartyl, medianę, trzeci kwartyl i maksimum - średnią, wariancję i odchylenie standardowe - wyłącznie wartości odstające Z wykresu pudełkowego nie odczytamy bezpośrednio: -| wariancji - mediany - rozstępu międzykwartylowego Rozstęp międzykwartylowy to: -| różnica między trzecim a pierwszym kwartylem - różnica między maksimum a minimum - różnica między średnią a medianą Mediana na wykresie pudełkowym jest zazwyczaj przedstawiona jako: -| linia wewnątrz pudełka - koniec górnego wąsa - punkt odstający ANOVA służy do testowania hipotezy o równości: -| kilku średnich populacyjnych - kilku wariancji z próby - kilku median populacyjnych w każdej sytuacji Hipoteza zerowa w jednoczynnikowej analizie wariancji ANOVA mówi, że: -| wszystkie średnie populacyjne są równe - wszystkie wariancje z próby są różne - wszystkie populacje mają rozkład jednostajny Po odrzuceniu hipotezy zerowej w ANOVA możemy stwierdzić, że: -| co najmniej jedna średnia populacyjna różni się od pozostałych - wszystkie średnie populacyjne są na pewno parami różne - wszystkie wariancje populacyjne są równe Testy post-hoc po ANOVA stosuje się, aby: -| sprawdzić, które średnie różnią się istotnie między sobą - sprawdzić normalność każdej populacji - obliczyć dystrybuantę zmiennej losowej Test Tukeya jest przykładem: -| testu post-hoc po analizie wariancji - testu normalności rozkładu - testu zgodności chi-kwadrat Funkcja `shapiro.test` służy do: -| testowania normalności rozkładu - testowania równości wariancji dwóch populacji - testowania niezależności dwóch zmiennych jakościowych Funkcja `var.test` w R służy do: -| testowania równości wariancji dwóch populacji normalnych - testowania normalności rozkładu - testowania równości kilku średnich populacyjnych Funkcja `t.test` w R może służyć do: -| testowania hipotez dotyczących średniej - testowania zgodności rozkładu empirycznego z teoretycznym - testowania normalności rozkładu Funkcja `chisq.test` może służyć do: -| testu zgodności lub testu niezależności - testowania średniej populacyjnej przy znanym odchyleniu standardowym - testowania normalności rozkładu Test Kruskala-Wallisa jest nieparametrycznym odpowiednikiem: -| jednoczynnikowej analizy wariancji ANOVA - testu Shapiro-Wilka - testu F dla wariancji Test Wilcoxona stosuje się między innymi, gdy: -| porównujemy rozkłady bez zakładania normalności - zawsze znamy wariancję populacji - badamy wyłącznie zmienne nominalne Kowariancja ujemna oznacza, że: -| wzrostowi jednej zmiennej zwykle towarzyszy spadek drugiej zmiennej - zmienne nie mogą być ze sobą powiązane - obie zmienne zawsze mają rozkład normalny Dodatnia wartość współczynnika regresji $b_1$ w modelu $y=b_0+b_1x$ oznacza, że: -| gdy $x$ wzrasta o 1, przewidywana wartość $y$ wzrasta o $b_1$ - gdy $x$ wzrasta o 1, przewidywana wartość $y$ maleje o $b_1$ - wartość $y$ jest zawsze równa $b_0$ Ujemna wartość współczynnika regresji $b_1$ w modelu $y=b_0+b_1x$ oznacza, że: -| gdy $x$ wzrasta o 1, przewidywana wartość $y$ maleje o $|b_1|$ - gdy $x$ wzrasta o 1, przewidywana wartość $y$ wzrasta o $b_1$ - zmienna $x$ nie ma żadnego wpływu na $y$ Dla zmiennej losowej ciągłej prawdopodobieństwo $P(aa)$ wynosi: -| $1-F(a)$ - $F(a)$ - $f(a)$