Praca ma zawierać następujące elementy:
Określenie co jest analizowane + podanie źródła skąd dane zostały pobrane
Analiza jednej zmiennej np. częstość występowania otyłości w Europie
– histogram i/lub wykres pudełkowy lub jakiś inny,
– średnia, mediana, kwartyle,
– wariancja, odchylenie standardowe, odchylenie ćwiartkowe
– współczynnik skośności
Analiza dwu zmiennych, np. częstość występowania cukrzycy a
występowanie otyłości w Europie albo
number of neonatal deaths vs
number of medical doctors.
– wykres (korelogram)
– model regresji liniowej, interpretacja parametrów(u) modelu
– współczynnik determinacji \(R^2\), ocena istotności parametrów
Analiza szeregu czasowego, np liczby zgonów na szpiczaka plazocytowego w Polsce
– wykres
– model trendu liniowego
– współczynnik determinacji \(R^2\), ocena istotności parametrów
– obliczyć średnie tempo zmian
Proszę nie kopiować literalnie, poniższe ma stanowić inspirację :-)
Wykorzystano następujące zbiory danych
Otyłość wśród dorosłych, BMI ≥ 30, częstość występowania (surowe oszacowanie) (%) (Obesity among adults, BMI >= 30, prevalence (crude estimate) (%)) https://www.who.int/data/gho/data/indicators/indicator-details/GHO/prevalence-of-obesity-among-adults-bmi-=-30-(crude-estimate)-(-)
Standaryzowana względem wieku częstość występowania cukrzycy (%) (Age standardized prevalenc of diabets (%)) https://www.who.int/data/gho/data/indicators/indicator-details/GHO/prevalence-of-diabetes-age-standardized
Liczba zmarłych z powodu chłoniaków oraz szpiczka mnogiego w Polsce w latach 1959–2022 https://platform.who.int/mortality/themes/theme-details/topics/indicator-groups/indicator-group-details/MDB/lymphomas-multiple-myeloma
W tabeli zestawiono, a na wykresie przedstawiono przeciętny poziom zjawiska, jego rozproszenie oraz skośność w latach 2000 i 2022.
| year | mean | median | q1 | q3 | variance | sd | iqr | skweness |
|---|---|---|---|---|---|---|---|---|
| 2000 | 16.58994 | 16.59954 | 13.13881 | 19.73004 | 15.51547 | 3.938968 | 6.591226 | 0.1944353 |
| 2022 | 25.63361 | 25.84998 | 20.99145 | 29.93067 | 40.16141 | 6.337303 | 8.939220 | -0.0289372 |
W porównaniu do pierwszego okresu, w drugim okresie obserwuje się wyraźny wzrost poziomu otyłości, co widoczne jest w wyższej medianie i średniej. Jednocześnie zwiększone rozproszenie wskazuje, że populacja stała się bardziej niejednorodna — różnice między krajami o najniższych i najwyższych wartościach otyłości uległy pogłębieniu.
Zależność pomiędzy otyłością na występowanie cukrzycy przedstawiono na rysunku
Hipoteza badawcza: istnieje zależność między otyłością a częstością występowania cukrzycy
Do weryfikacji hipotezy wykorzystujemy dane nt. otyłości oraz cukrzycy w Europie w 2022 roku
##
## Call:
## lm(formula = d ~ o, data = oc.eur)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8758 -1.7902 -0.9225 1.5681 9.4628
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.27917 1.73995 1.31 0.196214
## o 0.26243 0.06593 3.98 0.000223 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.984 on 50 degrees of freedom
## Multiple R-squared: 0.2406, Adjusted R-squared: 0.2254
## F-statistic: 15.84 on 1 and 50 DF, p-value: 0.0002226
Hipoteza badawcza została potwierdzona: jeżeli odsetek osób z otyłością wzrośnie o 1% to odsetek osób z cukrzycą przeciętnie wzrośnie o 0,26%; wartość ta jest istotna statystycznie (\(p=0.0002\)). Wielkość współczynnika determinacji \(R^2 = 24\)% oznacza, że 24% zmienności odsetka osób z cukrzycą jest wyjaśniane przez model (czyli nie za dużo).
Liczbę zgonów z powodu chłoniaka oraz szpiczaka mnogiego w Polsce w latach 1959–2022 według płci zmarłego przedstawiono na wykresie.
Moża zaobserwować wyrażny trend liniowy do okołu roku 2018, w którym to roku nastąpiła wyraźne odwrócenie tendencji i spadek. Z powodu obu chorób umierało więcej mężczyzn niż kobiet.
Oszacowano także model trendu liniowego liczby zgonów łącznie (kobiety + mężczyźni) z powodu chłoniaka oraz szpiczaka mnogiego w Polsce w latach 1959–2022
##
## Call:
## lm(formula = zgony ~ trend, data = m.pl.bothsexes)
##
## Residuals:
## Min 1Q Median 3Q Max
## -543.54 -89.11 -19.10 93.45 304.67
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 379.3605 41.5248 9.136 0.000000000000584 ***
## trend 17.6368 0.3884 45.413 < 0.0000000000000002 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 164.1 on 60 degrees of freedom
## Multiple R-squared: 0.9717, Adjusted R-squared: 0.9713
## F-statistic: 2062 on 1 and 60 DF, p-value: < 0.00000000000000022
W latach 1959–2022 przeciętny roczny wzrost liczby zgonów wynosił około 17,6 osób; wielkość ta jest istotna statystycznie. Wartość współczynnika determinacji jest wysoka bo wynosi 97%.
Średnie tempo zmian liczby zgonów łącznie w latach 1959-2022 wynosiło 3.7%, tj. przeciętnie w tym okresie liczba zgonów ogółem rośnie o 3.7%.