# 5. cvičení: # ------------------------------ # CLT, interval spolehlivosti # simulace, výpočty na reálných datech # vyčistit prostor # spustit R, Rcmdr, TeachingDemos (uvnitř Rcmdr) včetně restartu library(Rcmdr) # demonstrace CLT # pomocí Distributions | Continuous | ... # prohlédnou si hustoty N(0,1), # exponenciálního exp(0.333), # rovnoměrného na (0,1), # beta s parametry 0.35 a 0.25 # v grafech lze listovat, # pro beta (a rovnoměrné) není bohužel dobře umístěná vodorovná osa # # chování průměru z výběrů rozsahu n z TĚCHTO čtyř rozdělení: # Demos | Central limit theorem .. # po řadě např. pro n = 1, 2, 5, 20, 100 # (stále lze listovat) # měřítka nejsou stejná, protože ani limitní normální rozdělení # nemají stejné parametry # # demonstrace CI # Demos | Confidence intervals for the mean # "měřenou" veličinu lze interpretovat jako IQ (odpovídají OBA parametry) # při počátečním nastavení by interval měl být zhruba +- 15 * 2 / 5 = 6 # při n= 4 pak přibližně +- 15 * 2 / 2 = 15 # měnit rozsah výběru, spolehlivost i ne(znalost) sigma, # zdůraznit závislost na n^(-1/2), skutečnost, že se do střední # hodnoty intervalem NEMUSÍME trefit, opět pomůže paměť grafů # # načíst reálnější data # Data - Import data - From text.... # nazvat Kojeni, nastavit spravny oddelovac a deset. tecku # vhodne ulozit (Data - Active dataset - Save active dataset) Kojeni.rda # # priste mozno Data | Load data a vyhledat ... # data zobrazit pomocí View data set, nechat někde stranou na obrazovce # # v Commanderu jsem samotný interval spolehlivosti nenašel, # nejsnazší výpočet intervalu spolehlivosti je pomocí # confint(lm(x~1)) confint(lm(delka~1,data=Kojeni)) # interpretovat! # nesmyslnost interpretace, že v intervalu je 95 % pozorování: # histogram pomocí hist(Kojeni$delka) abline(v=confint(lm(delka~1,data=Kojeni)),col="red") # respektive CI = confint(lm(delka~1,data=Kojeni)) # uložíme meze intervalu # a spočítáme, kolik pozorování uvnitř mezí leží sum(Kojeni$delka>=CI[1] & Kojeni$delka<=CI[2]) # confint(lm(hmotnost~1,data=Kojeni)) # vypovídá o všech dětech za předpokladu, # že podíl hochů a podíl dívek ve výběru odpovídá podílům v populaci confint(lm(hmotnost~1,data=Kojeni,subset=HochL)) confint(lm(hmotnost~1,data=Kojeni,subset=!HochL)) # pro případ (předčasných dotazů na souvislost disjunktnosti intervalů a # průkazného rozdílu mezi středními hodnotami: # pro Cochranův-Coxův test (Anděl: Stat. metody str. 88) platí přesně, # jinak pro dvouvýběrový test asi prakticky taky: # disj. intevaly => významný rozdíl # nevýznamný rozdíl => překrývající se intervaly # může nastat: překrývající se intervaly & významný rozdíl # # simulovat confint(lm(rnorm(10,100,15)~1)) # zkoušet opakovaně, občas by měl vyjít interval neobsahující 100 # # zbytek cvičení věnovat možnosti ukládat výsledky práce do souboru # buď pracovat s MS Wordem nebo s jeho protějškem # Writer z Open Office # otevřít prázdný dokument # zvolit jeho jméno a uložit jej do pracovního adresáře # např. cvic05.rtf (přípona a formát RTF volen tak, aby byla jistota, # že bude lze příště načíst oběma programy # doporučuji nastavit font currier.new, aby kopírované tabulky zůstaly tabulkami # # - samostatně spočítat základní popisné statistiky pro délku # s rozlišením chlapců a děvčat # - doplnit porovnáním krabicových diagramů a grafickým porovnáním průměrů # spočítat a slovy vysvětlit výsledek 95% interval spolehlivosti pro # delka u chlapců # delka u děvčat # - grafy lze do schránky zkopírovat pomocí Ctrl+W, do textového procesoru # pomocí Ctrl+V #