Odhad (statistika)

Z Wikipedie, otevřené encyklopedie

Parametry statistického souboru jsou obvykle neznámé. Jejich hodnoty se snažíme určit pomocí tzv. odhadů.

Máme-li náhodný výběr X1,X2,...,Xn z určitého rozdělení, které závisí na neznámém parametru θ, pak parametr θ může nabývat pouze určitých hodnot z tzv. parametrického prostoru Ω. Prostřednictvím teorie odhadu se snažíme vytvořit statistiku T(X1,X2,...,Xn), jejíž rozdělení pravděpodobnosti se nejvíce blíží danému parametru \theta\in\Omega.


Odhady, v nichž jde o nalezení určitého parametru, označujeme jako parametrické. Existují také neparametrické odhady, při nichž není požadována parametrická specifikace typu pravděpodobnostního rozdělení.

Obsah

[editovat] Bodový odhad

Bodový odhad spočívá v nahrazení neznámé hodnoty parametru základního souboru nebo jeho funkce hodnotou výběrové charakteristiky. Místo pojmu bodový odhad se také říká estimátor.


Konzistentním (nesporným) bodovým odhadem parametru θ základního souboru nazýváme takovou statistiku Tn, která pro dostatečně velké hodnoty indexu n splňuje podmínku

P(|T_n-\theta|\leq\varepsilon)>1-\eta

pro libovolná \varepsilon>0, \eta>0.

Jako nestranný (nevychýlený) bodový odhad parametru θ základního souboru nazýváme statistiku Tn, pro jejíž střední hodnotu platí \operatorname{E}(T_n)=\theta. V opačném případě hovoříme o odhadu zkresleném (vychýleném). Rozdíl b(\theta)=\operatorname{E}(T_n)-\theta se nazývá vychýlením odhadu statistiky Tn. Pokud se s rostoucím rozsahem n náhodného výběru zkreslení zmenšuje, pak říkáme, že daná statistika je asymptoticky nestranným odhadem parametru θ.


Sledujeme-li u některých statistik, které jsou nestranným odhadem parametru θ, jak se jejich hodnoty soustřeďují v blízkosti hodnoty θ, pak za lepší považujeme takovou statistiku, která má menší rozptyl D(T).

[editovat] Metoda maximální věrohodnosti

Pravděpodobně nejpoužívanější metodou určování bodových odhadů je metoda maximální věrohodnosti.

Tato metoda používá k nalezení nejlepšího nestranného odhadu tzv. věrohodnostní funkci L(x1,x2,...,xn,θ), kde x1,x2,...,xn jsou pozorování náhodné veličiny a θ je parametr rozdělení. Nejlepší odhad pak získáme pro takovou hodnotu \theta^\prime, pro kterou dosahuje věrohodnostní funkce svého maxima.

[editovat] Přesnost odhadu

Bodové odhady \hat{\mu}, \hat{\sigma} se od skutečných hodnot μ,σ základního souboru odchylují. Přesnost bodového odhadu můžeme vyjádřit tak, že výsledek bodového odhadu doplníme uvedením určité velikosti této odchylky. Běžně používanou mírou je směrodatná chyba \sqrt{\operatorname{E}\left[{(X-\theta)}^2\right]}. Jinou možností je použití intervalového odhadu.

[editovat] Intervalový odhad

Bodový odhad neurčuje odhadovaný parametr dostatečně, neboť v sobě neobsahuje informaci o tom, nakolik se odhad od skutečné hodnoty parametru odchyluje. Pomocí intervalového odhadu vymezujeme pro parametr interval, v můžeme hodnotu tohoto parametru se zvolenou pravděpodobností očekávat.


Interval mezi hodnotami T1 a T2 nazveme 100(1 − α)% intervalem spolehlivosti (konfidenčním intervalem) parametru θ, pokud platí

P(T1 < θ < T2) = 1 − α

Číslo 1 − α pro 0 < α < 1 je tzv. koeficient spolehlivosti (konfidenční koeficient). Koeficient spolehlivosti 1 − α obvykle volíme s hodnotami 0.95 nebo 0.99, což zajišťuje vysokou pravděpodobnost, že interval (T1,T2) obsahuje hodnotu θ.


[editovat] Určení intervalu spolehlivosti

K určení intervalu spolehlivosti můžeme vyjít ze statistiky T, která je vhodným bodovým odhadem parametru θ. Najdeme funkci V této statistiky, která je monotónní a závislá na θ, a jejíž rozdělení na θ nezávisí a je snadné určit kvantily tohoto rozdělení. Poté určíme hodnoty t1 a t2 takové, že z rovnice P(t1 < V < t2) = 1 − α přejdeme úpravami na tvar P(t1 < θ < t2) = 1 − α.

[editovat] Podívejte se také na

V jiných jazycích