Regresní techniky v Excelu

Měříme závislost proměnné y na jedné nebo více nezávisle proměnných. Hodnoty nezávisle proměnných nastavíme pevně. Naměřené hodnoty závisle proměnné vykazují určité odchylky – kolísání (obvykle na nich mají velký podíl experimentální chyby) kolem neznámé střední hodnoty.

Budeme studovat závislost proměnné y na jedné nezávisle proměnné x. Provedeme n měření. Získáme tak body (xi,yi), i=1,2,…n. Předpokládejme, že naše měřená závislost je matematicky formulována známým zákonem - rovnicí y=f(x). Funkci f budeme nazývat regresní funkce.

Regresní funkci proložíme naměřenými daty tak, abychom naším prokladem zmíněné kolísání dat minimalizovali. Tím zároveň určíme odhad neznámých parametrů regresní funkce. Jinak řečeno, cílem regrese je určit takové hodnoty parametrů regresní funkce, aby tato funkce co nejlépe prokládala zadaná data.

Excel již obsahuje nástroje, které tyto hodnoty parametrů, pro regresní funkce lineární vzhledem k parametrům, počítají. Používá k tomu samozřejmě metodu nejmenších čtverců. Po získání odhadů regresních parametrů lze z regresní funkce vypočítat, po zadání hodnoty nezávisle proměnné x, odpovídající odhad závisle proměnné y. Popsanému výpočtu říkáme predikce.

Funkce LinRegrese()

Mějme regresní funkci lineární k hledaným parametrům: y= β01 f1 (x)+ β2 f2 (x)+ ... +βm fm (x) , kde βj, j=0,1,...,m, jsou neznámé parametry, fk (x), kde k=1,...,m, nazýváme regresory. Parametry βj regresní funkce pouze odhadujeme z provedených n měření. Odhad každého parametru βj budeme značit bj. Právě pro odhad parametrů tohoto typu regresních funkcí, ke kterému patří polynomiální regresní funkce, tedy regresní přímka i regresní parabola, slouží excelovská funkce LinRegrese(). Její zápis, včetně argumentů, je LinRegrese(Y;X;B;Stat). Jak připravená data potřebuje?

Pokud žádáme od funkce LinRegrese() jen výpočet odhadu parametrů bj, je jejím výsledkem jednořádková matice o počtu sloupců, který je roven počtu těchto parametrů. Nutno zdůraznit, že pořadí získaných parametrů je opačné, než pořadí sloupců s hodnotami příslušných regresorů v argumentu X. Absolutní člen b0 je vždy poslední. Počítáme-li další statistické charakteristiky regrese (Stat=TRUE), zadáme pro výslednou matici funkce LinRegrese() obdélník o pěti řádcích a počtu sloupců, který je roven počtu hledaných parametrů.

Příklady regresních funkcí.

  1. Regresní funkce y=b0+b1 x (regresní přímka) je lineární vzhledem k neznámým parametrům b0,b1, pro regresor f1(x) platí f1(x)=x. Výchozími daty pro regresi bude tabulka o dvou sloupcích. V prvním bude n hodnot nezávisle proměnné (argument X), ve druhém n hodnot závisle proměnné (argument Y). Výsledná matice parametrů funkce LinRegrese() bude obsahovat po řadě parametry b1,b0.
  2. Regresní funkce y=b0+b1 x+ b2 x2 (regresní parabola) je lineární vzhledem k neznámým parametrům b0,b1,b2, pro regresor f1(x) platí f1(x)=x, pro regresor f2 (x) platí f2 (x)=x2. Výchozími daty pro regresi bude tabulka (matice) o třech sloupcích a n řádcích. V prvním sloupci budou hodnoty nezávisle proměnné, ve druhém hodnoty čtverců nezávisle proměnné (tyto dva sloupce tvoří argument X) a ve třetím budou hodnoty závisle proměnné (argument Y). Výsledná matice parametrů funkce LinRegrese() bude obsahovat po řadě parametry b2,b1, b0. Změníme-li pořadí sloupců v argumentu X, změní se pořadí získaných parametrů na b1,b2, b0.
  3. Regresní funkce y=b0+b1 x1+ b2 x2 je lineární vzhledem k neznámým parametrům b0,b1,b2. Je to funkce dvou proměnných x1 a x2, které jsou zároveň regresory. Výchozími daty pro regresi bude tabulka o třech sloupcích a n řádcích. V prvním sloupci budou hodnoty nezávisle proměnné x1, ve druhém hodnoty nezávisle proměnné x2 (tyto dva sloupce tvoří argument X) a ve třetím bude n hodnot závisle proměnné (argument Y). Výsledná matice parametrů funkce LinRegrese() bude obsahovat po řadě parametry b2,b1, b0. Změníme-li pořadí sloupců v argumentu X, změní se pořadí získaných parametrů na b1,b2, b0.
  4. Regresní funkce y=b1 .e(b2.x)+ b3 .e(b4.x) není lineární vzhledem k parametrům b2 a b4. Proto nelze k výpočtu hodnot jejich parametrů použít funkce LinRegrese().

Regrese obecnou přímkou y=b0+b1x

X je vektor hodnot nezávisle proměnné x.

Y je vektor obsahující odpovídající naměřené hodnoty závisle proměnné y.

Hodnotu B nezadáváme.

Hodnotu Stat zadáme jen v tom případě, požadujeme-li statistické charakteristiky regrese.

Pracovní postup

Regrese přímkou procházející počátkem y=b1x

Pracovní postup

Regrese parabolou y=b0+b1 x+ b2 x2

Maticová funkce LinRegrese(Y, X, B, Stat) poskytuje řádkovou matici hodnot odhadovaných parametrů.

X je matice hodnot regresorů x a x2.

Y je vektor obsahující odpovídající naměřené hodnoty závisle proměnné y.

Hodnotu B nezadáváme.

Hodnotu Stat zadáme jen v tom případě, pokud bychom požadovali statistické charakteristiky regrese.

Pracovní postup (viz následující obrázek)

Exponenciální regrese

Excel též umožňuje použít regresní funkci y=b1exp(b2x). K určení regresních parametrů b1 a b2 lze použít funkci LinRegrese(), i když je regresní funkce vzhledem k druhému z nich nelineární. Pomůže nám zlogaritmování regresní funkce, čímž nelinearitu odstraníme. Dostaneme vztah ln(y)=ln(b1)+ b2x.

Maticová funkce LinRegrese(Y, X, B, Stat) poskytuje řádkovou matici hodnot odhadovaných parametrů.

X je sloupcová matice hodnot regresoru x.

Y je vektor obsahující odpovídající naměřené hodnoty přirozeného logaritmu závisle proměnné y.

Hodnotu B nezadáváme.

Hodnotu Stat zadáme jen v tom případě, pokud bychom požadovali statistické charakteristiky regrese.

Pracovní postup (viz následující obrázek)

Logaritmická regrese

Excel též umožňuje použít regresní funkci y=b1ln(x) + b0. K určení regresních parametrů b1 a b0 lze použít funkci LinRegrese().

Maticová funkce LinRegrese(Y, X, B, Stat) poskytuje řádkovou matici hodnot odhadovaných parametrů.

X je sloupcová matice hodnot přirozeného logaritmu regresoru x.

Y je vektor obsahující odpovídající naměřené hodnoty závisle proměnné y.

Hodnotu B nezadáváme.

Hodnotu Stat zadáme jen v tom případě, pokud bychom požadovali statistické charakteristiky regrese.

Pracovní postup (viz následující obrázek)

Mocninná regrese

Excel též umožňuje použít regresní funkci y=b1xb2. K určení regresních parametrů b1 a b2 lze použít funkci LinRegrese(), i když je regresní funkce vzhledem k druhému z nich nelineární. Pomůže nám zlogaritmování regresní funkce, čímž nelinearitu odstraníme. Dostaneme vztah ln(y)=ln(b1)+ b2ln(x).

Maticová funkce LinRegrese(Y, X, B, Stat) poskytuje řádkovou matici hodnot odhadovaných parametrů.

X je sloupcová matice hodnot přirozeného logaritmu regresoru x.

Y je vektor obsahující přirozený logaritmus naměřených hodnoty závisle proměnné y.

Hodnotu B nezadáváme.

Hodnotu Stat bychom zadali jen v tom případě, pokud bychom požadovali statistické charakteristiky regrese.

Pracovní postup (viz následující obrázek)