Modele regresji od teorii do praktyki - Dominik Krężołek,Agnieszka Orwat-Acedańska,Grażyna Trzpiot - ebook

Modele regresji od teorii do praktyki ebook

Dominik Krężołek, Agnieszka Orwat-Acedańska, Grażyna Trzpiot

0,0

Opis

Książka „Modele regresji – od teorii do praktyki” to kompleksowy przewodnik po różnych typach modeli regresyjnych — od klasycznych modeli liniowych po nowoczesne podejścia nieparametryczne i addytywne. Łączy teorię z praktycznymi przykładami, co czyni ją bardzo przystępną zarówno dla studentów, jak i praktyków analizy danych. Każde zagadnienie teoretyczne jest poparte przykładami z danych rzeczywistych i interpretacją wyników. Autorzy szczegółowo pokazują, jak ocenić jakość modelu. Książka nie ogranicza się do regresji liniowej, ale uwzględnia również inne rodzaje, jak regresja logitowa, nieparametryczna, mieszana, GAM oraz inne. Analiza danych z różnych rynków sprawia, że czytelnik lepiej rozumie wartość modeli regresji w praktyce. Dzięki temu stanowi nowoczesne i aktualne źródło wiedzy, które może być cennym uzupełnieniem nawet dla bardziej zaawansowanych analityków.
W przeciwieństwie do bardziej formalnych akademickich opracowań, książka napisana jest przystępnym językiem, z myślą o czytelniku na różnych poziomach zaawansowania. Autorzy wyjaśniają każdy krok analizy, co sprawia, że publikacja może służyć zarówno studentom, jak i praktykom analizy danych. W przeciwieństwie do bardziej formalnych wypowiedzi, akademickich opracowań, książka napisana jest przystępnym językiem, z myślą o czytelniku na różnych poziomach zaawansowania. Autorzy wyjaśniają każdy krok analizy, co sprawia, że publikacja może służyć zarówno studentom, jak i praktykom analizy danych.
Autorzy nie ograniczają się do teorii – przeciwnie, każdy model jest zilustrowany realnymi przykładami z różnych dziedzin, takich jak rynek nieruchomości, motoryzacja, sektor finansowy czy środowiskowy. To ogromna zaleta, szczególnie dla osób, które chcą nie tylko poznać wzory i założenia, ale także zobaczyć, jak zastosować modele w praktyce. 

Ebooka przeczytasz w aplikacjach Legimi na:

Androidzie
iOS
czytnikach certyfikowanych
przez Legimi
czytnikach Kindle™
(dla wybranych pakietów)
Windows
10
Windows
Phone

Liczba stron: 114

Rok wydania: 2025

Odsłuch ebooka (TTS) dostepny w abonamencie „ebooki+audiobooki bez limitu” w aplikacjach Legimi na:

Androidzie
iOS
Oceny
0,0
0
0
0
0
0
Więcej informacji
Więcej informacji
Legimi nie weryfikuje, czy opinie pochodzą od konsumentów, którzy nabyli lub czytali/słuchali daną pozycję, ale usuwa fałszywe opinie, jeśli je wykryje.



© edu-Libri s.c. 2025

Redakcja merytoryczna i korekta: Danuta Kamińska-Hass

Projekt okładki i stron tytułowych: GRAFOS

Ilustracja na okładce: Dominik Krężołek

Recenzent:Prof. dr hab. Józef Stawicki

Publikacja dofinansowana przez Uniwersytet Ekonomiczny w Katowicach

Wydawnictwo edu-Libri

ul. Zalesie 15, 30-384 Kraków

e-mail: [email protected]

Skład i łamanie: GRAFOS

Druk i oprawa: OSDW Azymut Sp. z o.o.Łódź ul. Senatorska 31

ISBN druk 978-83-66395-99-2

ISBN pdf 978-83-68441-00-0

ISBN epub 978-83-68441-01-7

ISBN mobi 978-83-68441-02-4

Spis treści

1. Wprowadzenie

2. Modele regresji

3. Modele regresji liniowej

3.1. Standardowy model regresji liniowej

3.2. Klasyczny model regresji wielorakiej

3.3. Model logitowy dla binarnej zmiennej objaśnianej

3.4. Mieszany liniowy model regresji

4. Klasyczne rozszerzenia modeli regresji

4.1. Nieparametryczny model regresji

4.2. Standardowy addytywny model regresji

4.3. Addytywny model regresji Poissona

4.4. Przestrzenny model regresji

5. Analiza danych a modele regresj

5.1. Regresja krokowa

5.2. Regresja składowych głównych

5.3. Uogólnione modele regresji

5.3.1. Binarne modele regresji

5.3.2. Log-liniowy model Poissona

5.3.3. Uogólniony liniowy model

5.4. Regulowana regresja

5.4.1. Regresja grzbietowa

5.4.2. Regresja LASSO

Uwagi końcowe

Zakończenie

Spis tabel

Spis rysunków

Bibliografia

1. Wprowadzenie

Rozwój nauk statystycznych, stanowiących podwaliny analizy danych, datuje się na przełom wieków XVIII i XIX. Rozwój statystyki jest paralelny do rozwoju matematyki (rys. 1.1). Najczęściej u podwalin rozwoju metod statystycznych wymieniamy twierdzenia rachunku prawdopodobieństwa, badanie korelacji oraz twierdzenie o rozkładach warunkowych sir Thomasa Bayes’a. Różnica mierzona w latach pomiędzy publikacją twierdzeń o rozkładzie dwumianowym a publikacją twierdzenia o prawdopodobieństwie całkowitym to blisko 150 lat. Wówczas zapisano dowody analityczne sformułowanych i ogłoszonych twierdzeń [Trzpiot, Krężołek, 2018, s. 112–132].

Rysunek 1.1. Rozwój nauk statystycznych na osi czasu

Źródło: https://www.slideshare.net/capgemini/impact-of-big-data-on-analytics

Kolejnym krokiem milowym w rozwoju nauk statystycznych było określenie zasad modelu regresji. Najwcześniejszą formą regresji była metoda najmniejszych kwadratów opublikowana przez Legendre’a w 1805 r. [Legendre, 1805, s. 72–80] oraz Gaussa [Gauss, 1809, s. 205–224]. Obaj naukowcy zastosowali tę metodę do ustalenia, na podstawie obserwacji astronomicznych, orbit ciał wokół Słońca, przede wszystkim komet, ale także później nowo odkrytych mniejszych planet. Gauss opublikował kolejny etap rozwoju teorii najmniejszych kwadratów w 1821 roku [Gauss, 1821], w tym wersję twierdzenia Gaussa-Markowa.

Termin regresja został wprowadzony przez Francisa Galtona w XIX wieku w celu opisania pewnego zjawiska biologicznego polegającego na tym, że wzrosty potomków wysokich przodków miały tendencję do regresu w kierunku średniej (zjawisko znane również jako regres w kierunku średniej) [Galton, 1989, s. 80–86]. Dla Galtona regresja miała tylko znaczenie w odniesieniu do zjawiska biologicznego, niemniej jednak jego prace zostały później rozszerzone m.in. przez Yule’a i Pearsona [Pearson, Yule, 1903, s. 211–236] oraz Fishera [Fisher, 1922, s. 597–612] na bardziej ogólny kontekst statystyczny.

W modelowaniu statystycznym analiza regresji jest zbiorem procesów statystycznych służących do szacowania zależności między zmiennymi. Obejmuje wiele technik modelowania i analizowania zmiennych, gdy nacisk położony jest na związek między zmienną zależną i jedną (regresja prosta) lub większą liczbą zmiennych niezależnych (regresja wieloraka). Mówiąc dokładniej, analiza regresji pomaga zrozumieć, w jaki sposób zmienia się wartość typowa zmiennej zależnej (zwanej predykcyjną), gdy zmienia się dowolna ze zmiennych niezależnych (predyktorów), przy zachowaniu zasady ceteris paribus.

Metody regresji nadal stanowią obszar aktywnych badań. W ostatnich dziesięcioleciach opracowano nowe metody regresji stabilnej, regresji uwzględniającej skorelowane odpowiedzi, takie jak szeregi czasowe i krzywe wzrostu, w której zmienną predykcyjną lub zmienną odpowiedzi są krzywe, obrazy, wykresy lub inne złożone obiekty danych. Warto również podkreślić, że metody regresji stanowią fundament ekonometrii – dziedziny zajmującej się ilościowym opisem, modelowaniem i weryfikacją zależności ekonomicznych. Modele regresji są w ekonomii powszechnie wykorzystywane do analizy wpływu czynników makroekonomicznych, badania zależności między zmiennymi finansowymi czy prognozowania zjawisk gospodarczych. W dalszej części książki, omawiając przykłady dotyczące danych ekonomicznych, wielokrotnie będziemy odwoływać się właśnie do regresji jako podstawowego narzędzia analizy ekonometrycznej [Gruszczyński i in., 2009; Borkowski i in., 2003]. Ekonometryczny model regresji różni się od statystycznego modelu regresji tym, że jest osadzony w kontekście ekonomicznym i podlega dodatkowym wymogom interpretacyjnym i diagnostycznym [Pitera, 2019; Tatarczak, 2022; Gładysz, 2013]. W modelu ekonometrycznym szczególną uwagę przykłada się do doboru odpowiedniej postaci funkcji, weryfikacji założeń modelu (np. homoskedastyczności, braku autokorelacji, normalności składnika losowego) oraz testowania hipotez ekonomicznych, co wymaga zastosowania rygorystycznych procedur statystycznych [Gładysz, 2013; Tatarczak, 2022].

Powstały kolejne metody regresji uwzględniające różne typy brakujących danych, regresja nieparametryczna, bayesowskie metody regresji, regresja, w której zmienne predykcyjne są mierzone z błędem, regresja z większą liczbą zmiennych predykcyjnych niż obserwacje i wnioskowanie przyczynowe z regresją. Analiza regresji jest szeroko wykorzystywana do przewidywania i prognozowania, gdzie jej zastosowanie w znacznym stopniu pokrywa się z dziedziną uczenia maszynowego. Analiza regresji służy również do zrozumienia, które spośród zmiennych niezależnych są powiązane ze zmienną zależną i do zbadania form tych zależności. W warunkach ograniczonych analizę regresji można wykorzystać do wnioskowania o zależnościach przyczynowych między zmiennymi niezależnymi i zależnymi. Jednak może to prowadzić do złudzeń lub fałszywych relacji, więc należy zachować ostrożność (przykładowo korelacja nie dowodzi związku przyczynowego) [Armstrong, 2012, s. 689].

Efektywność metod analizy regresji w praktyce zależy od formy procesu generowania danych i od tego, w jaki sposób odnosi się do zastosowanego podejścia regresyjnego. Ponieważ prawdziwa forma procesu generowania danych nie jest ogólnie znana, analiza regresji często zależy w pewnym stopniu od przyjęcia założeń na temat tego procesu. Te założenia są czasami sprawdzalne, jeśli dostępna jest wystarczająca ilość danych. Modele regresji są często przydatne, nawet jeśli założenia są umiarkowanie naruszone, chociaż mogą nie być optymalne. Jednak w wielu zastosowaniach, zwłaszcza przy niewielkich efektach lub kwestiach przyczynowości opartych na danych obserwacyjnych, metody regresji mogą dawać mylące wyniki [Bishop, 2006, s. 3].

Spis tabel

Tabela 3.1. Wyniki estymacji modelu regresji prostej.

Tabela 3.2. Średnie i odchylenia standardowe zmiennej zależnej i zmiennych niezależnych

Tabela 3.3. Macierz współczynników korelacji między zmiennymi

Tabela 3.4. Wyniki estymacji modelu regresji wielorakiej

Tabela 3.5. Macierz współczynników korelacji między zmiennymi

Tabela 3.6. Wyniki estymacji modelu regresji wielorakiej

Tabela 3.7. Wyniki estymacji modelu regresji wielorakiej

Tabela 3.8. Wyniki estymacji modelu regresji logistycznej metodą największej wiarygodności

Tabela 4.1. Oszacowanie wyrazu wolnego

Tabela 4.2. Oszacowania funkcji wygładzających

Tabela 4.3. Oszacowanie wyrazu wolnego

Tabela 4.4. Oszacowania funkcji wygładzających

Tabela 4.5. Oszacowania parametrów modelu przy założeniu zależności liniowej

Tabela 4.6. Miary dopasowania modelu przy założeniu zależności liniowej

Tabela 4.7. Oszacowanie wyrazu wolnego

Tabela 4.8. Oszacowanie funkcji wygładzających

Tabela 4.9. Oszacowania parametrów modelu przy założeniu zależności liniowej

Tabela 4.10. Miary dopasowania modelu

Tabela 4.11. Oszacowanie wyrazu wolnego

Tabela 4.12. Oszacowanie funkcji wygładzających

Tabela 4.13. Wyniki estymacji modelu regresji wielorakiej w analizie przestrzennej

Tabela 4.14. Wyniki estymacji modelu regresji SLM

Tabela 4.15. Wyniki estymacji modelu SEM

Tabela 5.1. Wyniki estymacji w pierwszym kroku modelowania

Tabela 5.2. Wyniki estymacji w drugim kroku modelowania

Tabela 5.3. Wyniki estymacji w trzecim kroku modelowania

Tabela 5.4. Wyniki estymacji w czwartym kroku modelowania

Tabela 5.5. Wyniki estymacji w piątym kroku modelowania

Tabela 5.6. Wyniki estymacji w ostatnim kroku modelowania

Tabela 5.7. Macierz korelacji pomiędzy zmiennymi objaśniającymi

Tabela 5.8. Procent wyjaśnionej wariancji

Tabela 5.9. Współczynniki głównych składowych

Tabela 5.10. Ładunki czynnikowe

Tabela 5.11. Parametry modelu regresji głównych składowych

Tabela 5.12. Macierz korelacji pomiędzy zmiennymi objaśniającymi

Tabela 5.13. Procent wyjaśnionej wariancji

Tabela 5.14. Współczynniki głównych składowych

Tabela 5.15. Ładunki czynnikowe

Tabela 5.16. Parametry modelu regresji głównych składowych

Tabela 5.17. Parametry rodziny rozkładów wykładniczych

Tabela 5.18. Wartość oczekiwana i wariancja

Tabela 5.19. Oszacowania współczynników modelu LASSO

Tabela 5.20. Miary dopasowania modelu LASSO

Tabela 5.21. Oszacowania współczynników modelu LASSO

Tabela 5.22. Miary dopasowania modelu LASSO

Spis rysunków

Rysunek 1.1. Rozwój nauk statystycznych na osi czasu

Rysunek 2.1. Cztery zestawy danych składające się na kwartet Anscombe’a

Rysunek 2.2. Wykres dźwigni i odległości Cooka

Rysunek 2.3. Wykres reszt

Rysunek 2.4. Wykres kwantyl-kwantyl (Q-Q) reszt standaryzowanych

Rysunek 3.1. Przykładowe wykresy homoskedastyczności oraz heteroskedastyczności błędów losowych (reszt)18

Rysunek 3.2. Wizualizacja testu parametrycznego Goldfelda-Quandta

Rysunek 3.3. Wykres rozrzutu zależności ceny mieszkań [tys. zł] od wielkości powierzchni [m2]

Rysunek 3.4. Wykres normalności rozkładu reszt

Rysunek 4.1. Wykres rozrzutu pomiędzy wartością indeksu S&P 500 i ceną zamknięcia złota (USD/ozt)

Rysunek 4.2. Wykres rozrzutu pomiędzy wartością indeksu S&P 500 i ceną zamknięcia złota (USD/ozt) z dopasowaną funkcją regresji jądrowej

Rysunek 4.3. Wykres rozrzutu pomiędzy przebiegiem auta (km) a ceną auta (zł)

Rysunek 4.4. Wykres rozrzutu pomiędzy przebiegiem auta (km) a ceną auta (zł) z dopasowaną funkcją regresji jądrowej

Rysunek 4.5. Funkcja wygładzająca dla związku temperatury i poziomu zanieczyszczeń

Rysunek 4.6. Funkcja wygładzająca dla związku wilgotności i poziomu zanieczyszczeń

Rysunek 4.7. Funkcja wygładzająca zależność między stopą procentową i wielkością inwestycji45

Rysunek 4.8. Funkcja wygładzająca zależność między inflacją i wielkością inwestycji

Rysunek 4.9. Dopasowanie rozkładu Poissona do danych empirycznych dla zmiennej Y (przekroczenie prędkości)

Rysunek 4.10. Funkcje wygładzające zmienne temperatura i czas

Rysunek 4.11. Dopasowanie rozkładu Poissona do danych empirycznych dla zmiennej Y (liczba przestępstw)

Rysunek 4.12. Funkcje wygładzające

Rysunek 4.13. Współczynnik dzietności w Polsce w 2023 roku

Rysunek 4.14. Wykres rozrzutu Morana dla reszt modelu regresji wielorakiej

Rysunek 5.1. Graficzna prezentacja regresji głównych składowych

Rysunek 5.2. Przebieg ścieżek współczynników λ w regresji LASSO

Rysunek 5.3. Przebieg ścieżek współczynników λ w regresji LASSO

Bibliografia

Anscombe F.J. [1973], Graphs in Statistical Analysis, „American Statistician”, 27(1).

Armstrong J.S. [2012], Illusions in Regression Analysis, „International Journal of Forecasting”, 28(3).

Bishop Ch.M. [2006], Pattern Recognition and Machine Learning, New York.

Borkowski, B., Dudek, H., Szczęsny, W. [2003], Ekonometria. Wybrane zagadnienia, Warszawa.

Dickey D.A., Fuller W.A. [1979], Distribution of the estimators for autoregressive time series with a unit root, „Journal of the American Statistical Association”, 74(366), 427–431.

Durbin J., Watson G.S. [1950], Testing for serial correlation in least squares regression. I, „Biometrika”, 37, 3–4.

Fahrmeir L., Kneib T., Lang S., Marx B. [2013], Regression. Models, Methods and Applications, Springer, New York.

Fisher R.A. [1922], The goodness of fit of regression formulae, and the distribution of regression coefficients, „Journal of the Royal Statistical Society”, 85(4).

Friedman J.H., Stuetzle W. [1981], Projection Pursuit Regression, „Journal of the American Statistical Association”, 76.

Galton F. [1989], Kinship and Correlation, „Statistical Science. Institute of Mathematical Statistics”, 4 (2).

Gauss C.F. [1809], Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium, Hamburg.

Gładysz B. [2013], Ekonometria, Wydawnictwo Naukowe PWN.

Goldfeld S.M., Quandt R.E. [1965], Some Tests for Homoscedasticity, „Journal of the American Statistical Association”, 60(310).

Greene W.H. [2000], Econometric analysis, wyd. 4, London.

Gruszczyński M., Kuszewski T., Podgórska M. (red.) [2009], Ekonometria i badania operacyjne: podręcznik dla studiów licencjackich, Warszawa.

Härdle W. [1992], Applied Nonparametric Regression, Berlin.

Hastie T., Tibshirani R. [1990], Generalized Additive Models, New York.

Kopczewska K., Elhorst P. [2024], New developments in spatial econometric modelling, „Spatial Economic Analysis”, 19(1), 1–7.

Kopczewska K. [2005], Ekonometria i statystyka przestrzenna z wykorzystaniem programu R., wyd. 2, CeDeWu, Warszawa.

Kossowski T. [2018], Teoretyczne aspekty modelowania przestrzennego w badaniach regionalnych, „Rozwój Regionalny i Polityka Regionalna”, (42), 9–26.

Krężołek D. [2023], Wybrane metody i techniki analizy danych z programem Statistica, Katowice.

Legendre A.-M. [1805], Nouvelles méthodes pour la détermination des orbites des comètes, Paris.

Moran P.A.P. [1950], Notes on continuous stochastic phenomena, „Biometrika”, 37(1/2), 17–23.

Orwat-Acedańska A. [2019], Dynamic spatial panel data models in identifying socio-economic factors affecting the level of health in selected European countries, „European Spatial Research and Policy”, 26(1), 195–211.

Osińska M. [2007], Ekonometria współczesna, Toruń.

Panek T., Zwierzchowski J. [2013], Statystyczne metody wielowymiarowej analizy porównawczej. Teoria i zastosowania, Warszawa.

Pearson K., Yule G.U. [1903], The Law of Ancestral Heredity, „Biometrika”, 2(2).

Pitera, K. [2019], Statystyka dla ekonomistów, Wydawnictwo Uniwersytetu Ekonomicznego.

Ptak-Chmielewska A. [2013], Uogólnione modele liniowe, Warszawa.

Shapiro S.S., Wilk M.B. [1965], An analysis of variance test for normality (complete samples), „Biometrika”, 52(3–4).

Suchecki B. (red.) [2010], Ekonometria przestrzenna. Metody i modele analizy danych przestrzennych, C.H. Beck, Warszawa.

Suchecki B. (red.) [2012], Ekonometria przestrzenna II. Modele zaawansowane, C.H. Beck, Warszawa.

Suchecki B. [2023], Metody stochastyczne w ekonometrii przestrzennej – nowoczesna perspektywa, Wydawnictwo Uniwersytetu Łódzkiego, Łódź.

Śliwicki D. [2016], Estymacja jądrowa w analizie ekonometrycznej, Toruń.

Tatarczak A. [2022], Modele ekonometryczne w praktyce, Wydawnictwo Uniwersytetu Warszawskiego.

Tibshirani R. [1996], Regression Shrinkage and Selection via the Lasso, „Journal of the Royal Statistical Society”, 58(1).

Trzęsiok J. [2004], Wybrane nieparametryczne metody regresji i ich zastosowania, „Prace Naukowe Akademii Ekonomicznej im. Oskara Langego we Wrocławiu”, nr 1022.

Trzpiot G., Krężołek D. [2018], Od analizy danych do innowacyjnych technologii, [w:] Innowacyjna gospodarka. Innowacyjne organizacje. Innowacyjni ludzie., C.M. Olszak, G. Głód (red.), Katowice.

White H. [1980], A heteroscedasticity-consistent covariance matrix estimator and a direct test for heteroscedasticity, „Econometrica”, 48.

Wood, S.N. [2006], Generalized Additive Models: An Introduction with R, Chapman & Hall/CRC, Boca Raton, ISBN 978-1584884743.