6. Ступені вільності, аналіз дисперсій
Завжди варто пам'ятати, що однієї з основних задач моделювання є в остаточному підсумку одержати результат прогнозу показника Y для якогось цікавлячого економіста значення фактора хр (у точці прогнозу). Скажемо, при побудові моделі сімейних витрат на харчування в залежності від числа членів родини у вибірку ввійшли родини до 5 чоловік, а ми хочемо спрогнозувати ці витрати для родини з 7 чоловік (хр = 7). Середнє значення прогнозу показника в точці прогнозу хр легко визначається з рівняння моделі:
М[ур ] = М[а + bхр + εp ] = а + b хр = ур.
Таким чином, середнє значення прогнозу лежить на прямій, що визначає теоретичну залежність моделі.
Після перебування середнього значення прогнозу завжди виникає традиційне питання: яка точність прогнозу, яка ступінь його надійності. Звичайно для цього залучаються интервальні оцінки помилок моделювання (довірчий інтервал разом з довірчою імовірністю). Для кожного значення прогнозу помилки виявляються різними. Це природно, якщо згадати, що помилки, наприклад, у прогнозі погоди ростуть зі збільшенням часу до точки прогнозу (прогноз на завтра більш точний, чим на тиждень уперед).
Визначимо дисперсію і середньоквадратичну помилку прогнозу показника ур. У специфікації моделі для відхилень замінимо точку спостереження х, на прогнозну крапку хр:
Вхідні в останнє вираження випадкові величини некорельовані, тому дисперсія показника складається з дисперсій доданків і дорівнює
Як і раніше, замість точного значення дисперсії помилок σ2 (яке невідомо в рамках вибіркового спостереження) варто підставити її оцінку, тоді стандартна помилка прогнозу показника стає рівною
Ця середньоквадратична помилка (чи стандартна помилка), як і випливало очікувати, пропорційна стандартній помилці регресії S і росте зі збільшенням різниці між прогнозним і середнім значеннями фактора . Гранична помилка для визначення довірчого інтервалу дорівнює
а границі довірчого інтервалу прогнозованого показника розширюються пропорційно квантилю tα(n - 2) розподілу Стьюдента з (п - 2) ступенями вільності і рівнем значимості α.
Очевидно, з видаленням крапки прогнозного фактора хр від середнього зона довірчого інтервалу розширюється (рис.4). Це відповідає інтуїтивному сприйняттю помилок прогнозу, що звичайно зростають при видаленні від середніх показників. Максимальна точність прогнозу досягається в крапці х – х* .
Рис. 4
7. Перевірка простої регресійної моделі на адекватність
Для оцінки знайденої економетричної моделі на адекватність порівнюють розрахункове значення критерію Фішера із табличним.
Розрахункове значення критерію Фішера знаходиться за формулою:
,
де ,
,
n – число спостережень,
m – число включених у регресію факторів, які чинять суттєвий вплив на показник.
Для даної надійної ймовірності р (а=1-р рівня значущості) і числа ступенів вільності k1=m, k2=n-m-1 знаходиться табличне значення F(a, k1, k2). Отримане розрахункове значення порівнюється з табличним. При цьому, якщо Fроз > F(a, k1, k2), то з надійністю р = 1-а можна вважати, що розглянута економетрична модель адекватна вихідним даним. У протилежному випадку з надійністю р розглянуту лінійну регресію не можна вважати адекватною.
8. F - критерій Фішера
Теорія статистичної перевірки гіпотез у додатку до регресійного аналізу розроблена англійським математиком Фишером.
Нехай Н0 - гіпотеза про те, що статистичного зв'язку між X і Y немає (чи вона не істотна, статистично не значима), а Н1 - гіпотеза про те, що зв'язок є (чи вона істотна, статистично значима). Припустимо, що виконується основна гіпотеза про відсутність зв'язку. У цьому випадку щире значення коефіцієнта регресії β = 0 і F-статистика стає рівною
Очевидно, що з ростом значення F (чи коефіцієнта детермінації R2) збільшується ступінь статистичного зв'язку між фактором і показником (тому що вона прямо пропорційна коефіцієнту регресії і назад пропорційна випадковим помилкам моделі). Задамо імовірність:
як імовірність того, що при перевищенні розрахунковим значенням F (2.47) деякого критичного значення FKp гіпотеза про відсутність зв'язку Н0 вірна. Очевидно, з імовірністю (1 - α) вона при тім же умові невірна. Закритичну область F > FKp будемо вважати областю дії гіпотези Н1, а докритичну F < FKp - областю дії гіпотези Н0. Тоді імовірність є імовірність помилки першого роду: α=P(H0|H1), тобто імовірність прийняття основної гіпотези H0, тоді як насправді справедлива альтернативна гіпотеза Н1. Графічно ця імовірність визначається як площа під щільністю імовірності p(F) при F > Fkp. Імовірність α (її іноді називають коефіцієнтом значимості) звичайно вибирають малої (рівної 0,05 чи 0,01), після чого для заданих значень імовірності а розраховуються чисельно критичні значення FKp відповідно з урахуванням залежності. Ці значення табулюються, тобто заносяться в таблиці критичних коефіцієнтів чи детермінації критичних значень F-статистики.
Рис. 5
Визначення значимості статистичного зв'язку для моделі лінійної регресії здійснюється по наступної методики. На основі вибіркових даних будується модель і визначається коефіцієнт детермінації R2, що потім порівнюється з критичним коефіцієнтом детермінації R2Kp. Останній знаходять по таблиці критичних значень коефіцієнта детермінації. Вхідними даними таблиці є коефіцієнт значимості α = 0,05 (чи 0,01), номер стовпця таблиці к1 = п - 1, номер рядка к2=п-к, де к - число параметрів моделі (для двовимірної моделі до = 2 і використовується перший стовпчик таблиці). Нагадаємо, що параметр к1 - це число ступенів волі чисельника F-статистики, к2 - число ступенів волі знаменника F-статистики. Коефіцієнт детермінації можна перерахувати в F-статистику (критерій Фишера), у загальному випадку по формулі:
Розраховане для моделі значення F порівнюється з критичним. При F > FKp (чи R2 > R2кр) робиться висновок, що з імовірністю, рівної (1 - α), зв'язок істотний (статистично значимий). У противному випадку говорять, що лінійний зв'язок незначимий (чи більш загальний статистичний зв'язок не встановлений).
Задача
Побудувати економетричну модель за наведеними даними. Оцінити параметри моделі. Зробити економічні висновки. Оцінити тісноту та значимість зв’язку між змінними.
Номер підприємства | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
Випуск продукції, тис. шт. | 9,33 | 8,31 | 8,25 | 7,50 | 6,90 | 6,15 | 5,66 |
Витрати матеріалу на од., г. од. | 19,66 | 20,53 | 21,31 | 22,59 | 23,27 | 24,44 | 25,85 |
Рішення:
Номер підприємства | 1 | 2 | 3 | 4 | 5 | 6 | 7 | Σ |
Випуск продукції, тис. шт. х | 9,33 | 8,31 | 8,25 | 7,50 | 6,90 | 6,15 | 5,66 | 52,10 |
Витрати матеріалу на од., г. од. у | 19,66 | 20,53 | 21,31 | 22,59 | 23,27 | 24,44 | 25,85 | 157,65 |
87,0489 | 69,0561 | 68,0625 | 56,25 | 47,61 | 37,8225 | 32,0356 | 397,8856 | |
183,4278 | 170,6043 | 175,8075 | 169,425 | 160,563 | 150,306 | 146,311 | 1156,4446 | |
1,8871 | 0,8671 | 0,8071 | 0,0571 | -0,5429 | -1,2929 | -1,7829 | 0 | |
-2,8614 | -1,9914 | -1,2114 | 0,0686 | 0,7486 | 1,9186 | 3,3286 | 0 | |
3,5611 | 0,7519 | 0,6514 | 0,0033 | 0,2947 | 1,6716 | 3,1787 | 10,1127 | |
8,1876 | 3,9657 | 1,4674 | 0,0047 | 0,5604 | 3,681 | 11,0796 | 28,9464 | |
19,3639 | 21,0706 | 21,171 | 22,4259 | 23,4298 | 24,6847 | 25,5046 | 157,6505 | |
0,2961 | -0,5406 | 0,139 | 0,1641 | -0,1598 | -0,2447 | 0,3454 | 0 | |
2,7626 | -4,4924 | 1,1468 | 1,2308 | -1,1026 | -1,5049 | 1,955 | 0 | |
0,0877 | 0,2922 | 0,0193 | 0,0269 | 0,0255 | 0,0599 | 0,1193 | 0,6308 |
Середні арифметичні показника і фактора:
Рівняння моделі лінійної регресії має вигляд: у = а+ bх.
Знайдемо коефіцієнти а і b:
Таким чином, рівняння моделі лінійної регресії має вигляд:
у=0,3527+2,9988×х
Коефіцієнт кореляції характеризує ступень лінійного статистичного зв’язку:
Тобто зв'язок між випуском продукції та витратами матеріалів на одиницю дуже щільний.
Маємо визначені середні значення величин - Xcp = 7,4429, Ycp = 22,5214, слідові можна визначити середній коефіцієнт еластичності для цієї моделі:
A = b*Xcp/Ycp = 2,9988*7,4429/22,5214 = 0,991,
тобто при зростанні показника (випуск продукції) на 1% показник Y (витрати матеріалів на одиницю продукції) зростає на 0,99%.
Можна зробити попередні висновки:
В результаті розрахунків отримано модель у^ = 0,3527+2,9988×х. Аналізуючи параметри моделі можливо зробити наступні висновки, що оскільки коефіцієнт регресії додатний a1=2,9988, то це свідчить про те, що напрямок зв’язку між X і Y прямий (це підтверджує й графік моделі, рис.1), тобто при зростанні Х значення Y теж будуть збільшуватись. При збільшенні Х на 1 значення Y зросте на 0,99.
Рис.1.
Коефіцієнт еластичності свідчить, на скільки відсотків гранично змінюється залежна змінна, якщо відповідна незалежна змінна змінюється на 1%, а інші - постійні.
Коефіцієнт детермінації визначає значимість лінійного статистичного зв’язку між фактором та показником:
, чи
R2 = 0,9932 = 0,986
По вихідним даним к1=к-1=2-1=1 і к2=п-к=7-2=5 знаходимо критичне значення коефіцієнта детермінації: R2кр=0,569.
Так як R2> R2кр, то можна зробити висновок, що зв'язок між випуском продукції та витратами матеріалів на одиницю статистично значимий з імовірністю 0,95.
Визначимо спостережуване значення критерію Фишера
F = R2*(n - 2)/(1 – R2) = 0,986*(5)/(1 – 0,986) = 352,14.
Табличне значення критерію при надійності Р=0,95 (a = 0,05) і степенях свободи k1 = 1, k2 = 7 – 2 = 5 дорівнює 5,59, оскільки спостережуване значення більше критичного, то лінійна модель є адекватною.
Використовуючи t-статистику, з надійністю Р=0,95 оцінимо значущість коефіцієнта кореляції. Обчислимо спостережуване значення t-статистики
t = |R|*√(n - 2)/(1 – R2) = 0,993*√(7 - 2)/(1 – 0,986) = 18,766.
Табличне значення -критерію при і кількості ступенів свободи n – 2 = 5, t = 2,57. Оскільки розрахункове значення -критерію більше за табличне, то лінійний коефіцієнт кореляції є статистично значущим.
Стандартні похибки оцінок параметрів з урахуванням дисперсії залишків:
Обчислимо t-статистики:
t1 = b/ S(b) = 2,9988/0,1454 = 20,623; t2 = a/ S(a) = 0,3527/2,868 = 0,123.
Оскільки отримані значення більше табличного тільки для коефіцієнту b, то параметр «випуск продукції» є значимим з надійністю Р=0,95.
Висновки
1. В результаті розрахунків отримано модель = 55,384 + 0,9617 × Х. у=0,3527+2,9988×х Аналізуючи параметри моделі можливо зробити наступні висновки, що оскільки коефіцієнт регресії додатний a1=2,9988, то це свідчить про те, що напрямок зв’язку між X і Y прямий (це підтверджує й графік моделі, рис.1), тобто при зростанні Х значення Y теж будуть збільшуватись. При збільшенні Х на 1 значення Y зросте на 0,99.
2. Лінійний коефіцієнт кореляції 0,993 і коефіцієнт детермінації R2=0,986. Значення коефіцієнту кореляції свідчить про те, що між факторами існує дуже сильний прямий зв’язок. Значення коефіцієнту детермінації показує, що на 98,6% варіація Y (витрати матеріалу на одиницю) залежить від X (випуск продукції) і на 1,4% від факторів, які не увійшли у модель.
3. Розрахунки за критерієм Фішера F=352,14 і Fкр.=5,59 підтвердили адекватність моделі даним задачі.
4. За критерієм Стьюдента, була проведена перевірка значимості параметрів моделі з надійністю 95%. Оскільки отримані значення більше табличного тільки для коефіцієнту b, то параметр «випуск продукції» є значимим з надійністю Р=0,95, то можна зробити висновок, що отриманий параметр випуск продукції є значимими і для генеральної сукупності цей параметри рівняння лінії регресії відрізняється від 0.
5. За критерієм Стьюдента була проведена перевірка значимості лінійного коефіцієнта кореляції з надійністю 95%. Оскільки значення tr – статистики більші ніж критичне значення, то можна зробити висновок, що в генеральній сукупності між факторами існує зв’язок, тобто ρ≠0 і коефіцієнт регресії статистично значущий, слідові модель є адекватною.
Література
1. Абакумов С.А. Економетрика К.: 2004
2. Висловский В.Р. Эконометрия М.: 2005
3. Колесников Н.А. Математические методы в экономике М.: 2006
4. Породін М.О. Економетрика Харків 2007
... ї базується на існуванні залежності між оцінками параметрів моделі та коефіцієнтами парної кореляції. Ця залежність пропорційна до відношення середньоквадратичних відхилень залежної та незалежної змінних. 12. Опишемо алгоритм пошагової регресії. Крок 1. Усі вхідні дані стандартизують: де y* - нормалізована залежна змінна; х* - нормалізовані незалежні змінні. Крок 2. Знаходять кореляційну ...
... інших факторів на зміну результуючого показника зростає і тому робимо висновок про додаткове включення факторів в модель.) 3. Стандартні відхилення асиметрії (0,534638749) і ексцесу (0,885475609) за абсолютною величиною менші нормативного значення 1,5 і тому дають можливість судити про нормальний закон розподілу результуючого показника товарообігу. (Якщо хоча б один із цих параметрів виявиться ...
... рма не має ліцензій на торгівлю за готівку і касових апаратів. 2.2 Аналіз ефективності комерційної діяльності ПП «Монолит Пласт» по оптовому збуту сантехнічної продукції будівельним компаніям та в роздрібну торгівлю Аналіз ефективності комерційної діяльності підприємства оцінюється в процесі економічної діагностики фінансово-економічного стану підприємства і керування його фінансами, яка ...
... , що зафіксовано у раніше вказаному факті використання у 2004 - 2006 році грошової маси на закупівлю товарних запасів. Оскільки на підприємстві ПП "Монолит Пласт" відсутній фінансовий відділ, а всією діяльністю підприємства управляв в 2004 – 2006 роках директор, він же головний бухгалтер за сумісництвом, увага була сконцентрована на менеджменті, характерному для приватних підприємств – хаотичний ...
0 комментариев