Реферат з вищої математики
на тему:
Кореляційний і регресивний
методи аналізу зв
’
язку
.
Основне завдання кореляційного і регресійного методів полягає в аналізі статистичних даних для виявлення математичної залежності між досліджуваними ознаками і встановлення за допомогою коефіцієнта кореляції порівняльної оцінки щільності взаємозв’язку.
Після того, як через економічний аналіз встановлено, що зв’язок між явищами є, і визначено загальний характер цього зв’язку, статистика за допомогою кореляційного і регресійного методів надає цим зв’язкам числового виразу.
Кореляційний і регресій ний методи аналізу вирішують два основні завдання :
- визначають за допомогою рівнянь регресії аналітичного форму зв’язку між
варіацією ознак XiY,
- встановлюють ступінь щільності зв’язку між ознаками.
Найчастіше трапляються такі типи кореляційних зв’язків:
- факторна ознака безпосередньо пов’язана з результативною,
- результативна ознака визначається комплексом діючих факторів,
- дві результативні ознаки спричинені дією однієї загальної причини.
У практиці економіко-статистичних досліджень часто доводиться мати справу з прямолінійною формою зв’язку яку описує рівняння регресії ( рис.1 ) .
На цьому графіку середній арифметичній результативної ознаки Y відповідає пряма, паралельна осі абсцис, лінійне кореляційне рівняння Y(X) зображує похила пряма, а кут нахилу між ними характеризує щільність зв’язку.
Рівняння регресії характеризує зміну середнього рівня результативної ознаки Y залежно від зміни факторної ознаки X. Воно визначає математичне сподівання групових середніх результативної ознаки під впливом різних значень факторної ознаки.
У разі лінійної форми зв’яку результативна ознака змінються під впливом факторної ознаки рівномірно:
Ŷx
= a0
+a1
X,
Де, Ŷx
- згладжене середнє значення результативної ознаки , X - факторна ознака,
a0
і a1
- параметри рівняння , a0
– значення Y при X= 0,a1
– коефіцієнт регресії.
Коефіцієнт регресіїa1,
вказує на те, наскільки змінюється результативна ознака Y внаслідок зміни факторної ознаки X на одиницю.
Якщо a1
має позитивний знак,то зв’язок прямий, якщо від’ємний - зв’язок обернений.
Y X
Y(X)
Y
0
X
Рис. 1. Теоретична лінія регресії
.
Параметри рівняння зв’язку визначають за способом найменших квадратів складеної і роз’язаної системи двох рівнянь з двома невідомими:
SY= na0
+a1
SX ,
SYX= a0
SX + a1
SX 2
,
деn - число членів у кожному з двох порівнюваних рядів,
SX - сума значень факторної ознаки ,SX2
- сума кадратів значень факторної ознаки ,SY - сума значень результативної ознаки, SYX - cума добутків значень факторної та результативної ознак.
Рзв’язавши дану систему рівнянь, дістанемо такі параметри:
SX 2
SY - SX SXY n SXY - SXSY
a0
= , a1
=
nSX 2 -
SXSX n
SX 2
-
SXSX
Обчисливши за фактичними даними всі записані вище суми й підставивши їх у наведені формули, знайдемо параметри прямої.
Рз\озглянемо розрахунок параметрів лінійного рівняння зв’язку між вартістю основних виробничих фондів і випуском продукції за даними десяти однорідних підприємств. (табл.1.)
Табл. 1
Розрахунки для визначення параметрів лінійного рівняння зв
’
язку факторної та результативної ознак.
Номер
заводу
|
Вартість основних виробничих фондів X,
млн. грн
|
Випуск продукції Y, млн. грн |
X 2
|
XY |
Y2
|
Yx
= 0.167+0.421X |
1
2
3
4
5
6
7
8
9
10
|
12
8
10
6
9
15
11
13
14
10
|
5,6
4,0
4,0
2,4
3,6
5,0
4,6
6,5
7,0
4,5
|
144
64
100
36
81
225
121
169
196
100
|
67,2
32,0
40,0
14,4
32,4
75,0
50,6
84,5
98,0
45,0
|
31,36
16,00
16,00
5,76
12,96
25,00
21,16
42,25
49,00
20,25
|
5,2
3,5
4,4
2,7
4,0
6,5
4,8
5,6
6,1
4,4
|
Разом
|
108
|
47,2
|
1236
|
539,1
|
239,74
|
47,2
|
У середньому на один завод |
10,8
|
4,72
|
123,6
|
53,91
|
23,972
|
-
|
За способом найменших квадратів визначемо параметри :
1236 · 47.2 – 108 · 539.1 58339.2 – 58222.8 116.4
a0
= = = = 0.167
10 · 1236 – 108 · 108 12360 – 11664 696.0
10 · 539.1 – 108 · 47.2 5391.0 – 5097.6 293.4
a1
= = = = 0.421
696.0 696.0 696.0
Тоді лінійне рівняння регресії зв’язку між вартістю основних виробничих фондів і випуском продукції матиме такий вигляд :
Ŷx
= 0.167 + 0.421X.
Отже, при збільшенні вартості основних виробничих фондів на 1 млн грн. Випуск продукції зросте на 0,42 млн грн.
Послідовно підставляючи в дане рівняння значення факторної ознаки X , дістанемо згладжені значення результативної ознаки Ŷx
, які й укажуть на те, яким має бути середній розмір випущеної продукції для даного розміру основних виробничих фондів ( за інших рівних умов ).
Згладжені ( теоретичні ) значення ( із заокругленням до десятих ) наведено в останній графі табл. 1.Якщо параметри рівняння визначено правильно,то
SY= SŶх
= 47,2.
Побудуємо графік, який покаже згладжування емпіричних даних рівняння прямої ( рис.1.).
Y
Рис. 2. Емпіричний і згладжені рівні ряду :
1 - Y, 2 - Ŷx
=0.167+ 0.421 X, 3- Y = 4.72
Для економічної інтерпретації лінійних і нелінійних зв’язків між двома досліджуваними явищами часто використовують розраховані за рівняннями регресії коефіцієнти еластичності.
Коефіцієнт еластичності показує,на скільки процентів зміниться в середньому результативна ознака Y при зміненні факторної ознаки X на 1 %.
Відповідно до лінійної залежності коефіцієнт еластичності визначається за формулою
XX
e = a1
або e = a1
,
Ŷx
Y
де e
, коефіцієнт еластичності.
Підставивши в формулу різні значення X, дістанемо різні e
.
У наведеному прикладі коефіцієнт еластичності на першому підприємстві при X= 12:
X 12
e1
= a1
= 0.421· = 0.97. Отже, 1% приросту вартості основних виробничих
ŶX
5.2
9
фондів випуск продукції зростає на 0,97%.На п’ятому підприємстві при X=9: e5
=0.421· = 0.95,
4
На десятому при X = 10: e10
=0.96%.
Для всіх підприємств разом коефіцієнт еластичності
X 10.8
e= a1
= 0.421 · = 0.963 % .
Y 4.72
Це означає, що при збільшенні середньої вартості основних виробничих фондів на 1 % випуск продукції зростає в середньому на 0,963 %.
Якщо залежність між ознаками представити за даними,згладженими параболою другого порядку, то коефіцієнт еластичності має такий вигляд:
X
e= (a1
+ a2
X ) .
Y
Визначення щільності зв’язку в кореляційно-регресійному аналізі ґрунтується на правилі додавання дисперсій,як і в методі аналітичного групування. Але на відміну від нього, де для оцінки лінії регресії застосовують групові середні результативної ознаки, в кореляційно-регресійному аналізі для цієї мети використовують теоретичні значення результативної ознаки.
Зобразити і обґрунтувати кореляційно-регресійний аналіз можна на прикладі графіка на рис.1. На ньому є три лінії Y – ламана лінія фактичних даних(1),ŶX
- пряма похила лінія 2 теоретичних значень Y при абстрагуванні від впливу всіх факторів, крім фактора X(змінна середня) ,Y – пряма горизонтальна лінія 3, із середнього значення якої виключено вплив на Y всіх без винятку факторів ( стала середня ).
Розбіг лінії змінної середньої Ŷх
з лінією сталої середньої Y пояснюється впливом факторної ознаки Х, що,в свою чергу , свідчить про існування між ознаками Y і X наповного не функціонального зв’язку.Для визначення щільності цього зв’язку потрібно обчислити дисперсію відхилень Y і Ŷх
, тобто залишкову дисперсію,яка зумовлена впливом усіх факторів, крім Х. Різниця між загальною і залишковою дисперсіями дає теоретичну
( факторну ) дисперсію, яка вимірює варіацію,зумовлену фактором Х . На зіставленні цієї різниці із загальною дисперсією побудовано індекс кореляції, або теоретичне кореляційне відношення:
s2
заг
- s2
е
s2
е
s2
у
R = Ö = Ö1 - , або R = Ö
s2
заг
sзаг
s2
заг
де s2
заг
- загальна дисперсія,s2
е
- залишкова дисперсія,s2
у
- факторна ( теоретична ) дисперсія.
Факторну дисперсію обчислюють з теоретичних значень за формулою :
S ( Ŷx
-Y) 2
s2
Ŷ
=
n
або за формулою без теоретичних значень:
( a 0
S Y + a 1
SXY ) – (Y) 2
s2
Ŷ
=.
n
S( Y – Ŷx
)
Залишку дисперсію визначають або за формулою s2
е
=
n
або за правилом додавання дисперсій s2
е
=s2
заг
- s2
Ŷ
.
У наведеному прикладі ( за даними розрахунків у табл..1 ) факторна дисперсія
( 0.167 · 47.2 + 0.421 · 539.1 ) - 4.72 2
s2
Ŷ
= = 1.206.
10
Загальну дисперсію обчислимо за формулою
s2
заг =
Y2
- ( Y )2
= 23.974 – 22.278 = 1.696.
Залишкову дисперсію визначаємо як різницю між загальною і факторною дисперсіями :
s2
е
= s2
заг
-
s2
Ŷ
= 1.696 –1.206 = 0.409
Отже, знаходимо індекс кореляції за наведеними вище формулами :
s2
заг
- s2
е
1.696 - 0.490
R = Ö = Ö= 0.843.
s2
заг
1.696
або s2
е
0.490
R = Ö 1- = Ö1 - = 0.843
s2
заг
1.696
s2
Ŷ
1.206
або R= Ö = Ö=Ö0.711= 0.843
s2
заг
1.696
Індекс кореляції вказує на щільну залежність випуску продукції від вартості основних виробничих фондів.
Коефіцієнт детермінації ( R2
) характеризує ту частину варіації результативної ознаки Y, яка відповідає лінійному рівнянню регресії :
s2
Ŷ
1.206
R2
= = = 0.711
s2
заг
1.696
Отже, в обстеженій сукупності заводів 71.1% варіації випуску продукції пояснюється різними рівнями оснащеності заводів основними виробничими фондами.
Індекс кореляції набирає значень від 0 до 1. Коли R=0, то зв’язку між варіацією ознак YiX немає.Залишкова дисперсія дорівнює загальній, s2
е
= s2
заг
, а теоретична дисперсія дорівнює нулю, s2
заг
= 0, Всі теоретичні значення YX
збігаються із середніми значеннями Y, лінія ŶX
на графіку збігається з лінією Y, тобто набуває горизонтального положення .
При R=1 теоретична дисперсія дорівнює загальний,s2
Ŷ
= s2
заг
, а залишкова s2
е
= 0.
Фактичні значення Y збігаеться з теоретичними ŶX
,
зв’язок між досліджуваними ознаками лінійно-функціональний.
Індекс кореляції оцінює щільність зв’язку.Він, як і емпіричне кореляційне відношення,вимірує лише щільність зв’язку і не вказує на її напрямок.
Аби доповнити дослідження визначенням напрямку зв’язку в разі лінійної залежності використовують лінійний коефіцієнт кореляції.
XY – X Y
r = .
sx
sу
Значення
r
коливається в межах від – 1 до +1. Додатне значення відповідає прямову зв
’
язку між ознаками
,
а від
’
ємне – зворотному. Оцінюють щільність зв
’
язку за схемою ( табл. 1 )
Таблиця 2
Зв’язок |
Лінійний коефіцієнт кореляції |
Прямий зв’язок |
Зворотний зв’язок |
Слабкий
Середній
Щільний
|
0.1....0.30
0.3....0.70
0.7....0.99
|
- 0.1... - 0.30
- 0.3....- 0.70
- 0.7....- 0.99
|
Всі дані для обчислення лінійного коефіцієнта кореляції в наведеному прикладі є в табл.1.
sx
=
Ö
Х2
- (Х)2
=
Ö
123.6 – 10.82
= Ö
6.96 = 2.638
sy
=
Ö
Y
2
- (
Y
)2
=
Ö
23.974 – 4.722
= 1.302
XY – XY 53.91 – 10.8 · 4.72 2.9340
r = = = = 0.854
sx
sу 2.638
· 1.302 3.4349
Скористкємося для знаходження лінійного коефіцієнта кореляції іншою формулою:
sx
2.638
r = а1
= 0.421 · = 0.853,
sу
1.302
тобто відповідь вийшла ідентичною.Це означає,що зв’язок між вартістю основних виробничих фондів і випуском продукції сильний ( щільний ) і прямий.
Абсолютне значення лінійного коефіцієнта кореляції збугається з індексом кореляції ( відхилення становить 0.01 ).
Знаведених формул коефіцієнта кореляції можна визначити коефіцієнт регресії, не розраховуючи рівняння зв’язку:
XY – X Y 2.934
a1
= = = 0.421
s2
x
6.960
або sy
1.302
а1
= r= 0.853 · = 0.421.
sx
2.638
Перевірку сили зв’язку в кореляційно-регресійному аналізі здійснюють за допомогою тих самих критеріїв і процедур,що й у аналітичному групуванні.Ступені вільності залежать від числа параметрів рівняння регресії k1
= m –1 і кількості одиниць дослуджіваної сукупності
k2
= n – m.
Істотність зв’язку коефіцієнта детермінації R2
перевіряють за допомогою таблиці критерію Fдля 5 % - го рівня значущості. Так, при k1
= m –1= 2 – 1 = 1 ( для лінійної моделі) і k2
= n – m = 10 – 2 = 8.
Фактичне значення F-критерію у наведеному вище прикладі визначають за формулою
R2
k2
0.711 8
F ф
= = · = 19.68.
1 - R2
k1
1 – 0.711 1
Критичне значення Fт
( 0.95 ) = 5.32 набагато менше від фактичного Fт
( 0.95 ) ÐFф
( 5.32 Ð19.68) , що підтверджує істотність кореляційного зв’язку між досліджуваними ознаками.
Для встановлення достовірності обчисленого нами лінійного коефіцієнта кореляції використовують критерій Стьюдента ( t– критерій ):
r
tr
= ,
mr
де mr
- середня похибка коефіцієнта кореляції,яку визначають за формулою :
1 – r2
mr
=
Ö n – 1
При достатньо великому числі спостережень ( n > 50) коефіцієнт кореляції можна вважати достовірним, якщо він перевищує свою похибку в три і більше разів, а якщо він менший ніж три, то зв’язок між досліджуваними ознаками XiY не доведено.
У наведеному прикладі середня похибка коефіцієнта кореляції
1 – r2
1 – 0.853 2
1 – 0.723 0.277
mr
= = = = = 0.092
Ö n – 1Ö 9 3 3
Відношення коефіцієнта кореляції до його середньої похибки
0.853
tr
= = 9.27
0.092
Це дає підставу вважати, що обчислений лінійний коефіцієнт кореляції достатньо точно характеризує щільність зв’язку між досліджуваними ознаками.
|