3.
회귀와 상관
3.1. 단순회귀분석(單純回歸分析, simple regression analysis)
독립변수: 원인이 되는 변수
종속변수: 결과가 되는 변수
예) 한 개체의 일령과 체중과의
관계
일령: 다른 요인의
영향을 받지 않음 -> 독립변수
체중: 일령에 따라
다를 것으로 예상됨. -> 종속변수
예) 한 개체의 키와 체중과의
관계 -> 인과관계가 명확하지 않음 -> 상관 분석

종속변수와 독립변수 사이의 (선형)관계를 밝히는 방법
하나의 변수값을 알고 있을 때 이를 통해 다른 변수값을 예측하고자 하는 방법
별다른 설명 없이 '회귀분석'이라고 하면 일반적으로 '선형회귀분석'을 말함



3.2. 회귀모형 적합도
회귀모형이 적합한지 확인하기 위해 결정계수
을
사용한다.
회귀모형의 독립변수가 종속변수 변동의 몇%를 설명하고 있는지를 나타내는 지표이다.
결정계수 가 1에 가까우면
-> 독립변수의 영향력이 크다.
즉 종속변수 변이의 대부분이 독립변수의 영향이다.
결정계수 가 0에 가까우면
-> 독립변수의 영향력이 작다.



3.3. 다중회귀모형

3.3. 선형회귀와 비선형회귀
독립변수와 종속변수의 관계가 직선적이면 선형회귀라 하고, 곡선적이면 비선형회귀라 한다.
아래 그래프는 선형회귀로 볼 수도 있고, 비선형회귀로 볼 수 도 있다. 결국
값이 큰 것이 더 적합한 모형이라 본다.

3.3. 단순회귀의 이용분야
년도별 우유소비량 추이 -> 미래의 우유소비량을 예측할
수 있다.
현재까지의 자료를 분석하여 미래를 예측한다.
먼 매래를 예측할수록 정확도가 떨어진다.
다른 변수에 의해 예측값이 크게 빗나갈 수 있다.



실습:
다음 비육우 측정자료를 가지고 회귀분석을 실시한다.
흉위 |
체중 |
158 |
540 |
164 |
544 |
167 |
553 |
170 |
549 |
171 |
560 |
176 |
557 |
179 |
556 |
183 |
565 |


그래프 그리기: 주어진 자료로 분산형 그래프를 그리고
추세선츨 추가한다.
데이터 범위를 선택한다 ( A1:B9).

삽입 -> 분산형 그래프

계열 마커에서 마우스 오른버튼 ->
추세선 추가

선형, 수식을 차트에 표시, R-제곱 값을 차트에
표시 체크함.

최종 결과

3.4. 단순상관(單純相關, simple correlation)

0 -> 상관관계 없음.
양수 -> 정의 상관 또는 양의 상관(최대 1)
음수 -> 부의 상관 또는 음의 상관(최소 -1)
실습:
X |
Y |
2 |
2 |
6 |
4 |
8 |
5 |
10 |
6 |
14 |
8 |
16 |
9 |
18 |
10 |
24 |
13 |
28 |
15 |
|
X |
Y |
2 |
6 |
6 |
5 |
8 |
10 |
10 |
6 |
14 |
9 |
16 |
15 |
18 |
4 |
24 |
13 |
28 |
2 |
|
X |
Y |
2 |
4 |
6 |
10 |
8 |
2 |
10 |
8 |
14 |
5 |
16 |
6 |
18 |
15 |
24 |
9 |
28 |
13 |
|
X |
Y |
2 |
13 |
6 |
15 |
8 |
10 |
10 |
6 |
14 |
9 |
16 |
8 |
18 |
5 |
24 |
4 |
28 |
2 |
|
|