3. 회귀와 상관

 

3.1. 단순회귀분석(單純回歸分析, simple regression analysis)

 

  • 원인과 결과의 관계가 있는 두 변수를 분석-> 회귀분석

  • 같은 개체에서 측정한 두개의 변수 -> Paired data

 

  • 독립변수: 원인이 되는 변수

  • 종속변수: 결과가 되는 변수

 

예) 한 개체의 일령과 체중과의 관계

    일령: 다른 요인의 영향을 받지 않음    -> 독립변수

    체중: 일령에 따라 다를 것으로 예상됨. -> 종속변수

 

예) 한 개체의 키와 체중과의 관계 -> 인과관계가 명확하지 않음 -> 상관 분석

 

 

  • 종속변수와 독립변수 사이의 (선형)관계를 밝히는 방법

  • 하나의 변수값을 알고 있을 때 이를 통해 다른 변수값을 예측하고자 하는 방법

  • 별다른 설명 없이 '회귀분석'이라고 하면 일반적으로 '선형회귀분석'을 말함

 

 

  • 이상값(outlier): 전체적인 추세에서 벗어난 값

 

 

  • 이상값을 제거하거나, 제거하지 않음으로 회귀식의 추정 결과가 달라진다.

3.2. 회귀모형 적합도

  • 회귀모형이 적합한지 확인하기 위해 결정계수 을 사용한다.

  • 회귀모형의 독립변수가 종속변수 변동의 몇%를 설명하고 있는지를 나타내는 지표이다.

  • 결정계수 가 1에 가까우면 -> 독립변수의 영향력이 크다. 
    즉 종속변수 변이의 대부분이 독립변수의 영향이다.

  • 결정계수 가 0에 가까우면 ->  독립변수의 영향력이 작다.

 

  • 출처: http://math7.tistory.com/123

  • 예측값과 실제 값들 중 하나의 차이가 있을 때 오차 발생

 

  • 예측값(직선)과 실제값과의 오차가 적은 것이 정확도가 높다. 점들이 선에 가까이 붙어 있다.

  • 예측값(직선)과 실제값과의 오차가 큰 것이 정확도가 낮다. 점들이 선에 멀리 있다.

 

 

3.3. 다중회귀모형

  • 어떤 변수에 영향을 끼치는 독립변수가 2개 이상인 경우 다중회귀라 한다.

 

3.3. 선형회귀와 비선형회귀

 

  • 독립변수와 종속변수의 관계가 직선적이면 선형회귀라 하고,  곡선적이면 비선형회귀라 한다.

  • 아래 그래프는 선형회귀로 볼 수도 있고, 비선형회귀로 볼 수 도 있다.  결국  값이 큰 것이 더 적합한 모형이라 본다.

3.3. 단순회귀의 이용분야

 

  • 예측기능 :  

년도별 우유소비량 추이 -> 미래의 우유소비량을 예측할 수 있다.

현재까지의 자료를 분석하여 미래를 예측한다.

먼 매래를 예측할수록 정확도가 떨어진다.

다른 변수에 의해 예측값이 크게 빗나갈 수 있다.

 

 

  • 대체기능:  

 

    • 젖소의 BUN 측정치를 가지고  MUN 값을 추정한다. -> 간접측정

 

    • 소의 흉위와 체중간의 관계에서 흉위를 측정하여 체중을 추정한다.

    • 병아리의 정강이 길이를 측정하여 체중 발달 정도를 추정한다.

 

  • 보정기능:  

 

 

 

실습:

다음 비육우 측정자료를 가지고 회귀분석을 실시한다.

 

흉위

체중

158

540

164

544

167

553

170

549

171

560

176

557

179

556

183

565

 

 

 

그래프 그리기: 주어진 자료로 분산형 그래프를 그리고 추세선츨 추가한다.

 

데이터 범위를 선택한다 ( A1:B9).

 

   

 

삽입 -> 분산형 그래프

 

 계열 마커에서 마우스 오른버튼 -> 추세선 추가

 

선형, 수식을 차트에 표시, R-제곱 값을 차트에 표시 체크함.

 

최종 결과

 

3.4. 단순상관(單純相關, simple correlation)

 

  • 두 변수간의 종속관계가 명확하지 않은 경우. -> 상관분석

 

  • 상관계수의 범위: -1 ~0~1

0 -> 상관관계 없음.

양수 -> 정의 상관 또는 양의 상관(최대 1)

음수 -> 부의 상관 또는 음의 상관(최소 -1)

 

실습:

 

  • 다음 4가지 자료를 가지고 상관분석을 실시한다(그래프 그리기).

 

X

Y

2

2

6

4

8

5

10

6

14

8

16

9

18

10

24

13

28

15

X

Y

2

6

6

5

8

10

10

6

14

9

16

15

18

4

24

13

28

2

X

Y

2

4

6

10

8

2

10

8

14

5

16

6

18

15

24

9

28

13

X

Y

2

13

6

15

8

10

10

6

14

9

16

8

18

5

24

4

28

2

 

   
  • 신체측정자료를 가지고 키 - 체중의 상관분석을 실시한다.