본문 바로가기

카테고리 없음

회귀분석 OSL에 대해서

석사나 박사과정의 분들보다..님의 질문을 보아하니 저의 답변이 더 와닿으실것 같아 용기를 내어 적어봅니다.

내용이 정리가 안 되고 허접하더라도 도움이 되셨으면 하는 마음에서 적습니다.


저도 학부생이고 졸업하려는데 이코노메트릭스가 저의 발목을 잡아서 현재 재수강 중인 학생입니다.

4월 초에 질문을 올리셨는데  OLS 를 말씀하시는 거 보니 진도가 느린 편이거나 아주 자세하게 가르쳐주시는 학교에 댕기시는 것 같습니다.

학부생이시라면 그때쯤이면 단순회귀분석 다 끝났을 단계인데..곧 있으면 중간고사인데 저도 죽겠습니다.

저도 중간고사 준비 중이어서 복습하는 마음으로 적어보겠습니다. 다른 고수님들의 수정이 필요할 지도 모르겠으나 님과 동병상련의 자세로 열심히 적어보겠습니다.

 

1. 계량 경제학의 개념

어떤 경제학 가설이 검정되려면 여러가지 방법이 있겠으나 직관적으로 가설을 설명하기에는 설득력이 부족합니다.

그래서 사용하는 방법,, 수학의 함수개념과 통계학이 결합된 계량경제학이 발전하게 된 것입니다.

경제학적 가설에는 변수와 가정이 존재하죠. ~하다면 어떤 X라는 변인이 Y라는 결과를 가져온다는 형태는 가설의 기본형태로 우리가 10000번도 넘게 봐왔습니다.

경제원론이나 미시나 거시에서 정말 많이 보셨으리라 믿고 예는 생략합니다.

계량경제학은 경제학적 가설을 검정하는데 있어 수학적 방법을 사용하고 구체적으로 각 변수들간의 관계를 통계학 및 수학적인 방법으로 검토할 수 있게 해주는 학문입니다.

저는 이 정도로밖에 생각이 안 되고 회귀분석만 잘 알면 된다는 교수님의 말씀에 희망을 갖고 있습니다. 시계열 데이터 분석이니 횡단면 데이터 분석이니는 생략하겠습니다.


2. 회귀분석의 개념 (아주 간단하게)

계량경제학은 여기서 X라는 독립변수(설명변수, 통제변수, 리그레서)와 Y라는 종속변수간의 관계에 초점을 맞춥니다.

중요한 것은 X나 Y가 특정한 부분에 국한되는 것이 아니고 일반적인 것이라는 것입니다. 전체현상인 것이죠. 예를 들어 소득이 증가하면 저축도 증가할 것이다.라는 가설을

살펴보죠. 여기서 소득의 증가는 경제전체적으로 보편적인 사항이지 어떤 특정 집단의 소득 증가가 아니라는 거죠. 그런데 보편적인 사항의 자료를 수집하는 것은 불가능합니다.

그래서 샘플링 즉 표본의 개념이 있는 것입니다. 굳이 경제현상을 보편적인 우주적인 현상으로 규정하지 않더라도 어떤 집단의 특성을 조사할때 모든 것을 조사하는 것이 불가능할 때 우리는 샘플링을 합니다.

그 표본치들의 실제측정값(X1,Y1),(X2,Y2),.......(Xn,Yn)은 여러가지가 있을테지만 그것들은 어떤 규칙성이나 변수간의 상관관계를 갖을 것이며 우리는 그것을 일반화할 필요가 있습니다.

그것이 회귀분석의 기본개념입니다. 그래프로 모든 실제측정값을 찍어보면 어떤 가상의 선으로 회귀할텐데 그 추정치(에스티메이터,변수값위에 햇이 붙어있죠.^요..)들의 조합들을 선으로 연결하면 소득이라는 엑스축과 저축이라는 와이축간에 어떤 선을 추정하여 그릴수 있습니다.엑스와 와이간의 어떤 상관관계를 나타내는 선을 그릴 수 있죠...

이걸 회귀곡선이라고 합니다. 물론 아직 우리는 선형인 함수관계만 배웁니다. (나중에 비선형도 나온다네요..ㅜ.ㅜ)

그 선이 바로 소득과 저축간의 관계를 나타내는 회귀곡선이죠...

 


문자치기가 빡쎄서 읽히는 그대로 씁니다. 간단하게 그럼 님 질문에 답을....

1. 단순선형회귀모형의 일반식 와이는 베타제로 플러스 베타원엑스 플러스 유  여기서 와이든 엑스든 베타제로든 뭐든 변수에 아무것도 붙지 않는다. 왜냐하면 이것은 어떤 모집단의 일반적인 상황을 뜻하는 것이므로.

 

2. 여기서 u를 짚고 넘어가야 하는데 u는 관측되지 않고 y값에 영향을 끼치는 오차항을 뜻합니다. 똑같은 소득인데도 어떤 사람은 저축이 많고 어떤 사람은 저축이 적고 하는 이유를 모두 오차항이라 할 수 있겠습니다. 이 오차가 없다면 어떤 함수관계가 주어지고 자료가 그에 맞게 정확하게 딱딱 떨어져야 한다는 현실적이지 않은 일이 벌어집니다. 회귀분석이 아니고 방정식 풀이에 불과 한 것이죠...이건 중요한게 아닌것같고

정말 중요한 것은 회귀분석에서 이 오차항은 독립변수 x와 전혀 상관관계가 없다는 것입니다. 제로 컨디셔널 민 어섬션이라고 하는 영조건부평균가정인가 뭔가하는 이놈은 정말 중요합니다. (익스펙테이션 유바 엑스는 제로..)

이 가정으로 인해서 버젓이 OLS추정을 할 수 있는 것입니다. 둘이 상관이 있다면 수학적으로나 통계적으로나 모든것이 엉망이 되고 OLS추정이 불가능해집니다.

 

3. 위에서 말씀드린 회귀분석은 실제관측치들을 바탕으로 어떤 추정적인 관계(변수)를 추론해 내는 과정입니다. 그렇다면 결정적으로 베타제로와 베타원의 추정이 회귀분석의 이슈임은 분명합니다.

단순히 Y=a+bX+c 가 주어져 있고 엑스값과 와이값의 조합이 세 묶음 이상 주어져 있으면 a,b,c를 구할 수 있을까요? 넌센스에 가까운 문제이지만 없습니다. a+c값과 b값은 구할 수 있지만 a와c 는 각각 구할 수 없습니다.

주어지는 엑스,와이의 조합은 반드시 어떤 정해진 규칙에 a,b,c의 값들을 만족시켜줘야 합니다. 방정식 해구하기에 익숙해진 저로서는 까다로운 질문이었습니다만 회귀모형을 방정식의 개념으로 생각할 때 더 헤깔리는 경우가

많았습니다. 그냥 액면 그대로 어떤 x라는 사건이 베타제로 베타 원이라는 파라미터들의 조정을 거쳐 y라는 사건에 영향을 주는구나 하고 이해하시면 쉽습니다.

회귀분석시엔 바로 위 설명에서 번거로운 c 그니까 u를 없애버립니다. 제로컨디셔널 민 어섬션을 이용해서 말이죠. 그 가정이 없으면 아마 3번 첫부분 설명의 골칫거리인 c처럼 더 이상 진도를 나갈 수 없게 합니다.(이 부분은 전적으로 제 생각입니다. 검증되지 않았습니다.)

관측치들의 평균혹은 기대값 개념으로 추정치를 찾아내는 것인데  u의 집단 전체로서의 기대값은 제로라는거 다시한 번 이해하시고...

 

4. 본격적으로 베타제로와 베타원을 추정해 보겠습니다. 이 방법을 최소자승추정법이라 하고 이것을 오디너리 리스트 스퀘어즈 즉 OLS라 합니다.

기본 개념은 어떤 엑스값(X1)이 주어져 있을 때 회귀분석 곡선상에 찍힐 추정되는 y1값(Y1햇)이 있을 겁니다. 이것이 식으로 보여지는게 와이아이햇 이콜 베타제로햇(이또한 추정된 수치이므로,아직은 모른다고 합시다.) 플러스 베타원햇 엑스아이(엑스값은 실제값이므로) 입니다.

그런데 엑스1값에 대해 추정된 베타제로와 베타원들에 의해 추정되어지는 와이1햇 (Fitted value)값은 실제 데이터상의 (엑스1, 와이1) 조합의 실제 와이1값과는 차이가 있습니다.

이것을 잔차항이라고 하고 레지듀얼 유아이햇 인겁니다. 여기에 주목해야 합니다. 수많은 엑스값에 대응하는 레지듀얼의 표본 기대값 즉 평균은 얼마겠습니까? 0 라는 답이 안 나오시면 안 됩니다. 책과 제 설명을 돌이켜 보시고 여기까지 한숨 돌리시고..

 

5. 그 레지듀얼의 값들이 최소가 되어야만 회귀곡선의 의미가 있는 것이겠지요. 그런데 어차피 레지듀얼값들의 합을 엔으로 나눈것은(평균의 개념이기에 엔으로 나눴지만 엔으로 나누는 것은 나누나 마나 수학적으로는 의미가 없습니다.) 0이 되어서 틀렸고..

고등학교 때 최소값 구하는 문제들 가만히 떠올려보세요.. 이럴때 뭉탱이로 묶어서 제곱하던 게 기억 나지 않으세요? 유아이햇제곱의 서메이션 이게 최소자승법의 핵심입니다.

유아이햇의 제곱 = (와이아이 마이너스 베타제로햇 마이너스 베타원햇엑스아이)의 제곱  <------ 결국 이 값을 최소로 만드는 베타제로햇과 베타원햇을 추정하는 것이 OLS입니다.

미분도 쓰이고 이것저것 쓰입니다. 수학적으로 서메이션의 공식들도 알아야 하고 뭐 제가 배우는 원서는 미분을 쓰지 않고 간단하게 영조건부 가설을 이용했더군요.

코베리언스 엑스콤마 유가 제로니까 익스펙테이션 엑스타임스유도 제로...

이 식에 유 대신 와이 마이너스 베타제로 마이너스 베타원엑스를 대입하면 서메이션형태의 식이 나와서 서메이션 정의에 따라 이것저것 하다보면 베타원햇을 구하고 그것을 바탕으로 베타제로햇을 구하는 식이죠...베타원은 시그마 어쩌구 분에 시그마 어쩌구 이거 이해하시고 외우세여~

님 배우시는 책에 있는 그 유도 과정은 반드시 시험에 출제되신다 보시면 됩니다. 교수님 스타일이 어떠신지는 몰라도....

 

6. 덧붙이자면 적합도 판정이라는 것이 있는데 대문자 알스퀘어를 쓰죠. 회귀분석곡선이 데이터와 비교해 얼마나 적합한지 나타내줍니다. 즉, 추정치와 평균의 차의 제곱의 서메이션SSE / 실제 관측치와 평균의 차의 제곱의 서메이션SST

SST=SSR(잔차항제곱의 합)+SSE공식과 함께 R^=SSE/SST=1-SSR/SST 이것은 적합도라는 것 반드시 이해하시고 기억하시고 각 식을 유도할 줄 알아야 하십니다.


님교재가 우리나라 책이면 오히려 더 혼동만 일으켰을 수도 있겠고 난잡한 설명이 오히려 해가 되었을지 모르겠으나 저도 며칠전에야 회귀분석의 기본 개념을 잡은 터라 많이 부족함을 이해하세요

제가 이해하기까지 어렵고 헤깔렸던 부분 중심으로 답변을 썼습니다. 추정치 실제치 이것저것... 영어로 된 표현들이고 원서를 쓰는 경우가 대부분인데다 우리나라 계량교재는 쉽게 이해시키기 보다는 그냥 설명만 나와있어서 계량은 너무 어렵습니다.

실제 알고보면 아무것도 아닌 것 같은 것들인데 뭐가 그리들 어렵게 설명들을 하는건지..저는 최대한 저희 표현에 맞게 까발리면서 썼습니다.

정식 용어가 아닌 경우가 많은 것 같기에 반드시 확인하시고 시험치세요...저도 나름대로 답변하면서 (2시간 걸림) 복습많이 했습니다..

출처 : INTRODUCTORY ECONOMETRICS / JEFFREY M.WOOLDRIDGE 교재를 토대로 ...



지식 즐에서 퍼왔는 데

모르고 쓰는 것보다 대충 뭔지라도 알고 쓰는 게 난거 같군요

뭔지도 모른채로 쓰려고 해도 잘 안써질테니....

perl 라이브러리를 사용하면 됩니다.