- [statistics] 단순회귀모형 회귀분석(regression analysis)2024년 01월 17일 23시 37분 40초에 업로드 된 글입니다.작성자: 묭동이
본 글은 '누구나 파이썬 통계분석' 책을 참고해 작성하였습니다.
안녕하세요 이번 글에서는 회귀분석에대해서 알아보겠습니다.
회귀분석
- 인과관계에서 의심되는 복수의 변수를 사용하여 어느 변수로부터 다른 변수의 값을 예측하는 기법
설명변수/반응변수
- 설명변수 : 원인이 되는 변수( = 독립변수)
- 반응변수 : 결과가 되는 변수 ( = 종속변수)
단순선형회귀모형
- 설명변수(독립변수)와 반응변수(종속변수)가 1개씩인 단순한 모델
단순회귀분석의 예시를 코드를 통해 알아보도록 하겠습니다.
먼저 늘 그랬듯 필요한 라이브러리를 불러오도록 하겠습니다.
라이브러리를 불러온 후 데이터를 불러오도록 하겠습니다.
데이터는 20개의 row와 4개의 column으로 구성된 것을 알 수 있습니다.
데이터 불러오기 단순회귀분석을 위한 변수 설정
독립변수와 종속변수의 개수가 1개이므로 단순회귀분석임이 자명합니다.
- y(반응변수 = 종속변수) : 기말고사 점수
- x(설명변수 = 독립변수) : 쪽지 시험의 평균 점수
- p : 설명변수(독립변수)의 수
단순회귀분석을 위한 변수 설정 회귀직선 그리기
단순회귀분석에서 회귀직선을 그리는 것은 우리의 중요한 목표 중 하나입니다.
위 데이터를 바탕으로 회귀직선을 그려보도록 하겠습니다.
회귀직선을 그리는 코드 그래프를 보면 y절편이 23.7이고 기울기가 6.55인 직선 그래프가 만들어진 것을 알 수 있습니다.
또한, 데이터포인트들이 직선과 완전히 일치하지 않는 것을 알 수 있는데요 이는 기말고사(종속변수)에는 당일의 컨디션 등과 같은 다양한 요인에 의해 좌우될 수 있기 때문에 쪽지 시험(독립변수)과 완전히 직선 관계가 되지 않습니다.
그러므로 기본적인 관계는 직선상에 있다고 생각하고 다른 요인에 관해서는 예측할 수 없는 확률적인 것이라고 생각하도록 하겠습니다.
이와 같이 예측할 수 없는 부분을 오차항이라고 합니다.
회귀방정식
회귀직선을 방정식으로 보통 y = mx + b로 표현하곤 하는데요 각 변수들의 아래와 같은 의미를 담고 있습니다.
또한, b와 m을 회귀계수라고 부르며 회귀계수는 최소제곱법을 통해 구할 수 있습니다.
- x : 독립 변수
- m : 기울기
- b : y절편
다음 글에서는 statsmodels를 이용해 회귀분석을 하는 방법을 알아보도록 하겠습니다
부족한 글 읽어주셔서 감사합니다 :)
틀린 부분 댓글로 작성해주시면 감사하겠습니다 😊
'statistics > statistics' 카테고리의 다른 글
[statistics] 통계적 가설검정 (2) 2024.01.16 다음글이 없습니다.이전글이 없습니다.댓글