머신러닝 선형회귀 개념과 예시: 기초부터 실전까지 완벽 정리

머신러닝 선형회귀 개념과 예시: 기초부터 실전까지 완벽 정리


머신러닝의 기본이 되는 선형회귀(Linear Regression)는 데이터를 기반으로 수치 예측을 수행하는 핵심 알고리즘입니다. 이 글에서는 선형회귀의 개념, 종류, 수식 구조, 학습 과정, 실제 예시, 장단점 및 활용 분야까지 자세히 설명합니다. 또한 경력-연봉 예측, 집값 예측 등 실생활 사례를 바탕으로 이해를 돕고, 마지막에는 주요 내용을 표로 요약 정리합니다.



1. 선형회귀란 무엇인가?

선형회귀는 입력 변수(X)와 출력 변수(Y) 사이의 관계를 직선 또는 평면으로 근사해 예측하는 알고리즘입니다. 머신러닝에서 선형회귀는 지도학습(Supervised Learning)의 대표적인 예측 모델로 사용되며, 입력과 출력 간의 수치적 관계를 모델링하여 새로운 데이터를 기반으로 결과를 예측할 수 있게 합니다.

예를 들어, 사람의 경력을 기반으로 연봉을 예측하거나, 집의 크기와 위치를 통해 집값을 예측하는 등의 문제에서 사용됩니다. 선형회귀는 통계학에서도 오래전부터 활용되던 기법이지만, 머신러닝에서는 대규모 데이터와 함께 자동화된 예측 시스템으로 구현된다는 점에서 큰 차이가 있습니다.

핵심 요점

  • 입력과 출력 사이의 선형 관계를 가정
  • 수치 예측에 특화된 지도학습 알고리즘
  • 단순하면서도 강력한 모델링 도구
항목내용
정의입력(X)과 출력(Y) 간 선형 관계 기반 예측 모델
적용 분야연봉 예측, 집값 예측, 매출 예측 등 수치 기반 문제
학습 방식지도학습

2. 단순 선형회귀 vs 다중 선형회귀

선형회귀는 독립 변수의 개수에 따라 단순 선형회귀다중 선형회귀로 나뉩니다.

  1. 단순 선형회귀(Simple Linear Regression): 독립 변수가 하나일 때 사용. 예: 경력 → 연봉
  2. 다중 선형회귀(Multiple Linear Regression): 독립 변수가 여러 개일 때 사용. 예: 집 크기 + 위치 + 연식 → 집값

두 모델 모두 선형 회귀의 기본 수식을 따릅니다.

  • 단순 선형회귀 수식: ŷ = θ₀ + θ₁x
  • 다중 선형회귀 수식: ŷ = θ₀ + θ₁x₁ + θ₂x₂ + … + θₙxₙ

핵심 요점

  • 단순: 변수 1개 / 다중: 변수 여러 개
  • 수식 구조는 비슷하지만 차원이 다름
유형수식사용 예
단순 선형회귀ŷ = θ₀ + θ₁x경력 → 연봉
다중 선형회귀ŷ = θ₀ + θ₁x₁ + θ₂x₂ + …집 크기+위치+방 개수 → 집값

3. 선형회귀 모델 학습 방식

선형회귀 모델은 “입력값에 대한 예측값”이 실제 값과 얼마나 다른지를 측정하여, 그 오차를 최소화하는 방식으로 학습합니다. 이를 위해 주로 평균 제곱 오차(MSE)를 손실 함수로 사용합니다.

오차를 최소화하기 위한 대표적인 최적화 방법은 다음과 같습니다:

  • 최소제곱법(OLS, Ordinary Least Squares): 모든 오차의 제곱합이 최소가 되도록 θ(계수)를 계산
  • 경사하강법(Gradient Descent): 미분을 통해 반복적으로 오차를 줄여나가는 알고리즘

핵심 요점

  • 손실 함수: MSE = 평균 (실제값 - 예측값)²
  • 최적화 기법: 최소제곱법 또는 경사하강법
항목내용
손실 함수Mean Squared Error (MSE)
학습 방식최소제곱법, 경사하강법
목표예측값과 실제값 차이 최소화

4. 선형회귀 실제 예시

  1. 경력 → 연봉 예측: 경력이 1년 늘어날 때 연봉이 평균적으로 얼마나 오르는지를 분석합니다. 단순 선형회귀로 충분히 모델링 가능합니다.
  2. 집 조건 → 집값 예측: 집의 면적, 위치, 방 수, 연식 등을 입력으로 집값을 예측합니다. 다중 선형회귀 모델이 적합합니다.
  3. 광고비 → 매출 예측: 광고 지출과 매출 간 관계를 통해 효율적인 마케팅 전략을 설계할 수 있습니다.
  4. 자동차 무게 → 연비 예측: 자동차의 무게가 증가할수록 연비가 어떻게 변하는지를 분석합니다.

핵심 요점

  • 실제 데이터 기반 수치 예측 가능
  • 경제, 부동산, 자동차, 마케팅 등 다양한 산업에 적용 가능
사례독립 변수종속 변수
연봉 예측경력연봉
집값 예측면적, 위치 등가격
매출 예측광고비매출
연비 예측차 무게연비

5. 선형회귀의 장단점

장점

  • 구현이 간단하고 이해가 쉬움
  • 학습 속도가 빠르고 효율적
  • 결과 해석이 직관적 (계수의 의미)

단점

  • 입력과 출력 사이에 반드시 선형 관계가 존재해야 효과적
  • 이상치(outlier)에 민감
  • 복잡한 관계를 잘 반영하지 못해 과소적합될 수 있음
항목내용
장점단순, 빠름, 해석 가능
단점선형 관계 한정, 이상치 영향 큼

6. 핵심 요약

구분내용
정의선형 방정식을 기반으로 예측하는 지도학습 알고리즘
종류단순 선형회귀 / 다중 선형회귀
수식 구조ŷ = θ₀ + θ₁x₁ + … + θₙxₙ
학습 목표예측 오차 최소화
활용 분야연봉, 집값, 매출, 연비 등 수치 예측
장점간단, 빠름, 해석 용이
단점선형 가정, 복잡한 데이터에 한계

FAQ (자주 묻는 질문)

Q1) 선형회귀는 어떤 데이터를 예측할 때 적합한가요?

선형적인 관계가 존재하는 데이터를 예측할 때 적합합니다. 예를 들어, 시간에 따라 증가하는 매출이나, 경력에 따른 연봉 등의 패턴에서 효과적입니다.

Q2) 선형회귀에서 변수 선택은 어떻게 하나요?

변수 선택은 상관관계 분석, 피어슨 상관계수, p-value 등을 통해 중요 변수를 추려내거나, Lasso, Ridge 같은 정규화 기법을 활용할 수 있습니다.

Q3) 선형회귀와 로지스틱 회귀의 차이는 무엇인가요?

선형회귀는 연속적인 숫자를 예측하지만, 로지스틱 회귀는 이진 또는 다중 분류 문제를 다룹니다. 출력이 확률로 해석된다는 점에서 차이가 있습니다.

Q4) 선형회귀 모델에서 과적합을 방지하는 방법은?

불필요한 변수를 제거하고, 정규화 기법(L1/L2), 교차 검증 등을 통해 과적합을 방지할 수 있습니다.

Q5) 선형회귀는 이상치에 얼마나 민감한가요?

매우 민감합니다. 이상치는 평균 제곱 오차에 큰 영향을 주기 때문에, 모델 성능이 저하될 수 있어 사전에 이상치를 처리하는 것이 중요합니다.

댓글

이 블로그의 인기 게시물

머신러닝 회귀분석 종류와 예시로 이해하는 기본 개념

인공지능 AI | 머신러닝 ML | 딥러닝 DL의 차이점 완벽 정리

라쏘 회귀 개념과 예시로 배우는 머신러닝 핵심 이론 | LASSO Regression