본문 바로가기
프로그래머스/데이터분석 데브코스

프로그래머스 데이터분석 데브코스 8-4

by 포잉띠 2024. 4. 4.

https://arin-nya.tistory.com/52

 

기초 통계 함수 바퀴 다시만들기 (1)

프로그래머스 데이터분석 데브코스 진행중에 통계, 확률쪽 이해도 잘 안되고 머리에 쉽게 정착하지 못해서 바퀴 다시만들기를 시작했다. 과정을 이해하기 위해 일부러 길게 작성한 부분도 있다

arin-nya.tistory.com

 

요번주 통계, 확률쪽 이해가 잘 되지 않아 기본적인 함수들의 정의를 코드로 구현하여 다른 포스트에 정리하였다.

 

전세계적으로 참 핫한 ML의 기본적인 부분을 배웠다.

수식도 많고 시각자료도 많아 반드시 기억해야 할것같은 부분, 이전에 비슷한 문제로 고통받았던 부분만 정리할 예정이다.

 

데이터 모델링의 정의

  • 주어진 데이터에서 사용하고자 하는 x, 알고싶은 값 y가 있을 때
    y = f(x) 라는 함수를 통해 x와 y의 관계를 설명할 수 있다면?
  • 이 때 x를 독립변수 , y를 종속변수라고 한다.
    (x를 feature, y를 label 으로 부르기도 한다.)
  • y와 x의 관계를 효과적으로 설명하는 함수를 만드는 일이 모델링

 

데이터 모델링 과정

  1. 데이터 전처리 및 분석
  2. 데이터셋을 Train, Test set 으로 분리
  3. Train set에 대해서 사용할 모델을 학습
  4. Test set에 대해 학습된 모델의 예측값을 통해 모델의 성능을 평가
    (실제값(test set)과 예측값(predict) 의 비교를 통해서)
  5. 모델의 성능이 충분히 쓸만하다고 판단될 때,
    새로운 데이터에 대해 학습된 모델을 이용해 y값을 예측
    (Inference 과정)

 

Overfittig을 해결하는 방법

  1. 모델이 가질 수 있는 Parameter를 줄이거나,
    모델이 고려하는 feature중에서 상대적으로 중요한 feature들만 모델의 input으로 사용
  2. 정규화(Regularization) : 모델이 가지는 복잡도를 제한하는 방법.
    보통 모델의 Parameter가 가지는 값의 크기를 cost fuction에 추가해 주는 방식으로
    parameter 값의 크기를 제한한다.

 

 

주로 이론이 많은 한 주를 보내고 있지만 하나하나가 정말 알찬 느낌이 든다.