https://arin-nya.tistory.com/52
요번주 통계, 확률쪽 이해가 잘 되지 않아 기본적인 함수들의 정의를 코드로 구현하여 다른 포스트에 정리하였다.
전세계적으로 참 핫한 ML의 기본적인 부분을 배웠다.
수식도 많고 시각자료도 많아 반드시 기억해야 할것같은 부분, 이전에 비슷한 문제로 고통받았던 부분만 정리할 예정이다.
데이터 모델링의 정의
- 주어진 데이터에서 사용하고자 하는 x, 알고싶은 값 y가 있을 때
y = f(x) 라는 함수를 통해 x와 y의 관계를 설명할 수 있다면? - 이 때 x를 독립변수 , y를 종속변수라고 한다.
(x를 feature, y를 label 으로 부르기도 한다.) - y와 x의 관계를 효과적으로 설명하는 함수를 만드는 일이 모델링
데이터 모델링 과정
- 데이터 전처리 및 분석
- 데이터셋을 Train, Test set 으로 분리
- Train set에 대해서 사용할 모델을 학습
- Test set에 대해 학습된 모델의 예측값을 통해 모델의 성능을 평가
(실제값(test set)과 예측값(predict) 의 비교를 통해서) - 모델의 성능이 충분히 쓸만하다고 판단될 때,
새로운 데이터에 대해 학습된 모델을 이용해 y값을 예측
(Inference 과정)
Overfittig을 해결하는 방법
- 모델이 가질 수 있는 Parameter를 줄이거나,
모델이 고려하는 feature중에서 상대적으로 중요한 feature들만 모델의 input으로 사용 - 정규화(Regularization) : 모델이 가지는 복잡도를 제한하는 방법.
보통 모델의 Parameter가 가지는 값의 크기를 cost fuction에 추가해 주는 방식으로
parameter 값의 크기를 제한한다.
주로 이론이 많은 한 주를 보내고 있지만 하나하나가 정말 알찬 느낌이 든다.
'프로그래머스 > 데이터분석 데브코스' 카테고리의 다른 글
프로그래머스 데이터분석 데브코스 10-3 (좋은 지표의 특성, 지표) (0) | 2024.04.17 |
---|---|
프로그래머스 데이터분석 데브코스 10-2 (0) | 2024.04.16 |
프로그래머스 데이터분석 데브코스 8-3 (1) | 2024.04.03 |
프로그래머스 데이터분석 데브코스 8-1 (0) | 2024.04.01 |
프로그래머스 데이터분석 데브코스 7-5 (0) | 2024.03.29 |