python/MLDL13 캐글 Regression with an Abalone Dataset 도전 (2)(클러스터링 실험) object type 컬럼만 인코딩 진행하고 모델을 돌려서 제출했더니 당연하게도 점수가 매우 낮게 나왔다. 전처리를 진행하는데 heigh, 키가 0인 레코드들이 있었다.날려야하나 채워야하나 고민하다가 최근 프로그래머스 데이터분석 데브코스 과정에서 배운 클러스터링을 한번 써봐야겠다는 생각이 들어서 클러스터링을 시도해 보았다. 우선은 K means 클러스터링을 진행하기 전에 적절한 K값을 찾기 위해 inertia값과 실루엣 계수를 구해보았다.inertia 가 완만하게 줄어들고 실루엣 계수도 상승하는, k=7을 주고 클러스터링을 진행했다.빨간 클러스터가 보이지 않는데 이유는 잘 모르겠다...다만 height가 0인건 일단 날리는게 맞아보이고, 0.4 이상도 이상치로 봐야하나 고민했었는데 1에 근접한 레코드들만.. 2024. 4. 25. 캐글 Regression with an Abalone Dataset 도전 (1) 그간 간단한 이진분류, 다중분류 문제들만 접하다가 처음으로 연속적인 값을 예측해야 하는 문제를 접했다. https://www.kaggle.com/competitions/playground-series-s4e4 Regression with an Abalone Dataset | Kaggle www.kaggle.com캐글 플레이그라운드 문제인데 기존 늘 하던것처럼 tfdf의 랜덤포레스트 모델부터 돌려봤다.손실함수 값도, 정확도도 잘 학습되었다고는 볼 수 없었고, 예측을 출력하는것도 잘 안되었다.예측 데이터의 차원때문에 계속해서 오류가 났는데 문제가 뭐일까 살펴보다가 로그가 기존 분류와는 다르게 위의 캡쳐 처럼 30개의 클래스별로 예측한 확률을 30개의 차원으로 출력을 해버려서 오류가.. 2024. 4. 24. gpt 에게 머신러닝 기초에 대해 물어본 것들 / 모델, 데이터 종류 관련 우선 선형, 비선형의 차이점과 회귀, 가우시안에 대해 설명해 달라고 부탁했다. 이것만으로는 선형or비선형과 회귀의 차이점을 이해하기는 힘들었다. 몇번 더 질문과 답변을 거친 후 이해한 내용을 다시한번 확인할 수 있었고 정리도 너무 깔끔했다. 선형이나 비선형과 연속성에 대해 의문이 풀리지 않았었는데 모델링 방식, 문제의 종류와 데이터의 성질을 비교해서 이해가 안되었던 것 같다. 데이터셋이 선형일수도 비선형일수도 있다. 이를 가지고 예측해야하는게 연속적일수도 연속적이지 않을수도 있다. 그리고 이 문제를 해결하기 위해 예측해야하는 값이 연속적인 값이라면 회귀 모델을 값이 연속적이지 않다면 분류 모델을 사용하는것. 그간 텐서플로우로 무식하게 뉴런 몇백만개 천만개 이렇게 만든 모델은 결국 연속적이지 않은 값을 예.. 2024. 3. 1. gpt에게 머신러닝 기초에 대해 물어본 것들 / 싸이킷 런 관련 알고리즘, 모델의 종류, 모델의 종류를 판단하는 기준 이런것들을 모른 채 무식하게 텐서플로우로 레이어 잔뜩 쌓고 노드 수 몇백만개로 모델 만들고 경사하강법 바꿔보고 캐글 비기너 문제에 도전해왔다. 프로그래머스 데이터분석 데브코스 수강하면서 뭔가 머신러닝에 대해 모르는게 많고 내가 그간 뭘 만들어왔는지도 확실히 모르는 것을 보고 gpt 4.0 결제 한 김에 여러가지 물어봤다. 텐서플로우를 한번 찍어먹어 봤으니 싸이킷런도 한번 먹어봐야 겠어서 싸이킷런 관련해서 많이 물어봤다. 우선 대표적인 모델들을 설명해 달라고 했다. 공식 문서를 열어보는데 뭐 클러스터 군집화 이해가 안되어서 이 부분도 gpt에게 물어봤다. 사용 예시에 이미지 분류가 있길래 자연어 처리도 클러스터링과 연관이 있는가 물어봤다. 이렇게 물어보.. 2024. 3. 1. 이전 1 2 다음