Kaggle3 Spooky Author Identification (클러스터링, PCA) 타겟변수의 훈련데이터셋의 고유한 속성이 3개임을 파악했다. model_name = 'huawei-noah/TinyBERT_General_4L_312D'tokenizer = BertTokenizer.from_pretrained(model_name)model = TFBertModel.from_pretrained(model_name, from_pt=True)def get_embeddings(texts, tokenizer, model, batch_size=32, max_length=512): embeddings = [] for i in tqdm(range(0, len(texts), batch_size), desc="Generating Embeddings"): batch_texts = te.. 2024. 6. 4. 캐글 playground spaceship titanic 두번째로 도전했던 문제였다. 첫번째로 도전한건 건강상태를 보고 흡연 여부를 분류하는 문제였는데, 이건 분류모델의 기능, 각종 메소드와 손실함수 평가지표가 뭐하는녀석인지도 모른 채 퍼셉트론만 잔뜩 만들어 진행했었다. 그 다음으로 진행한 space titanic 문제는 그래도 matric이 뭘 계산하는지 과적합 났을때 어떻게 해야하는지 스케일러는 뭘 써야하는지 고민해보고 엄청 복잡한 딥러닝 모델도 만들어보고 쉽고빠른 랜덤포레스트 모델도 사용해 보았다.결측치를 밥먹듯이 삭제하는게 아니라 데이터 분포를 살펴보고 채워넣는 방법도 배웠다. 원 핫 인코딩을 진행했더라면, ordinary 인코딩 할 때 인코딩 된 숫자를 조금 더 신경썼더라면 좋았겠지만df_train["RoomService"].fillna(0, inpl.. 2024. 5. 13. 캐글 Regression with an Abalone Dataset 도전 (1) 그간 간단한 이진분류, 다중분류 문제들만 접하다가 처음으로 연속적인 값을 예측해야 하는 문제를 접했다. https://www.kaggle.com/competitions/playground-series-s4e4 Regression with an Abalone Dataset | Kaggle www.kaggle.com캐글 플레이그라운드 문제인데 기존 늘 하던것처럼 tfdf의 랜덤포레스트 모델부터 돌려봤다.손실함수 값도, 정확도도 잘 학습되었다고는 볼 수 없었고, 예측을 출력하는것도 잘 안되었다.예측 데이터의 차원때문에 계속해서 오류가 났는데 문제가 뭐일까 살펴보다가 로그가 기존 분류와는 다르게 위의 캡쳐 처럼 30개의 클래스별로 예측한 확률을 30개의 차원으로 출력을 해버려서 오류가.. 2024. 4. 24. 이전 1 다음