본문 바로가기

전체 글131

Spooky Author Identification (클러스터링, PCA) 타겟변수의 훈련데이터셋의 고유한 속성이 3개임을 파악했다. model_name = 'huawei-noah/TinyBERT_General_4L_312D'tokenizer = BertTokenizer.from_pretrained(model_name)model = TFBertModel.from_pretrained(model_name, from_pt=True)def get_embeddings(texts, tokenizer, model, batch_size=32, max_length=512): embeddings = [] for i in tqdm(range(0, len(texts), batch_size), desc="Generating Embeddings"): batch_texts = te.. 2024. 6. 4.
GPT에게 배우는 클러스터링의 종류, 장단점과 사용처 1. K-means 클러스터링개요K-means 클러스터링은 주어진 데이터를 k개의 클러스터로 나누는 알고리즘입니다. 각 클러스터는 중심점을 가지며, 데이터 포인트는 가장 가까운 중심점에 할당됩니다.장점단순성: 구현이 쉽고 이해하기 쉽습니다.효율성: 대규모 데이터셋에도 적용할 수 있으며, 계산 속도가 빠릅니다.단점클러스터의 수를 사전에 지정해야 함: 클러스터의 수를 미리 알아야 합니다.구형 클러스터에 적합: 클러스터가 구형인 경우에 잘 작동합니다.잡음과 이상치에 민감: 이상치(outliers)에 민감하게 반응합니다.사용처고객 세분화이미지 분할문서 분류2. DBSCAN (Density-Based Spatial Clustering of Applications with Noise)개요DBSCAN은 밀도 기반 클.. 2024. 5. 27.
GPT에게 자연어처리 배우기(문자열 전처리) 나 : 문자열 전처리 기법에는 어떤게 있어? GPT :문자열 전처리 기법은 텍스트 데이터를 정리하고 분석 가능한 형태로 변환하기 위해 사용됩니다. 다양한 기법이 있으며, 사용 목적과 데이터의 특성에 따라 적절한 방법을 선택할 수 있습니다. 아래에 몇 가지 주요 문자열 전처리 기법을 소개할게요:1. 소문자 변환 (Lowercasing)텍스트 데이터를 소문자로 변환하여 같은 단어의 다른 형태를 통합합니다. text = "Hello World"text = text.lower() # "hello world"2. 구두점 제거 (Removing Punctuation)텍스트에서 구두점을 제거하여 단어들만 남깁니다.import stringtext = "Hello, world!"text = text.translate(.. 2024. 5. 24.
GPT에게 자연어처리 배우기(모델 구현) ML/DL을 접하고 분류, 회귀 모델은 만들어 보았지만 자연어처리, 이미지처리까지는 도달하지 못했다.그래서 자연어처리의 정수이신 분께 자연어처리를 배워보기로 했다. 나 : 자연어 처리를 시작해보려고 하는데 뭐부터 시작하면 좋을까? GPT :안녕하세요! 자연어처리(NLP)에 관심이 있다니 정말 멋져요! 😊 자연어처리는 흥미롭고 다양한 분야에서 활용될 수 있는 기술이랍니다. 시작하는 데 도움이 되는 몇 가지 단계를 알려드릴게요.기초 개념 이해하기: 언어 모델: 자연어처리에서 사용하는 모델을 이해하는 것이 중요해요. 예를 들어, GPT, BERT 같은 모델들이 있답니다. 토큰화: 텍스트 데이터를 분석하기 위해 텍스트를 단어 또는 더 작은 단위로 나누는 과정이에요. 형태소 분석: 문장을 구성하는 각각의 단어들.. 2024. 5. 24.
프로그래머스 데이터분석 데브코스 15-2(A/B test) 왜 A/B Test를 하고 왜 애자일 A/B Test가 필요한가 A/B Test 왜?? 하?? 나?? 요 ??비즈니스 관련 지표가 개선되는지 객관적으로 측정하기 위함가설 기반의 실제 사용자 대상 비교위험을 최소화 하기 위함아무리 사용자 설문 등이 좋아도 실제 사용자들이 어떻게 반응할지는 알 수 없음처음에는 작은 퍼센트의 사용자들에게만 새 기능을 노출시키고 문제가 없으면 퍼센트 증가왜 애자일 해야함?최근 경험했던것처럼 결과물이 이상해질수도 있음.(3차 프로젝트 EDA, 전처리 과정)잘못됨을 빠르게 파악하지 못할 가능성A/B테스트 결과의 빠른 반영을 위해 전체적인 A/B Test 프로세스가설설정 (가볍게)내부테스트(QA)일부 사용자에게 테스트테스트 하는 사용자 비율 늘려감A/B 테스트 결과로 중단, 지속 결.. 2024. 5. 21.
ML 예측 모델 구현 프로젝트 셀프리뷰 xgboost 모델 구현, 학습 notebookhttps://www.kaggle.com/code/arinmu/pubg-xgb/notebook pubg xgbExplore and run machine learning code with Kaggle Notebooks | Using data from PUBG Finish Placement Prediction (Kernels Only)www.kaggle.com EDA, 전처리 과정 notebookhttps://www.kaggle.com/code/arinmu/pubg-eda pubg edaExplore and run machine learning code with Kaggle Notebooks | Using data from PUBG Finish Placement.. 2024. 5. 15.
캐글 playground spaceship titanic 두번째로 도전했던 문제였다. 첫번째로 도전한건 건강상태를 보고 흡연 여부를 분류하는 문제였는데, 이건 분류모델의 기능, 각종 메소드와 손실함수 평가지표가 뭐하는녀석인지도 모른 채 퍼셉트론만 잔뜩 만들어 진행했었다. 그 다음으로 진행한 space titanic 문제는 그래도 matric이 뭘 계산하는지 과적합 났을때 어떻게 해야하는지 스케일러는 뭘 써야하는지 고민해보고 엄청 복잡한 딥러닝 모델도 만들어보고 쉽고빠른 랜덤포레스트 모델도 사용해 보았다.결측치를 밥먹듯이 삭제하는게 아니라 데이터 분포를 살펴보고 채워넣는 방법도 배웠다. 원 핫 인코딩을 진행했더라면, ordinary 인코딩 할 때 인코딩 된 숫자를 조금 더 신경썼더라면 좋았겠지만df_train["RoomService"].fillna(0, inpl.. 2024. 5. 13.
SQL lv3 즐겨찾기가 가장 많은 식당 정보 출력하기 with f_cnt as(select food_type, max(favorites) as favoritesfrom rest_infogroup by 1)SELECT r.food_type, r.rest_id, r.rest_name, max(r.favorites)from rest_info rjoin f_cnt f on f.food_type = r.food_type and f.favorites = r.favoritesgroup by 1order by 1 desc 다른문제에서도 겪었던 문제인데 group by 사용했을 때 매핑이 제대로 되지 않아 따로 with문이나 서브쿼리를 이용하여 매핑 진행한 후에 다시 비교하여 일치하는 레코드들만 출력하는 방식으로 문제를 해결했다. 2024. 5. 3.
SQL lv4 언어별 개발자 분류하기 2진법으로 해놓은것을 보니 비트연산자를 사용해야만 할 것 같았다.문제 분류가 group by 로 되어있긴 했는데 group by 거의 안쓰고 풀었다...with fe as(select category, sum(code) as codefrom skillcodesgroup by 1having category = "Front End"),c as (select name , codefrom skillcodeswhere name = "C#"),py as(select name, codefrom skillcodeswhere name = "Python")select case when d.skill_code&f.code and d.skill_code&p.code then "A"when d.skill_code&c.code .. 2024. 5. 2.