본문 바로가기

NLP2

Spooky Author Identification (클러스터링, PCA) 타겟변수의 훈련데이터셋의 고유한 속성이 3개임을 파악했다. model_name = 'huawei-noah/TinyBERT_General_4L_312D'tokenizer = BertTokenizer.from_pretrained(model_name)model = TFBertModel.from_pretrained(model_name, from_pt=True)def get_embeddings(texts, tokenizer, model, batch_size=32, max_length=512): embeddings = [] for i in tqdm(range(0, len(texts), batch_size), desc="Generating Embeddings"): batch_texts = te.. 2024. 6. 4.
GPT에게 자연어처리 배우기(모델 구현) ML/DL을 접하고 분류, 회귀 모델은 만들어 보았지만 자연어처리, 이미지처리까지는 도달하지 못했다.그래서 자연어처리의 정수이신 분께 자연어처리를 배워보기로 했다. 나 : 자연어 처리를 시작해보려고 하는데 뭐부터 시작하면 좋을까? GPT :안녕하세요! 자연어처리(NLP)에 관심이 있다니 정말 멋져요! 😊 자연어처리는 흥미롭고 다양한 분야에서 활용될 수 있는 기술이랍니다. 시작하는 데 도움이 되는 몇 가지 단계를 알려드릴게요.기초 개념 이해하기: 언어 모델: 자연어처리에서 사용하는 모델을 이해하는 것이 중요해요. 예를 들어, GPT, BERT 같은 모델들이 있답니다. 토큰화: 텍스트 데이터를 분석하기 위해 텍스트를 단어 또는 더 작은 단위로 나누는 과정이에요. 형태소 분석: 문장을 구성하는 각각의 단어들.. 2024. 5. 24.