데이터 수집을 다시 하게 되었다.
기존과 동일하게 2006년부터 2025년 2분기까지의 애니메이션 타이틀에 대해 크롤링 진행했다.
왜 2006년으로 진행했느냐 하면 하루히 이후로 라노벨이며 모에 캐릭터, 흔히 말하는 씹덕 오타쿠 캐릭터들이 대거 양산되기 시작했기 때문이다.
그래서 기준을 2006-2025로 잡고 기존에는 시드 페이지만 크롤링 했지만 이번 케이스는 등장인물 캐릭터들과 줄거리, 설정 페이지 까지 재귀로 들어가 크롤링 하였다.
HTML 구조가 기괴해서, 재귀때문에, MySQL/MongoDB 저장, 멀티스레드때문에 아주 매우 고통을 받긴 했는데
일단 해결이 되었으니 만족한다...
그리고 처음으로 오픈소스에도 기여를 했다.
https://huggingface.co/datasets/ArinNya/namuwiki_anime
ArinNya/namuwiki_anime · Datasets at Hugging Face
{ "seed_title": "아카기 ~어둠에 내려앉은 천재~", "depth": 0, "fetched_at": "2025-08-08T11:26:55.698871" }
huggingface.co
누가 봐줄지, 누가 써줄지는 모르겠지만
일단 한국말 가득한 데이터셋을 허깅페이스에 공유했다.
생각보다 많이 떨린다 ㅋㅋ....
과연 어떤 피드백이 있을것인지...
'개인 프로젝트' 카테고리의 다른 글
| LLM + RAG 프로젝트 [5] 로컬 LLM 사용하면서 깨달은점 (5) | 2025.08.22 |
|---|---|
| LLM + RAG 프로젝트 [3.1] 프론트 - 미들웨어 인증 로직 수정 (2) | 2025.08.19 |
| LLM + RAG 프로젝트 [3] Reverse Proxy 구성 (7) | 2025.07.29 |
| LLM + RAG 프로젝트 [2] 아키텍쳐 설계 (0) | 2025.06.23 |
| LLM + RAG 프로젝트 [1] (1) | 2025.06.18 |