포트폴리오의 큰 가닥을 잡았다.
프로젝트 제목은
LLM 기반 RAG 구조를 적용한, 특정 비정형 도메인에 최적화된 정보 검색 및 근거 기반 질의응답 서비스
이다.
하지만 이제 특정 비정형 도메인이 애니메이션을 포함하는 서브컬쳐가 될 예정이다.
뉴스를 활용하기에는 저작권, 개인정보 위험성이 있어 뉴스는 배제했다.
AIHub나 Kaggle을 찾아봤지만 마음에 드는, 딱 끌리는 도메인과 데이터가 없어서 직접 원하는 도메인의 데이터를 추출해 사용하기로 했다.
정한 도메인은 바로 애니메이션 + 서브컬쳐.
챗 GPT에 물어보면 뭐랄까 진짜 너무 제너럴하고 슴슴한 답변만 줘서
인물의 설정, 작품의 배경, 원작과 차이점, 인물 간 관계 이런걸 유사도 검색으로 LLM에 집어넣어가지고
아주 디테일한 질문, 관점 차이에 따라 바뀌는 캐릭터 해석 같은 질문에도 맛있게 대답하게 만들기 위해 진지하게 제작하기로 결심했다.
일단 아키텍쳐 자체는 크게 달라지지 않을 예정이다.
MongoDB를 베이스 스토리지로 사용하고 Faiss > Chroma로 변경하여 사용할 것이다.
Faiss > Chroma 변경 이유는 아무래도 Faiss는 벡터화 하여 사용할 때 좀 더 정교하게 튜닝하여 사용이 가능하지만 사용이 어렵고 실제 유저의 query에 대응하기가 좀 어려운 특성이 있어 LangChain도 사용해 볼 겸 저수준의 벡터DB인 Faiss에서 조금은 고수준이고 LangChain 호환성 GOAT인 Chroma로 가기로 했다.
아키텍쳐, 프로젝트 구조, FastAPI 구성은 얼추 뼈대를 세웠기에
빠르게 위키들 베이스로 크롤링 하여 몽고 DB -> 벡터화 -> Chroma 파이프라인 구성하는게 1차 목표이고
간단한 프롬프트와 LLM을 사용해서 FastAPI에 올려 작동 확인하는게 2차 목표이다.
전체 프로세스가 작동 하면 이제 거기서 데이터 늘리고 유사도 검색 잘하나도 보고... UI도 만들고 해야겠다.
'개인 프로젝트' 카테고리의 다른 글
| LLM + RAG 프로젝트 [3.1] 프론트 - 미들웨어 인증 로직 수정 (2) | 2025.08.19 |
|---|---|
| LLM + RAG 프로젝트 [4] 데이터 수집 (0) | 2025.08.08 |
| LLM + RAG 프로젝트 [3] Reverse Proxy 구성 (7) | 2025.07.29 |
| LLM + RAG 프로젝트 [2] 아키텍쳐 설계 (0) | 2025.06.23 |
| LLM + RAG 프로젝트 시작 [0] (0) | 2025.06.15 |