dataset 사용법1 recurrent gemma 2b 훈련을 위한 데이터 준비 및 처리하기 이전시간에 gemma 2b의 태생적 한계로 인해 프롬프트만으로 심리 상담 챗봇을 만들기에 부족함을 알았다. 파인튜닝을 위해 데이터를 준비하고 토큰화할 수 있도록 처리해야 한다. 🤗Huggingface의 🤗datasets 라이브러리를 이용해보자. 1. 데이터 구하기AI Hub의 '감성 대화 말뭉치'를 이용하였다. 용량도 20MB 정도로 그리 크지 않고 본인 컴퓨터에서 큰 무리 없이 돌릴만 하다고 판단되어 선택하게 되었다. 이 데이터를 이요하려면 회원가입 하고 몇 가지 동의 후 다운받을 수 있다.데이터 찾기 - AI 데이터찾기 - AI-Hub (aihub.or.kr) AI-Hub샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며.. 2024. 10. 3. 이전 1 다음