데이터 전처리3 recurrent gemma 2b 훈련을 위한 데이터 준비 및 처리하기 이전시간에 gemma 2b의 태생적 한계로 인해 프롬프트만으로 심리 상담 챗봇을 만들기에 부족함을 알았다. 파인튜닝을 위해 데이터를 준비하고 토큰화할 수 있도록 처리해야 한다. 🤗Huggingface의 🤗datasets 라이브러리를 이용해보자. 1. 데이터 구하기AI Hub의 '감성 대화 말뭉치'를 이용하였다. 용량도 20MB 정도로 그리 크지 않고 본인 컴퓨터에서 큰 무리 없이 돌릴만 하다고 판단되어 선택하게 되었다. 이 데이터를 이요하려면 회원가입 하고 몇 가지 동의 후 다운받을 수 있다.데이터 찾기 - AI 데이터찾기 - AI-Hub (aihub.or.kr) AI-Hub샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며.. 2024. 10. 3. [목차] Numpy 딥러닝 시리즈 Numpy 만으로 인공신경망을 구축하고 훈련하는 Numpy 딥러닝 시리즈의 목차를 정리한 것입니다. 1. 단순 퍼셉트론 1. 선형회귀 구현하기(이론) (tistory.com) 1. 선형회귀 구현하기(이론) (시작하기 앞서 기본적인 수학 이론을 공부해야 한다. 아래 링크를 정주행하는 것을 추천한다. https://toyourlight.tistory.com/category/%ED%8C%8C%EC%9D%B4%EC%8D%AC%20%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D/%EB%94%A5%EB% toyourlight.tistory.com 2. 선형회귀 구현하기(실습) (tistory.com) 2. 선형회귀 구현하기(실습) 저번시간에 X = [1, 2, 3], Y = [3,.. 2023. 9. 24. 24. 딥러닝에서 데이터 표준화, 정규화가 필요한 이유 딥러닝 실행 전에 데이터 표준화(Normalization)와 정규화(Standardization)가 왜 필요할까? Kaggle 콘크리트 강도 계산(Calculate Concrete Strength) 데이터를 예시로 들어보자. 콘크리트 강도 계산 feature는 8개로 구성되어 있는데 각각 성질은 아래와 같다. Cement Component : - 시멘트의 혼합량 Blast Furnace Slag : - 고로 슬래그 미분말 함유량 (링크 참고) Fly Ash Component : - 플라이애시 혼합량(링크 참고) Water Component : - 물 혼합량 Superplasticizer Component : - 가소제 혼합량(링크 참고) Coarse Aggregate Component : - 굵은 골재 .. 2022. 4. 19. 이전 1 다음