1576798089__a_round_logo_using_a_korean_traditional_animal_Ha_xl-beta-v2-2-2-removebg-preview.png

Workspace Moved to

Contact:

Project Lead 손규진 / ([email protected])

Partnership, Sponsor, External Cooperation, Other inquiries about researchs

Project Managing Team Lead 이한울 / ****([email protected])

Public Relations, Human Resources, Other inquiries about managements


HAE-RAE 는 instruction-tuning이 적용된 한국어 데이터셋을 구축하는 오픈소스 프로젝트입니다. 본 프로젝트에서는 (1) 영문 데이터 번역, (2) LLM을 활용한 synthetic data 생성, (3) 다양한 한국어 코퍼스에서 직접 수집 등 다양한 방법을 사용해 양질의 Chain-of-Thought(CoT) 및 Instruction 데이터셋 “혜래 (HAE-RAE)” 를 제작합니다.

HAE-RAE는 영어를 제외한 언어에서 Chain-of-Thought(CoT) 및 Instruction 데이터셋을 구축하는 최초의 연구로 여러 방법론과 원시 말뭉치에 중 가장 성능 향상에 도움이 되는 조합을 발견하는데 초점을 맞출 예정입니다. 해당 연구는 ACL 2024를 목표로 진행되며, 참여자 전원은 기여도에 따라 Gold, Silver, Bronze 티어 contributor로 논문과 프로젝트 홈페이지에 기재될 예정입니다.

HaeTae PR post

HAERAE Team Notion 계정