초안작업


HyperClova와 GPT-3중 누가 한국어를 더 잘할까요? 한국어의 고유한 특성과, 한국에 관한 지식을 누가 더 많이 보유할 수 있을까요? 이에 대한 Hae-Tae팀의 첫번째 실험 결과를 공유합니다.

안녕하세요, 저는 HAE-TAE팀의 PM을 맡고 있는 이한울이라고 합니다.

HAE-TAE(HAE-RAE) 는 instruction-tuning이 적용된 한국어 언어모델과 데이터셋을 구축하는 오픈소스 프로젝트로서, 손규진(태그)이 리딩하고 있는 단체입니다. 현재 23명의 인원이 활동하고 있습니다.

본 프로젝트에서는 (1) 영문 데이터 번역, (2) LLM을 활용한 synthetic data 생성, (3) 다양한 한국어 코퍼스에서 직접 수집 등 다양한 방법을 사용해 양질의 Chain-of-Thought(CoT) 및 Instruction 데이터셋 “혜래 (HAE-RAE)” 를 제작하고 이를 통해 학습한 Instruction-Tuned Language Model “해태 (HAE-TAE)”를 공개할 예정이며, 그 여정의 첫번째 작업물에 대한 프리뷰를 공개합니다.

(github 링크)

(설명)

해당 실험에서 활용된 dataset creation및 세부 실험 결과는 향후 ArXiv preprint로 공개될 예정입니다. 많은 관심 부탁드립니다. 감사합니다!