한국지능정보사회진흥원(NIA)과 한국정보통신기술협회(TTA)는 대규모 언어모델(LLM) 학습용 데이터 내 '유해 표현 검출 인공지능 모델 및 유해 표현 학습용 데이터'를 공개했다고 14일 밝혔다.
공개된 인공지능 모델은 주어진 말뭉치 데이터 내에서 유해 표현을 검출하고 다양한 유해 표현 카테고리로 분류하는 기능을 수행할 수 있다.
인공지능 모델에 학습시키기 위해 구축된 데이터는 ▲유해 표현 검출용 데이터 20만 건과 ▲유해 표현 카테고리 구분용 데이터 21만 건으로 구성돼 있다.
이번에 공개된 데이터 및 인공지능 모델은 과학기술정보통신부와 NIA가 운영하는 국내 최대 AI 학습용 데이터 제공 플랫폼 'AI 허브'에서 확인할 수 있다.