엔비디아 AI 훈련을 위한 한국형 합성 데이터셋 공개

엔비디아가 한국 사회와 문화적 특성을 반영한 합성 데이터셋인 ‘네모트론-페르소나-코리아’를 공개했다. 이 데이터셋은 글로벌 AI 개발 플랫폼인 허깅페이스에서 데이터셋 부문 1위를 기록하며 글로벌 커뮤니티의 높은 관심을 받고 있다. 엔비디아는 “한국어 특화 데이터셋이 기술적 완성도와 실용성을 인정받으며 국내 AI 생태계의 경쟁력을 입증한 사례”라고 평가했다.

네모트론-페르소나-코리아는 대한민국의 인구통계학적, 지리적, 문화적 특성을 투영한 600만 건 규모의 합성 데이터셋이다. 국가통계포털, 대법원, 국민건강보험공단, 한국농촌경제연구원, 네이버 클라우드 등 신뢰도가 높은 공공 및 민간 데이터를 기반으로 구축해 한국 사회의 실제 통계적 분포를 반영했다.

데이터의 현실성을 높이기 위해 이름과 성별, 연령, 혼인 상태, 교육 수준, 직업, 거주 지역 등 주요 속성을 실제 통계 수치에 맞췄다. 한국어 특유의 존댓말 체계와 지역별 직업 패턴 같은 문화적 맥락도 고려했다. 기존 데이터셋에서 상대적으로 비중이 낮았던 고령층과 농촌 지역, 다양한 직업군을 포괄해 개발자가 한국 문화를 깊이 이해하는 정교한 AI 시스템을 구축하도록 돕는다.

개인정보 보호와 규제 준수에도 중점을 뒀다. 이 데이터셋은 개인정보를 포함하지 않는 완전한 합성 데이터로 구성해 국내 개인정보보호법을 준수하도록 설계했다. 엔비디아는 이를 통해 데이터 활용성과 규제 준수 사이의 균형을 확보하고 AI 개발 환경에 필요한 신뢰성과 확장성을 동시에 충족한다고 설명했다.

현재 네모트론-페르소나-코리아는 오픈소스 라이선스로 공개되어 국내외 개발자가 자유롭게 활용할 수 있다. 엔비디아는 이번 데이터셋이 한국형 소버린 AI 발전을 위한 핵심 자산으로서, 데이터 다양성을 넓히고 모델의 편향성을 완화하며 응답 품질을 높이는 데 기여할 것으로 기대하고 있다.

#태그

엔비디아

네모트론-페르소나-코리아

합성 데이터

ㆍ업체 홍보

ㆍ인기