KT, 한국어 멀티모달 안전성 평가 데이터셋 공개해

2026-06-16 김미혜 기자, elecnews@elec4.co.kr

한국 문화 특화 AI 벤치마크 'KSAFE-MM' 공개...기존 벤치마크 대비 저비용·고효율 달성

KT(대표이사 박윤영)가 멀티모달 대형언어모델(MLLM) 벤치마크 'KSAFE-MM'을 공개했다고 6월 16일 밝혔다. 이는 KT와 고려대가 공동 개발했으며 멀티모달(Multimodal: 텍스트·이미지·음성 등 다양한 데이터를 통합처리) AI 모델의 안전성을 한국 사회 이슈와 문화적 맥락을 반영해 평가한다.

업체 측에 따르면, 'KSAFE-MM'은 글로벌 공통 리스크를 한국 문화 맥락으로 변환한 'KSAFE-MM-G'와 전세 사기, 독도 분쟁과 같은 한국 사회 고유의 이슈를 반영한 'KSAFE-MM-C'로 구성된다. 총 1만 4,135개의 평가 샘플로 구성돼 국내 최대규모 한국어 멀티모달 안전성 평가 데이터셋이며 Gemma, HyperCLOVA X 등 12개 글로벌 멀티모달 대형 언어모델(MLLM)을 검증했다.

특히 자동화한 범용 파이프라인(Pipeline: 데이터 수집부터 배포까지 아우르는 작업 프로세스)을 제시했다는 점이 특징이다. 기존 벤치마크는 수동 검수 중심이라 비용이 많이 들고 효율도 높지 않다. 하지만 'KSAFE-MM'은 현지 커뮤니티 기반 민감 주제 수집부터 템플릿 기반 쿼리(Query: 사용자가 AI모델에 입력하는 질문) 생성, 합성 이미지 생성, AI의 안전 장치나 윤리 제한을 교묘하게 우회하도록 변형된 탈옥 쿼리(Jailbreak Query) 생성까지 전 과정을 아우르는 4단계 자동화 파이프라인을 구현했다.

이는 특정 문화권 전문가 없이도 현지 특성을 반영한 안전성 벤치마크를 신속하게 구축할 수 있는 표준 프레임워크를 제공해 비용은 낮추고 효율을 높일 수 있다는 의미다. KT·고려대 공동 연구진은 동일한 파이프라인을 일본어에 적용한 파일럿 실험(JSAFE-MM-C)을 통해 전 세계 어느 문화권에도 즉시 적용 가능함을 실증했다는 설명이다.

이번 연구 결과는 실제 AI 서비스 환경에서의 안전성 검증, 레드팀 테스트, 가드레일 모델 평가 등 다양한 목적으로 활용될 수 있을 것으로 기대된다. 연구결과 및 벤치마크는 아카이브(arXiv)와 허깅페이스(Hugging Face)에 공개돼 누구나 활용할 수 있다고 업체 측은 전했다.

KT는 RAI 전담 조직을 중심으로 안전 리스크 분류 체계 설계, 평가 지표 및 로직 구현 등 연구 전반에 핵심적 역할을 수행했다. KT Responsible AI 전담 조직은 최근 다국어 텍스트 벤치마크 'XL-SafetyBench'를 공개한 데 이어, 이번에는 'KSAFE-MM'을 별도 연구로 선보이며 한국형 AI 안전성 평가 생태계를 지속적으로 선도하고 있다는 것이다.

KT AX미래기술원 Frontier AI Lab장 박재형 상무는 "안전성 벤치마크의 공개는 단순한 데이터 배포를 넘어, AI 안전성 연구 생태계 전반이 함께 발전할 수 있는 기반을 만드는 일"이라며, "KSAFE-MM이 학계와 산업계에서 한국어·한국 문화 맥락의 AI 안전성을 검증하는 공통 기준으로 자리잡길 기대한다"고 말했다.

100자평 쓰기