LLM·VLM 운영 시 발생하는 메모리 병목 해결, 긴 문서 처리 시 비용 절감… 금융·공공 온프레미스 AI 도입 가속화
사이냅소프트(대표 전경헌)는 최근 구글 리서치에서 공개한 최신 벡터 양자화 알고리즘 ‘터보퀀트(TurboQuant)’를 자사의 AI 솔루션 ‘사이냅 OCR IX’에 성공적으로 적용했다고 밝혔다.
사이냅 OCR IX는 시각언어모델(VLM)과 AI 에이전트 기술을 결합해 비정형 문서의 맥락을 이해하고 데이터를 추출하는 AI Agentic OCR솔루션이다. 하지만 일반적으로 대형언어모델(LLM)이나 VLM을 운영할 때, 긴 문서를 처리할수록 AI의 단기 기억 장치인 ‘KV 캐시(Key-Value Cache)’가 방대한 메모리를 차지해 고가의 고성능 GPU가 요구된다는 한계가 있었다.

사이냅소프트는 이러한 고객의 인프라 구축 부담을 해결하기 위해 모델의 인식 정확도 손실을 최소화하면서도 KV 캐시를 고도로 압축하는 최신 양자화 기술인 터보퀀트를 사이냅 OCR IX의 VLM 엔진에 최초 적용했다고 전했다.
업체 측에 따르면, 이번 기술 적용을 통해 사이냅 OCR IX는 동일 GPU 환경에서 더 긴 컨텍스트와 더 큰 배치를 병목 없이 빠르고 안정적으로 처리할 수 있게 되었다. 이로써 고가의 고성능 GPU 서버를 별도로 구축하기 부담스러웠던 고객들의 TCO(총소유비용)을 낮추는 데 성공했다는 설명이다.
또한, 사이냅소프트는 GPU 인프라 구축 자체가 제한적인 환경을 위해 ‘사이냅 OCR IX CPU 버전’도 함께 지원하고 있다. 자체 개발 모델의 특성에 맞춘 정밀 프로파일링으로 연산 효율을 극대화해, 품질 손실을 1% 이하로 억제하면서도 CPU 서버만으로 분당 약 100건 수준의 원활한 추론 처리가 가능하도록 성능을 확보했다. 이는 고가의 GPU 장비를 새롭게 도입하기 부담스럽거나 물리적인 제약으로 기존 서버를 활용해야 하는 기업 등, GPU 없이도 고성능 AI OCR을 도입하고자 하는 고객들에게 최적의 선택지를 제공한다는 것이다.
전경헌 사이냅소프트 대표는 “단순히 자체 기술력에만 머물지 않고 글로벌 빅테크의 최신 연구 성과인 터보퀀트를 기민하게 상용화하여 기존 VLM의 한계를 극복했다”며, “CPU 버전까지 아우르는 유연한 인프라 지원을 통해, 기업들이 도입 비용 걱정 없이 에이전틱 OCR(Agentic OCR) 환경을 구축하고 실질적인 업무 자동화를 이룰 수 있도록 적극 지원하겠다”고 강조했다.
<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>







