
데이터 전문 미소정보기술(대표 남상도)은 비전언어모델(VLM) 기반의 3세대 광학문자인식(OCR) ‘빅스(ViiX)’를 출시한다고 17일 밝혔다.
미소정보기술 관계자는 “오픈소스 모델의 성능이 점점 올라가는 추세라, 타사 OCR을 도입하는 방법보다 직접 개발하는 방안이 효과적”이라며 “자동으로 데이터를 합성하고 증강해 자체 학습을 진행하는 방식으로 OCR의 성능을 지속적으로 올릴 수 있으며, 100%에 가까운 정확도를 달성했다”라고 말했다.
이러한 배경으로 출시하게 된 빅스는 병원 의료기록, 제조, 건설 문서등 산업 현장에서 생성되는 다양한 문서를 대형언어모델(LLM)로 이해하고 데이터로 변환하는 도메인 특화 최신 OCR 솔루션이다. 최근 기업 데이터 대부분이 문서·이미지·도면 등 비정형 데이터 형태로 생성되면서, 이를 자동으로 이해하고 활용하는 도큐먼트 AI 시장이 빠르게 성장하고 있다는 점에 주목한 것이다.
특히, 문서의 문맥과 구조를 같이 분석하는 방식으로, 키-정보(Key-Value) 추출 정확도를 높였다고 전했다. 또, 휴먼 인 더 루프(HITL) 학습 구조를 적용해 AI가 확신하지 못하는 데이터만 선별적으로 검수 요청을 수행하고, 이를 통해 지속적으로 모델 성능을 개선하는 자가 진화(Self-learning) 구조를 구현했다.
여기에 20년간 의료·제조·건설 산업 현장에서 축적한 도메인 데이터를 바탕으로 전문 학습 레이어를 적용한 도메인 특화 AI 모델을 구축했다. 또, 자체 개발한 자연어 처리 기술 ‘스마트 TA’와 AI 모델 개발 및 운영 자동화 플랫폼 ‘액틱(ACTIC)’을 연계해 문서 인식 이후 데이터 분석과 업무 자동화까지 확장 가능한 구조를 제공한다.
제로샷(Zero-Shot) 문서 이해 기술을 적용, 별도 라벨링 없이도 다양한 문서 양식에 대응할 수 있는 것이 강점이다. 이를 통해 작업지시서, 진료기록, 보험청구서, 계약서 등 산업 현장에서 생성되는 문서를 자동으로 분석하고 필요한 정보를 추출해 문서 처리 자동화를 지원하며 제조, 의료, 건설 등 다양한 산업 분야에서 활용 가능하다.
문자 인식 중심의 1세대 OCR이나 딥러닝 중심의 표 영역 인식과 필드 추출을 지원했던 2세대 OCR과 달리, 재학습 및 추가 비용을 최소화할 수 있다는 설명이다.
남상도 미소정보기술 대표는 “지난 20년간 산업 현장에서 축적한 도메인 지식을 AI 기술로 체계화한 결과물”이라며 “단순히 문서를 읽는 수준을 넘어, 문서에 담긴 비즈니스 맥락을 이해하고 현장에서 업무 자동화를 구현하는 문서 AI 시대를 열어가겠다”라고 말했다.
출처 : AI타임스 장세민 기자
https://www.aitimes.com/news/articleView.html?idxno=207981
데이터 전문 미소정보기술(대표 남상도)은 비전언어모델(VLM) 기반의 3세대 광학문자인식(OCR) ‘빅스(ViiX)’를 출시한다고 17일 밝혔다.
미소정보기술 관계자는 “오픈소스 모델의 성능이 점점 올라가는 추세라, 타사 OCR을 도입하는 방법보다 직접 개발하는 방안이 효과적”이라며 “자동으로 데이터를 합성하고 증강해 자체 학습을 진행하는 방식으로 OCR의 성능을 지속적으로 올릴 수 있으며, 100%에 가까운 정확도를 달성했다”라고 말했다.
이러한 배경으로 출시하게 된 빅스는 병원 의료기록, 제조, 건설 문서등 산업 현장에서 생성되는 다양한 문서를 대형언어모델(LLM)로 이해하고 데이터로 변환하는 도메인 특화 최신 OCR 솔루션이다. 최근 기업 데이터 대부분이 문서·이미지·도면 등 비정형 데이터 형태로 생성되면서, 이를 자동으로 이해하고 활용하는 도큐먼트 AI 시장이 빠르게 성장하고 있다는 점에 주목한 것이다.
특히, 문서의 문맥과 구조를 같이 분석하는 방식으로, 키-정보(Key-Value) 추출 정확도를 높였다고 전했다. 또, 휴먼 인 더 루프(HITL) 학습 구조를 적용해 AI가 확신하지 못하는 데이터만 선별적으로 검수 요청을 수행하고, 이를 통해 지속적으로 모델 성능을 개선하는 자가 진화(Self-learning) 구조를 구현했다.
여기에 20년간 의료·제조·건설 산업 현장에서 축적한 도메인 데이터를 바탕으로 전문 학습 레이어를 적용한 도메인 특화 AI 모델을 구축했다. 또, 자체 개발한 자연어 처리 기술 ‘스마트 TA’와 AI 모델 개발 및 운영 자동화 플랫폼 ‘액틱(ACTIC)’을 연계해 문서 인식 이후 데이터 분석과 업무 자동화까지 확장 가능한 구조를 제공한다.
제로샷(Zero-Shot) 문서 이해 기술을 적용, 별도 라벨링 없이도 다양한 문서 양식에 대응할 수 있는 것이 강점이다. 이를 통해 작업지시서, 진료기록, 보험청구서, 계약서 등 산업 현장에서 생성되는 문서를 자동으로 분석하고 필요한 정보를 추출해 문서 처리 자동화를 지원하며 제조, 의료, 건설 등 다양한 산업 분야에서 활용 가능하다.
문자 인식 중심의 1세대 OCR이나 딥러닝 중심의 표 영역 인식과 필드 추출을 지원했던 2세대 OCR과 달리, 재학습 및 추가 비용을 최소화할 수 있다는 설명이다.
남상도 미소정보기술 대표는 “지난 20년간 산업 현장에서 축적한 도메인 지식을 AI 기술로 체계화한 결과물”이라며 “단순히 문서를 읽는 수준을 넘어, 문서에 담긴 비즈니스 맥락을 이해하고 현장에서 업무 자동화를 구현하는 문서 AI 시대를 열어가겠다”라고 말했다.
출처 : AI타임스 장세민 기자
https://www.aitimes.com/news/articleView.html?idxno=207981