MSAP.ai 블로그

MSAP.ai 블로그에서 최신 정보와 유용한 팁을 만나보세요. 다양한 콘텐츠와 전문 지식을 통해 더 나은 경험을 제공합니다.

Document AI – 오픈소스 Donut, Pix2Struct, LayoutLMv3, MorPhik

Donut, Pix2Struct, LayoutLMv3, MorPhik – 최신 Document AI 모델 4종을 비교하고, OCR 없이 문서를 이해하는 기술의 진화를 소개합니다.

2025년 08월 05일

Document AI - 오픈소스 Donut, Pix2Struct, LayoutLMv3, MorPhik

Document AI – 오픈소스 Donut, Pix2Struct, LayoutLMv3, MorPhik

Document AI에 주목해야 하는 이유는, 더 이상 문자 인식과 의미 분석을 따로 처리하는 복잡한 파이프라인이 필요 없기 때문입니다. LLM과 결합된 최신 Document AI는 텍스트와 시각적 레이아웃을 동시에 이해해 정확성과 속도를 크게 높입니다.

단일 엔드투엔드 처리로 오류 누적을 최소화하고, 문서의 구조적 맥락까지 활용할 수 있습니다. 이로써 인보이스, 계약서, 행정 서류 등 다양한 문서 업무를 자동화하며, 처리 품질과 생산성을 함께 향상시킵니다.

결국 기업과 공공기관 모두 데이터 활용 범위를 넓히고, 의사결정 속도를 높이는 핵심 기술이 됩니다.

Document AI 는 무엇인가?

Document AI는 말 그대로 “문서를 이해하는 인공지능”입니다. 과거의 OCR처럼 글자를 인식하는 수준을 넘어, 문서의 레이아웃(표, 키–값, 서명 칸), 언어적 맥락, 시각적 배열을 함께 해석해 구조화된 데이터로 바꾸고, 더 나아가 내용을 요약·검증·질의응답까지 수행합니다. 업계에서는 Intelligent Document Processing(IDP) 라는 이름으로도 부르며, 문서 분류→추출→검증→업무 시스템 연계까지 하나의 파이프라인으로 다룹니다. 대표 서비스만 봐도 성격이 분명합니다. 구글의 Document AI는 다양한 문서용 프로세서를 제공해 추출·분류·분할을 자동화하고, 마이크로소프트의 Azure AI Document Intelligence와 AWS Textract 역시 키–값·표 추출과 레이아웃 이해를 표준 API로 제공합니다. 이들이 공통으로 말하는 핵심은 “문서 속 비정형 정보를 기계가 다룰 수 있는 데이터로 전환한다”는 점입니다.

학계·오픈소스에서도 같은 흐름이 보입니다. 마이크로소프트의 LayoutLMv3는 텍스트·이미지·레이아웃을 한 모델 안에서 사전학습해 폼·영수증 이해, 문서 VQA 등에서 강한 성능을 보였고, 네이버·클로바의 Donut은 아예 OCR 없이 엔드투엔드로 문서를 파싱해 속도·정확성을 끌어올렸습니다. 이런 모델들이 상용 서비스의 토대가 되며, “문자만 읽는” OCR과 “문서를 이해하는” Document AI의 경계가 갈수록 분명해졌습니다.

왜 Docuement AI 가 필요한가?

기업과 공공의 핵심 정보는 여전히 문서 형태(계약서, 인보이스, 민원서류, 각종 허가·심사 서류, 정책·지침 PDF)에 갇혀 있습니다. 사람이 읽고 입력하는 방식은 느리고 비싸며 오류에 취약합니다. IDP가 필요한 이유는 단순 자동화가 아니라, 리드타임 단축·정합성 향상·감사 가능성(감사 흔적) 확보라는 경영 과제를 동시에 풀어주기 때문입니다. 주요 클라우드 벤더들은 이런 목적에 맞춰 문서 분류·추출·검증을 표준화했고, “업무 시스템에 즉시 연결 가능한” 워크플로로 제공하고 있습니다.

또 하나의 추동력은 LLM의 ‘긴 문맥’ 처리 능력입니다. 구글 Gemini 1.5는 최대 100만~200만 토큰급 컨텍스트를 실험적으로 제공하며, 대용량 PDF 다발을 한 번에 읽고 근거를 대며 답하도록 설계되고 있습니다. 앤스로픽 Claude 3 계열도 20만 토큰급 장문을 다루는 것을 표준화했습니다. 즉, 과거처럼 “문서를 쪼개 임시 벡터DB에 적재하고 조립”하던 전처리 부담이 줄고, 원문 근거에 기반한 QA·요약·검증이 가능해지는 것입니다.

Docment AI 가 엔터프라이즈에 어떤 혁신을 이루어 낼까요?

가장 먼저 변화가 체감되는 영역은 재무(AP)와 구매 부문입니다. 국내 대기업과 공공기관에서도 이미 인보이스·세금계산서·지출결의서 처리에 Document AI를 도입해 처리 시간을 절반 이상 단축하는 사례가 늘고 있습니다. 예를 들어 일부 대기업은 ERP와 연동된 문서 AI를 통해 거래처로부터 받은 PDF 인보이스를 자동 분류·검증하고, 부가세 신고용 데이터를 즉시 생성합니다. 과거 회계팀이 수작업으로 수천 건을 입력·검증하던 작업이 실시간에 가깝게 변하면서, 단순 인건비 절감뿐 아니라 결산 마감 안정성과 내부 통제력까지 강화됩니다.

행정·규제 분야에서도 변화가 두드러집니다. 국내 지자체와 중앙부처 일부에서는 민원·허가·심사 문서를 AI가 자동으로 분류·검토하는 시범 사업을 진행 중입니다. 예를 들어 환경영향평가, 건축 인허가, 복지 급여 신청과 같이 제출 서류가 방대하고 양식이 다양한 업무에서, Document AI가 핵심 필드를 자동 추출하고 누락·불일치 여부를 표시합니다. 특히 개인정보보호법에 따라 문서 내 주민등록번호·계좌번호 등 민감정보를 자동 비식별화해 후속 심사 단계로 넘기는 기능은, 개인정보 유출 위험을 크게 낮추는 효과가 있습니다.

공공기관의 정보공개 및 감사 대응도 개선됩니다. 한국 사회에서는 정보공개청구가 법적으로 보장되어 있지만, 대량의 문서에서 비공개 정보(개인정보, 영업비밀)를 수작업으로 가려내는 데 상당한 인력과 시간이 소요됩니다. Document AI를 활용하면, 문서 구조와 문맥을 이해한 상태에서 자동 가림(redaction)을 수행하고, 근거 페이지를 함께 제공해 법적 대응력을 높일 수 있습니다.

일상 업무 생산성 측면에서도 이미 일부 기업과 지자체는 가시적 효과를 보고 있습니다. 내부 회의록, 보고서, 정책 자료를 AI가 요약하고 핵심 키워드를 정리해 부서 간 공유 시간을 줄입니다. 보고서 초안 작성, 문서 비교, 메일 자동 분류 같은 주변 작업이 줄어들면서, 기획·정책 수립 같은 본질적인 업무에 더 많은 시간을 할애할 수 있게 된 것입니다.

1. Donut란 무엇인가? — OCR 없는 문서 이해의 등장

Donut(Document Understanding Transformer)는 이름 그대로 문서 이해에 특화된 모델입니다. 이 모델의 핵심 철학은 ‘OCR-Free’, 즉 OCR 과정을 거치지 않고 이미지에서 곧바로 구조화된 데이터를 생성하는 End-to-End 방식입니다.
기존 방식이 이미지 → OCR → 텍스트 → NLP → 구조화 데이터라는 복잡한 단계를 거쳤다면, Donut은 이를 이미지 → 구조화 데이터(JSON)라는 단일 프로세스로 단순화했습니다.

이 단순화를 가능하게 하는 두 가지 핵심 구성 요소가 있습니다.

  • Swin Transformer 기반 Visual Encoder

문서를 단순한 글자 모음이 아닌 하나의 ‘이미지’로 인식합니다. 사람이 문서를 볼 때 글자의 위치, 크기, 폰트, 표, 선 등 시각적 요소까지 함께 인지하는 것처럼, Swin Transformer는 이미지 전체에서 시각적 특징을 추출합니다.

  • BART 기반 Text Decoder

인코더가 뽑아낸 시각적 특징을 입력받아, 언어 모델인 BART가 이를 우리가 원하는 구조화 데이터(주로 JSON)로 변환합니다. 예를 들어 영수증 이미지에서 ‘총액’을 찾으라는 지시를 받으면, 디코더는 해당 위치를 식별해 {“total_price”: “55,000”}과 같은 형태로 바로 출력합니다.

Donut의 강점은 단순함이 주는 안정성입니다. OCR과 NLP 모델을 따로 운영할 필요가 없으며, OCR 오류가 뒤이어 발생하는 연쇄적인 성능 저하 문제도 없습니다. 하나의 모델로 더 빠르고 안정적인 문서 처리 시스템을 구현할 수 있는 길을 연 셈입니다.

Donut 배경과 시작

Donut은 네이버 클로바 AI(CLOVA AI) 팀이 개발했으며, 2021년 말 발표된 논문 *“OCR-Free Document Understanding Transformer”*를 통해 세상에 공개되었습니다.

개발 동기는 명확했습니다. 기존 OCR 기반 파이프라인은 비효율적이었고, 텍스트로 변환되는 순간 시각적·구조적 정보가 손실되는 한계가 있었습니다. 연구팀은 “사람처럼 문서를 이미지 상태로 바로 이해할 수 있는 모델”을 만들고자 했고, 그 해답이 OCR-Free 접근이었습니다.

이를 위해 Swin Transformer와 BART를 결합한 단순한 아키텍처를 설계했고, 다양한 언어와 도메인에 적응시키기 위해 합성 데이터 생성기(SynDoG)로 여러 국가의 문서 형식을 재현해 학습 데이터셋을 확장했습니다.

그 결과 Donut은 전자 문서뿐 아니라 촬영된 영수증처럼 비정형 문서까지 폭넓게 처리할 수 있으며, 비용 효율성과 범용성을 동시에 충족하는 기업용 문서 처리 솔루션으로 자리잡았습니다.

2. Pix2Struct란 무엇인가? — 웹 스크린샷에서 배운 이미지-텍스트 모델

Pix2Struct는 ‘이미지를 텍스트로 파싱(Parsing)’하는 방법을 학습하는 모델입니다. 여기서 파싱은 복잡한 구조를 가진 대상을 의미 있는 단위로 분해하고 그 관계를 이해하는 과정입니다.

사전 학습 단계에서 Pix2Struct는 독창적인 전략을 씁니다. 웹페이지 스크린샷의 일부를 가리고(masking), 모델이 그 가려진 부분을 HTML 코드나 대체 텍스트로 복원하게 하는 방식입니다. 이 과정을 반복하면서 모델은 ‘제목은 크고 위에 위치한다’, ‘표는 행과 열로 구성된다’ 등 시각적 문법을 스스로 익히게 됩니다.

이 덕분에 Pix2Struct는 단순한 정보 추출을 넘어 시각적 질의응답(Visual Question Answering)에 강력한 성능을 발휘합니다. 예를 들어 그래프 이미지를 보고 “2023년 3분기 매출 성장은 얼마인가?”라는 질문을 받으면, 축과 데이터의 의미를 이해해 바로 답을 생성합니다.

Pix2Struct 배경과 시작

Pix2Struct는 구글 리서치(Google Research)가 개발해 2022년 10월 논문 “Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding”에서 발표했습니다.

당시 대부분의 Document AI 모델이 스캔 문서나 정형 양식에 집중하고 있었지만, 현대의 정보는 웹·모바일 UI, 인포그래픽 등 훨씬 더 복잡하고 동적인 형태로 존재합니다. 이를 포괄적으로 이해할 범용 모델이 필요하다는 문제의식에서 출발했습니다.

스크린샷에서 HTML을 생성하는 학습 방식은 레이아웃과 시각 요소를 명시적으로 반영할 수 있어, OCR보다 훨씬 풍부한 구조 이해가 가능합니다. 이로써 Pix2Struct는 웹·앱 인터페이스 분석, 교육 자료 다이어그램 이해 등 시각적으로 구성된 데이터 분석을 자동화하는 유용한 솔루션이 되었습니다.

3. LayoutLMv3란 무엇인가? — 텍스트와 이미지를 동시에 마스킹하는 문서 AI

LayoutLMv3는 2022년 초 Microsoft Research Asia가 발표한 최신 멀티모달 문서 AI 모델입니다. 이전 세대인 LayoutLMv1, v2의 발전형으로, 텍스트·레이아웃·이미지를 하나의 프레임워크에서 통합 처리합니다.

이 모델의 가장 큰 혁신은 텍스트와 이미지에 동시에 마스킹을 적용하는 통합 학습 방식입니다. 이를 통해 모델은 두 모달리티 간의 상호작용을 더 깊이 학습하며, 단어-패치 정렬(Word-Patch Alignment, WPA) 과제까지 수행해 정보 연결성을 강화합니다.

또한 CNN 대신 Vision Transformer(ViT) 기반 패치 임베딩을 사용하여, 텍스트와 이미지를 동일한 Transformer 구조 안에서 처리합니다. 덕분에 아키텍처가 단순해지고 학습 효율이 높아졌습니다.

LayoutLMv3 배경과 시작

LayoutLMv3는 LayoutLMv2가 가진 한계를 개선하려는 시도에서 나왔습니다. v2는 텍스트와 이미지를 별도의 인코더로 처리해 구조가 복잡했고, 이미지 측은 CNN 기반이라 확장성이 떨어졌습니다. 이를 개선하기 위해 연구팀은 하나의 Transformer로 모든 모달리티를 통합하고, MLM·MIM을 동시에 적용해 서로 결손된 정보를 보완하도록 설계했습니다.

그 결과 LayoutLMv3는 문서 레이아웃 인식, 양식 이해, 영수증 처리 등 폭넓은 업무에서 높은 성능을 발휘하며, 실제로 Microsoft Azure Form Recognizer 같은 상용 서비스에도 적용되고 있습니다. 모델과 사전학습 가중치는 공개되어 있어, 기업 환경에 맞게 쉽게 미세 조정할 수 있습니다.

오픈소스 라이선스 비교

모델명 라이선스 종류 주요 조건 및 특징 상업적 사용 가능 여부
Donut MIT License 저작권 고지 유지, 매우 자유로운 사용 허용 예 (완전 가능)
Pix2Struct Apache 2.0 저작권 및 NOTICE 유지, 특허권 명시적 허용
LayoutLMv3 MIT License Microsoft 공식 MIT 적용, 자유로운 사용 및 배포 허용 예 (커뮤니티 내 혼동 있음)
  • 세 모델 모두 MIT 또는 Apache 2.0과 같은 허용적(open, permissive) 라이선스 아래 배포되고 있으며, 실제 상업적 서비스나 제품에도 제한 없이 사용할 수 있습니다.
  • 다만 일부 커뮤니티에서는 혼란스러운 언급이 있으므로, 실제 사용 시에는 해당 GitHub 저장소의 최신 LICENSE 파일 또는 Hugging Face의 model card의 라이선스 정보를 직접 확인 후, 필요한 경우 법무 검토를 병행하시면 좋습니다.
  • 또한 향후 라이선스 변경 가능성도 있으므로, 정식 리포지토리에 라이선스 변경 알림이나 issue thread를 주기적으로 확인하는 것을 권장합니다.
Enterprise AI 를 위한 차세대 멀티모달 임베팅 모델 Morphik 소개

마무리

Document AI 는 전문화된 문서 엔진과 범용 LLM/VLM이 경쟁이 아니라 분업으로 재정렬되고 있고, 이 분업을 잘 설계한 조직만이 낮은 TCO로 높은 품질의 Document AI를 구현한다는 점입니다. 장기적으로는 “텍스트+레이아웃+이미지”를 한 번에 다루는 멀티모달 RAG가 표준이 될 가능성이 큽니다. 이를 뒷받침하는 변곡점은 ① 초장문맥(1M~2M 토큰급)으로 문서를 통째로 다루는 VLM의 보편화, ② 페이지-이미지 임베딩(ColPali 류) 등 시각 우선 검색의 실전 투입, ③ 언어권 맞춤 임베딩 모델의 생태계화입니다.

Share This Story, Choose Your Platform!

Go to Top