목차 (Agenda)

ColPali 란 무엇인가?

ColPali는 OCR 없이 문서를 이미지 그대로 임베딩하는 혁신적인 시각 기반 문서 검색 아키텍처입니다.

2025년 08월 05일

ColPali 란 무엇인가?

Colpali는 특정 제품이나 서비스의 이름이 아닙니다. 이는 ‘AI 시스템을 구축하는 하나의 철학이자, 설계 방식(Architecture)‘입니다. Colpali는 Compounded Palettes of Large Language Model Intelligence의 약자인데요, 우리말로 풀면 ‘거대 언어 모델 지능의 복합적인 팔레트‘ 정도로 해석할 수 있습니다. 쉽게 설명하면 ColPali는 문서를 ‘텍스트’가 아니라 ‘이미지’로 이해해 검색하는 시각 기반 리트리벌 모델입니다.

일반 RAG 파이프라인처럼 OCR로 텍스트를 뽑아내고, 레이아웃을 분석하고, 표·그림을 캡셔닝하고, 청크를 잘라 임베딩하는 절차를 거치지 않습니다. 대신 PDF 페이지를 통째로 스크린샷처럼 받아들여, 페이지를 격자(패치)로 나눈 뒤 PaliGemma 기반 VLM으로 시각·텍스트 단서를 함께 반영한 다중 벡터(multivector) 표현을 만듭니다. 질의(query)는 토큰 단위로 임베딩하고, 질의 토큰과 페이지 패치 간 ColBERT식 ‘지연 상호작용(late interaction)’으로 유사도를 계산해 가장 관련 있는 페이지를 찾아냅니다. 이 방식 덕분에 표, 차트, 글꼴·레이아웃 같은 시각적 맥락이 검색에 직접 반영됩니다.

즉 ColPali는 강력한 이해 능력을 활용하기 위해 ColBERT의 다중 벡터 표현을 PaliGemma(다중 모드 대규모 언어 모델)와 결합한 방법입니다.

기술적으로는 PaliGemma-3B(시각+텍스트)가 페이지 이미지를 패치 임베딩으로 바꾸고, 이를 128차원 다중 벡터로 투영합니다. 질의 쪽은 텍스트 토큰 임베딩을 만들고, MaxSim으로 각 질의 토큰이 문서의 어떤 패치와 가장 잘 맞는지를 계산해 점수를 합산합니다. 결과적으로 텍스트와 비텍스트(표·그림·축 레이블 등)가 한 프레임에서 함께 검색 품질을 끌어올립니다.

연구적으로는 2025년 ICLR에 채택되었고, 시각+텍스트 단서를 모두 보는 ViDoRe(Visual Document Retrieval) 벤치마크에서도 기존 파이프라인을 앞서는 결과를 보였습니다.

PDF 검색을위한 표준 검색 파이프 라인과 ColPali 파이프 라인 비교

ColPali 배경과 시작

ColPali는 프랑스 CentraleSupélec와 Illuin Technology 연구팀이 2024년 6월 발표한 모델로, 기존 PDF 문서 검색 파이프라인의 복잡성과 비효율성을 근본적으로 개선하기 위해 고안되었습니다.

기존 RAG 환경에서 PDF 문서를 검색하려면, 스캔된 문서라면 먼저 OCR을 거쳐 텍스트를 추출하고, 이어서 문단·제목·캡션을 구분하는 레이아웃 분석, 표·그림에 대한 별도의 캡셔닝 모델 처리, 마지막으로 적절한 청킹(chunking) 규칙을 설정해 임베딩을 생성하는 절차를 거쳐야 했습니다. 이 과정은 시간이 오래 걸리고 오류 전파가 잦으며, 특히 표나 차트와 같이 시각적 구조가 중요한 요소는 텍스트로 변환되는 과정에서 결정적인 정보가 손실되는 한계가 있었습니다. 예를 들어 차트의 축 레이블·범례, 표의 셀 정렬·머지 여부, 문서의 서식은 질의와의 정합성을 판단하는 핵심 단서임에도 불구하고, 기존 방식에서는 이를 제대로 활용하지 못했습니다.

ColPali는 이런 문제를 해결하기 위해 “페이지 이미지를 그대로 임베딩하면 어떨까?”라는 발상에서 출발했습니다. 이를 위해 최신 Vision Language Model(VLM)의 발전과, ColBERT의 다중 벡터(multivector)·지연 상호작용(late interaction) 구조를 결합해 새로운 검색 방식을 구현했습니다.

연구팀은 이러한 접근을 검증하기 위해 ViDoRe라는 벤치마크를 새롭게 제작했습니다. ViDoRe는 다양한 도메인과 언어, 그리고 표·그림·인포그래픽 등 시각적으로 복잡한 문서를 페이지 단위로 검색하는 과제들로 구성되어 있습니다. 이 테스트에서 ColPali는 기존의 텍스트 추출 기반 파이프라인이나 캡셔닝+텍스트 임베딩 조합을 활용한 방식보다 뛰어난 검색 성능을 보여주었습니다.

결과적으로 ColPali는 PaliGemma-3B VLM을 기반으로, 문서 페이지의 스크린샷 이미지를 직접 입력받아 페이지를 여러 패치(patch)로 나눈 뒤 각각의 패치를 벡터로 임베딩합니다. 이후 ColBERT 스타일의 late-interaction 매칭을 통해 질의와 페이지의 시각·텍스트 단서를 정밀하게 비교함으로써, 기존 대비 검색 정확도와 속도 모두를 개선할 수 있음을 입증했습니다.

ColPali 임베딩이 필요한 이유

일반 텍스트 기반 문서 검색 시스템은 OCR이 실패하거나 표, 그림, 레이아웃 같은 시각적 요소를 제대로 처리하지 못하는 한계가 있습니다. 이런 문서들 복잡한 PDF, 논문, 기술문서, 보고서 등에서는 중요한 정보가 시각 구성 요소에 포함된 경우가 많아, 오직 텍스트만 봐서는 의미를 제대로 포착하기 어렵습니다.

ColPali는 ‘문서를 텍스트로 바꿔서 찾는’ 우회로를 버리고, ‘문서를 있는 그대로 보고 찾는’ 직진로를 연 모델입니다. 현실의 PDF는 표와 차트, 서식과 레이아웃 같은 시각 신호로 의미를 전달합니다. 그런데 전통적 RAG 파이프라인은 OCR-추출→레이아웃 분해→캡셔닝→청킹→임베딩이라는 길고 깨지기 쉬운 공정을 거치며, 그 과정에서 시각 신호가 텍스트로 환원되면서 본질적인 단서가 빠지곤 했습니다. ColPali는 페이지를 이미지로 받아들여, 시각·텍스트 단서를 한 프레임에서 표현하고 비교합니다.

첫째, 품질의 맹점을 정면으로 해결합니다.

표의 헤더와 셀 정렬, 차트의 축 레이블과 범례, 글꼴·굵기·계층 같은 서식은 질의와의 정합성을 가르는 핵심 신호입니다. 텍스트만으로는 이 신호를 유지하기 어렵고, 캡셔닝으로 보완해도 손실이 남습니다. ColPali는 페이지 스크린샷을 패치 단위 벡터로 바꾸고, 질의 토큰과 패치 벡터를 지연 상호작용(late interaction)으로 정밀 매칭합니다. 결과적으로 텍스트와 비텍스트(표·그림·레이아웃)를 함께 본 상태에서 랭킹을 매길 수 있어, 추출·요약 과정에서 생기던 정보 손실을 줄입니다. 논문은 이 접근이 기존 파이프라인을 크게 앞지르면서도 더 단순하고 빠르다고 명시하고 있습니다.

둘째, 속도와 비용의 병목을 없앱니다.

OCR과 레이아웃 분석, 캡셔닝, 청킹은 단계마다 지연과 장애 지점을 더합니다. 문서 유형이 바뀔 때마다 규칙을 재조정해야 하고, 다국어·스캔 품질·특수 서식에 민감합니다. ColPali는 “페이지 이미지를 곧바로 임베딩”하는 간단한 경로를 채택해 전처리 체인을 대폭 줄입니다. “OCR도, 레이아웃 분석도, 청킹도 없다”는 점을 실무 관점에서 보면, 인덱싱 파이프라인이 짧아지고 운영 면에서의 실패 모드가 줄어든다는 뜻입니다. 벤더의 기술 블로그와 튜토리얼도 이 단순화를 핵심 장점으로 강조합니다.

셋째, 데이터로 검증된 개선입니다.

연구팀은 시각적으로 복잡한 문서를 대상으로 하는 ViDoRe 벤치마크를 새로 만들어, 페이지 단위 검색 과제로 성능을 비교했습니다. 그 결과 ColPali는 “현대 문서 검색 파이프라인을 넓은 영역에서 능가한다(largely outperforms)”고 보고됩니다. 단일 VLM이 생성한 다중 벡터 임베딩과 late-interaction 매칭을 결합한 구조가 핵심이며, 모델·데이터·코드와 함께 리더보드도 공개되어 재현성을 갖췄습니다. 실무자는 공개 리더보드와 저장소를 통해 자신의 도메인 유형과 가까운 과제에서 상대적 우위를 직접 확인할 수 있습니다.

넷째, 현업 스택과의 접점이 이미 마련되어 있습니다.

ColPali는 PaliGemma 기반의 VLM을 사용해 페이지 이미지를 다중 벡터로 표현하고, ColBERT 계열의 MaxSim 방식으로 질의-문서 상관을 계산합니다. 이 조합은 단지 아이디어 수준이 아니라 Milvus·Vespa 등에서 튜토리얼과 예제가 축적되어 있으며, 하이브리드 검색(BM25 1차, ColPali 2차) 같은 점진 도입도 손쉽습니다. 즉, “좋은 논문이지만 우리 스택에 얹기 어렵다”는 전형적 위험을 낮춘 사례입니다.

정리하자면

스캔이 섞인 규격서, 표와 차트가 많은 재무·운영 리포트, 인포그래픽 중심의 백서·브로셔, 다양한 언어와 서식을 넘나드는 다국적 문서 묶음처럼 시각 구조가 의미의 절반 이상을 차지하는 코퍼스에서 ColPali의 이점은 두드러집니다. 현실의 검색·RAG 시스템은 “정제된 텍스트”를 전제로 하기 어렵고, 원본 그대로의 복잡성과 노이즈를 감당해야 합니다. ColPali는 바로 그 지점에서, 텍스트 환원 없이 원본을 보는 경로로 품질과 단순성을 동시에 확보합니다.

요약하면, ColPali는 정확도(시각 신호의 보존), 지연·비용(전처리 제거), 운영 안정성(파이프라인 단순화), 도입 용이성(생태계 지원)을 한 번에 끌어올리는 선택지입니다. “텍스트로 바꾼 다음에 찾는” 시대에서 “있는 그대로 보고 찾는” 시대로의 전환이 필요한 이유가 여기에 있습니다.

마무리

AI 기반 문서 시스템은 오랫동안 “텍스트로 바꾼 뒤 찾는” 방식을 전제로 설계되었습니다. 스캔 PDF는 OCR로 글자를 뽑고, 레이아웃을 분석해 문단·표·그림을 나누고, 캡셔닝과 청킹을 거쳐 임베딩을 만드는 식이었습니다. ColPali는 이 전제를 거꾸로 뒤집습니다. 문서 페이지를 있는 그대로 이미지로 받아들이고, VLM(PaliGemma)을 통해 패치 단위의 다중 벡터 표현을 만든 다음, 질의 토큰과 페이지 패치 사이를 지연 상호작용(late interaction)으로 정밀 매칭합니다. 결과적으로 OCR·레이아웃·캡셔닝·청킹이라는 긴 전처리 사슬을 대부분 건너뛰면서도, 표·차트·글꼴·레이아웃 같은 시각 신호를 검색의 1급 시민으로 다루게 만듭니다. 이 한 가지 전환만으로 파이프라인이 단순해지고, 고장 지점이 줄어들며, 실제 질의와 더 잘 맞는 결과가 나옵니다. ColPali는 텍스트 중심 전처리 파이프라인에서 시각-직접 임베딩 파이프라인으로의 세대 교체를 촉발합니다. 이는 품질(시각 신호 보존), 운영 단순성(OCR·레이아웃 제거), 비용/지연(이진화·해밍 MaxSim), 거버넌스(패치 단위 근거)에서 동시 개선을 일으키며, AI Document 분야의 표준 아키텍처와 성능 기준 자체를 재정의할 것입니다.