본문 바로가기
IT

PDF·이미지 문서 읽기, 이제 AI가 사람처럼 한다!

by 메타인지 월드 2025. 10. 30.
반응형

PDF·이미지 문서 읽기, 이제 AI가 사람처럼 한다!

요즘 핫한 OCR 모델 4종 초간단 비교 & 설치법

요즘 PDF, 스캔본, 스크린샷을 사람 눈처럼 정확히 읽어주는 OCR 모델들이 쏟아지고 있어요. 그중 진짜 쓸만한 오픈소스 4개만 골라서, 초보자도 따라 할 수 있게 정리했어요!

1. DeepSeek-OCR – 속도 끝판왕 ⚡

“빨리빨리 처리하고 싶다!” 하면 이거!

  • 특징: 이미지·PDF 금방 읽음
  • 성능: A100 GPU 기준 초당 2,500단어 처리 (미쳤음)
  • 설치도 쉬움!
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
conda create -n deepseek-OCR python=3.12 -y
conda activate deepseek-OCR
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation

사용 예시 (파이썬)

from vllm import LLM
from PIL import Image

llm = LLM(model="deepseek-ai/DeepSeek-OCR")
img = Image.open("내사진.png")
result = llm.generate([{"prompt": "<image>\n이거 읽어줘", "multi_modal_data": {"image": img}}])
print(result[0].outputs[0].text)

추천 상황: 대량 이미지·PDF 빠르게 처리할 때


2. Olmo-OCR 2 – PDF 전문가 📑

“학술지, 매뉴얼, 표 많은 문서” = 이거 써야 함

  • 특징: 표, 수식, 헤더까지 깔끔한 마크다운으로 변환
  • 성능: 예전 OCR처럼 줄줄이 텍스트 X → 구조화된 문서 O

설치 (우분투 기준)

sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer fonts-crosextra-carlito gsfonts
  • GPU 15GB 이상 필요
  • 비용 효율: 100만 페이지당 약 20만원 (공식 벤치마크)

추천 상황: 연구 논문, 기술 문서 정리할 때


3. Qwen3-VL – 만능 비서 🧠

“OCR + 질문도 하고, 화면도 이해함”

  • 특징: 책, 스크린샷, 심지어 동영상도 읽음
  • 지원 언어: 32개 언어
  • 기능: “이 아이콘 왼쪽에 뭐 있어?” → 대답해줌!

설치

pip install "transformers>=4.57.0"

추천 상황: 문서 분석 + 질문 답변 + 인터랙티브 앱 만들 때


4. Dots.OCR – 작지만 강한 언더독 🐶

“메모리 부족? 속도 필요? 이거면 끝!”

  • 특징: 1.7B 파라미터 (작음) → 고성능
  • 기능: 표, 레이아웃, 다국어까지 혼자 다 함
  • 설치도 간단!
conda create -n dots python=3.12 -y
conda activate dots
git clone https://github.com/rednote-hilab/dots.ocr.git
cd dots.ocr
pip install torch==2.7.0 torchvision==0.22.0 --index-url https://download.pytorch.org/whl/cu128
pip install -e .

추천 상황: 가벼운 환경, 빠른 프로토타입 만들 때


한눈에 비교표


 

모델 최고 강점 GPU 메모리 언어 출력 형식
DeepSeek-OCR 속도 보통 영어 중심 일반 텍스트
Olmo-OCR 2 PDF 구조화 15GB+ 영어 마크다운
Qwen3-VL 이해·질문 보통 32개국 텍스트 + 설명
Dots.OCR 가볍고 강함 적음 다국어 구조화 JSON
 

결론: 나한테 맞는 건?

당신이... 추천 모델
그냥 빨리 읽고 싶다 DeepSeek-OCR
논문·매뉴얼 정리하고 싶다 Olmo-OCR 2
“이 표 뭐야?” 물어보고 싶다 Qwen3-VL
노트북에서 돌리고 싶다 Dots.OCR

OCR은 이제 단순 텍스트 추출이 아닙니다. 구조, 의미, 맥락까지 이해하는 진짜 AI 눈이 됐어요. 지금 바로 하나 골라서 써보세요! 🚀

반응형