반응형
PDF·이미지 문서 읽기, 이제 AI가 사람처럼 한다!
요즘 핫한 OCR 모델 4종 초간단 비교 & 설치법
요즘 PDF, 스캔본, 스크린샷을 사람 눈처럼 정확히 읽어주는 OCR 모델들이 쏟아지고 있어요. 그중 진짜 쓸만한 오픈소스 4개만 골라서, 초보자도 따라 할 수 있게 정리했어요!
1. DeepSeek-OCR – 속도 끝판왕 ⚡
“빨리빨리 처리하고 싶다!” 하면 이거!
- 특징: 이미지·PDF 금방 읽음
- 성능: A100 GPU 기준 초당 2,500단어 처리 (미쳤음)
- 설치도 쉬움!
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
conda create -n deepseek-OCR python=3.12 -y
conda activate deepseek-OCR
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation
사용 예시 (파이썬)
from vllm import LLM
from PIL import Image
llm = LLM(model="deepseek-ai/DeepSeek-OCR")
img = Image.open("내사진.png")
result = llm.generate([{"prompt": "<image>\n이거 읽어줘", "multi_modal_data": {"image": img}}])
print(result[0].outputs[0].text)
추천 상황: 대량 이미지·PDF 빠르게 처리할 때
2. Olmo-OCR 2 – PDF 전문가 📑
“학술지, 매뉴얼, 표 많은 문서” = 이거 써야 함
- 특징: 표, 수식, 헤더까지 깔끔한 마크다운으로 변환
- 성능: 예전 OCR처럼 줄줄이 텍스트 X → 구조화된 문서 O
설치 (우분투 기준)
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer fonts-crosextra-carlito gsfonts
- GPU 15GB 이상 필요
- 비용 효율: 100만 페이지당 약 20만원 (공식 벤치마크)
추천 상황: 연구 논문, 기술 문서 정리할 때
3. Qwen3-VL – 만능 비서 🧠
“OCR + 질문도 하고, 화면도 이해함”
- 특징: 책, 스크린샷, 심지어 동영상도 읽음
- 지원 언어: 32개 언어
- 기능: “이 아이콘 왼쪽에 뭐 있어?” → 대답해줌!
설치
pip install "transformers>=4.57.0"
추천 상황: 문서 분석 + 질문 답변 + 인터랙티브 앱 만들 때
4. Dots.OCR – 작지만 강한 언더독 🐶
“메모리 부족? 속도 필요? 이거면 끝!”
- 특징: 1.7B 파라미터 (작음) → 고성능
- 기능: 표, 레이아웃, 다국어까지 혼자 다 함
- 설치도 간단!
conda create -n dots python=3.12 -y
conda activate dots
git clone https://github.com/rednote-hilab/dots.ocr.git
cd dots.ocr
pip install torch==2.7.0 torchvision==0.22.0 --index-url https://download.pytorch.org/whl/cu128
pip install -e .
추천 상황: 가벼운 환경, 빠른 프로토타입 만들 때
한눈에 비교표
| 모델 | 최고 강점 | GPU 메모리 | 언어 | 출력 형식 |
| DeepSeek-OCR | 속도 | 보통 | 영어 중심 | 일반 텍스트 |
| Olmo-OCR 2 | PDF 구조화 | 15GB+ | 영어 | 마크다운 |
| Qwen3-VL | 이해·질문 | 보통 | 32개국 | 텍스트 + 설명 |
| Dots.OCR | 가볍고 강함 | 적음 | 다국어 | 구조화 JSON |
결론: 나한테 맞는 건?
| 당신이... | 추천 모델 |
| 그냥 빨리 읽고 싶다 | DeepSeek-OCR |
| 논문·매뉴얼 정리하고 싶다 | Olmo-OCR 2 |
| “이 표 뭐야?” 물어보고 싶다 | Qwen3-VL |
| 노트북에서 돌리고 싶다 | Dots.OCR |
OCR은 이제 단순 텍스트 추출이 아닙니다. 구조, 의미, 맥락까지 이해하는 진짜 AI 눈이 됐어요. 지금 바로 하나 골라서 써보세요! 🚀
반응형
'IT' 카테고리의 다른 글
| AI 시대, 좋은 결과를 얻는 프롬프트 작성 4단계 비법(RCTF) (0) | 2025.11.02 |
|---|---|
| 파이썬 개념을 쉽게 이해하는 비유와 활용 예시 10가지 (0) | 2025.10.31 |
| Claude Skills의 컨텍스트 엔지니어링 (0) | 2025.10.29 |
| LangChain 1.0 버전 릴리즈 (0) | 2025.10.29 |
| 💡 Mac에서 pyenv 버전 변경이 안 될 때 (python --version이 계속 3.9.6인 문제) 해결하기 (0) | 2025.10.26 |