GitHubAI & Toolsidea-techcode
opendatalab/MinerU
opendatalab·@opendatalab·Aug 21, 2024
개요 PDF, 논문, 스캔 문서 등 복잡한 문서를 LLM이 바로 소비할 수 있는 Markdown/JSON 형식으로 변환하는 도구다. RAG 파이프라인과 에이전틱 워크플로우에 최적화된 문서 파싱 솔루션이다.
핵심 내용 레이아웃 분석, OCR, 수식 인식, 표 추출 등을 통합적으로 처리해 복잡한 PDF 구조를 정확하게 변환한다. 56,000+ stars를 기록한 인기 오픈소스 프로젝트로, 학술 논문·기업 문서·교재 등 다양한 문서 유형을 지원한다. Python 기반으로 CLI와 API 모두 제공한다.
기존 대비 차별점 단순 텍스트 추출이 아닌 문서 구조(제목, 단락, 표, 이미지, 수식)를 이해하고 의미있는 Markdown으로 재구성한다. LLM 학습 데이터 생성, RAG 문서 인덱싱 등 AI 파이프라인에 직접 연결할 수 있도록 설계되었다.
활용 가능성 기업 문서 지식베이스 구축, 학술 논문 RAG 시스템, 대규모 PDF 데이터 전처리 파이프라인 등에 활용할 수 있다. LLM 기반 문서 Q&A 시스템 구축 시 첫 번째 단계로 필수적인 도구다.
참고 자료 - 원본
Python⭐ 56,757ai4sciencedocument-analysisextract-datalayout-analysisocrparserpdfpdf-converterpdf-extractor-llmpdf-extractor-pretrainpdf-extractor-ragpdf-parserpython
#pdf#ocr#markdown#llm-pipeline#data-extraction