MinerU是由OpenDataLab開發的一款高質量PDF轉換工具,專爲研究人員和開發者設計,旨在簡化PDF文檔的內容提取和格式轉換流程。
核心功能
- PDF轉Markdown:將PDF文檔轉換爲結構化的Markdown格式,保留標題、段落、列表等文檔結構。
- PDF轉JSON:支持將PDF內容提取爲JSON格式,便於後續數據處理和分析。
- 保留文檔結構:在轉換過程中儘可能保持原始文檔的排版和內容完整性。
- 開源免費:基於開源協議發佈,用戶可以自由使用、修改和分發。
適用場景
- 學術論文內容提取
- 報告和文檔結構化處理
- 數據集文檔自動化解析
- 知識庫構建與內容遷移
項目地址
https://github.com/opendatalab/MinerU