MinerU是由OpenDataLab开发的一款高质量PDF转换工具,专为研究人员和开发者设计,旨在简化PDF文档的内容提取和格式转换流程。
核心功能
- PDF转Markdown:将PDF文档转换为结构化的Markdown格式,保留标题、段落、列表等文档结构。
- PDF转JSON:支持将PDF内容提取为JSON格式,便于后续数据处理和分析。
- 保留文档结构:在转换过程中尽可能保持原始文档的排版和内容完整性。
- 开源免费:基于开源协议发布,用户可以自由使用、修改和分发。
适用场景
- 学术论文内容提取
- 报告和文档结构化处理
- 数据集文档自动化解析
- 知识库构建与内容迁移
项目地址
https://github.com/opendatalab/MinerU