一.MinerU--功能

1.PDF到Markdown转换:将包含多种内容类型的PDF文档转换为结构化的Markdown格式,便于进一步的编辑和分析

2.多模态内容处理:能识别和处理PDF中的图像、公式、表格和文本等多种内容

3.结构和格式保留:在转换过程中,保留原始文档的结构和格式,如标题、段落和列表

4.公式识别与转换:特别针对数学公式,能识别并转换成LaTeX格式,方便学术交流和技术文档使用

5.干扰元素去除:自动删除页眉、页脚、脚注和页码等非内容元素,净化文档信息

6.乱码识别与处理:自动识别并纠正PDF文档中的乱码,提高信息提取的准确性

7.高质量解析工具链:集成了先进的PDF解析工具,包括布局检测、公式检测和光学字符识别(OCR),确保提取结果的高准确度

二.docker部署Mineru步骤

# 下载项目代码

1.git clone https://github.com/opendatalab/MinerU.git

# 进入项目的目录

2.cd Mineru

# 下载docker的镜像构建文件。下载好之后在minuer目录会有一个Dockerfile的文件。

3.wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/docker/china/Dockerfile

# 下载安装镜像。

4.docker build -t mineru:latest -f Dockerfile .

# 下载docker启动文件。此时mineru/dokcer下会有一个compose.yaml文件

5.wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/docker/compose.yaml

# 启动 openai兼容接口 服务。

6.docker compose -f compose.yaml --profile openai-server up -d

# 启动 Web API 服务。在浏览器中访问 http://<server_ip>:8000/docs 查看API文档

7.docker compose -f compose.yaml --profile api up -d

# 启动 Gradio WebUI 服务。在浏览器中访问 http://<server_ip>:7860 使用 Gradio WebUI

8.docker compose -f compose.yaml --profile gradio up -d

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐