使用docker部署Mineru
集成了先进的PDF解析工具,包括布局检测、公式检测和光学字符识别(OCR),确保提取结果的高准确度。# 下载docker的镜像构建文件。下载好之后在minuer目录会有一个Dockerfile的文件。# 下载docker启动文件。:将包含多种内容类型的PDF文档转换为结构化的Markdown格式,便于进一步的编辑和分析。:在转换过程中,保留原始文档的结构和格式,如标题、段落和列表。:能识别和处理P
一.MinerU--功能
1.PDF到Markdown转换:将包含多种内容类型的PDF文档转换为结构化的Markdown格式,便于进一步的编辑和分析
2.多模态内容处理:能识别和处理PDF中的图像、公式、表格和文本等多种内容
3.结构和格式保留:在转换过程中,保留原始文档的结构和格式,如标题、段落和列表
4.公式识别与转换:特别针对数学公式,能识别并转换成LaTeX格式,方便学术交流和技术文档使用
5.干扰元素去除:自动删除页眉、页脚、脚注和页码等非内容元素,净化文档信息
6.乱码识别与处理:自动识别并纠正PDF文档中的乱码,提高信息提取的准确性
7.高质量解析工具链:集成了先进的PDF解析工具,包括布局检测、公式检测和光学字符识别(OCR),确保提取结果的高准确度
二.docker部署Mineru步骤
# 下载项目代码
1.git clone https://github.com/opendatalab/MinerU.git
# 进入项目的目录
2.cd Mineru
# 下载docker的镜像构建文件。下载好之后在minuer目录会有一个Dockerfile的文件。
3.wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/docker/china/Dockerfile
# 下载安装镜像。
4.docker build -t mineru:latest -f Dockerfile .
# 下载docker启动文件。此时mineru/dokcer下会有一个compose.yaml文件
5.wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/docker/compose.yaml
# 启动 openai兼容接口 服务。
6.docker compose -f compose.yaml --profile openai-server up -d
# 启动 Web API 服务。在浏览器中访问 http://<server_ip>:8000/docs 查看API文档
7.docker compose -f compose.yaml --profile api up -d
# 启动 Gradio WebUI 服务。在浏览器中访问 http://<server_ip>:7860 使用 Gradio WebUI
8.docker compose -f compose.yaml --profile gradio up -d
更多推荐
所有评论(0)