求助：拉Mineru源码后打包成docker镜像，部署到linux服务器上的OCR效果比在windows系统上直接运行Mineru源码要差 #4829

Wxx1250227780 · 2026-04-21T07:08:42Z

Wxx1250227780
Apr 21, 2026

linux服务器和windows系统的GPU分别是：NVIDIA GeForce RTX 3090和NVIDIA GeForce RTX 3060
Dockerfile的内容是：
dockerfile.txt
docker-entrypoint.sh的内容是：
docker-entrypoint.sh
docker镜像的启动命令是：
docker run -d --gpus all --name mineru-api -p 8002:8002 -v /home/drdp/mineru-models/pipeline/PDF-Extract-Kit-1:/models/pipeline -v /home/drdp/mineru-models/vlm/MinerU25-Pro:/models/vlm mineru:3.1.0
调用ocr服务通过命令行执行：
mineru -p C:\Users\wxx\Desktop\黄銅及び黄銅材の製造方法、製造設備.pdf -o C:\Users\wxx\Desktop\mineru-ocr -b hybrid-auto-engine -l japan --api-url [linux服务器IP|本地IP]
6.windows系统运行结果

linux服务器运行结果

@Wxx1250227780 · 2026-04-21T07:16:50Z

dosubot[bot]
Bot Apr 21, 2026

@Wxx1250227780 这个问题很可能是由于 hybrid-auto-engine 模式在处理日语文档时的 VLM OCR 不会被启用 导致的。

核心原因：在 hybrid-auto-engine 模式下，VLM OCR 只对中文和英文生效 [1]。当你指定 -l japan 时，系统会回退到 Pipeline OCR 处理，而 Pipeline 的准确率（~82%）明显低于 VLM（~90%+）[2]。

你在 Windows 上直接运行时，可能使用了不同的后端配置或模型加载方式，导致两边效果不一致。另外，维护者也提到过近期版本 VLM 模型对日语的支持可能变差了 [3]。

建议尝试以下方案：

强制使用 VLM OCR（如果想测试 VLM 对日语的效果）：

# 在 Docker 容器中设置环境变量
MINERU_FORCE_VLM_OCR_ENABLE=1

[4]

确认 Docker 内 GPU 正常工作：进入容器执行 nvidia-smi 和 python -c "import torch; print(torch.cuda.is_available())" 确认 GPU 可用。
确认模型路径配置正确：确保容器内的 mineru.json 使用容器内部路径（而非宿主机路径），并设置 MINERU_MODEL_SOURCE=local 环境变量 [5]。
对比两边实际使用的后端：可以在 Windows 和 Docker 上分别查看日志，确认两边用的是什么后端（Pipeline vs VLM）以及什么推理引擎（vLLM vs LMDeploy vs Transformers）。Linux 下优先用 vLLM，Windows 下优先用 LMDeploy [6]。

如果你主要处理日语文档，也可以尝试显式使用 pipeline 后端，维护者建议日语等小语种使用 Pipeline 后端效果可能更稳定 [3]。

To reply, just mention @dosu.

Docs are dead. Just use Dosu.

0 replies

myhloli · 2026-04-21T07:27:57Z

myhloli
Apr 21, 2026
Maintainer

你要不试试用官方提供的dockerfile 和compose呢？

2 replies

Wxx1250227780 Apr 21, 2026
Author

官方提供的dockerfile打包成镜像有点重了😂。我是想着模型和代码分开，用挂载的方式调用模型。后面也能另起一个vllm框架调vlm模型

myhloli Apr 21, 2026
Maintainer

那就让ai基于官方的给你改外挂模型，不要全部自己搞

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

求助：拉Mineru源码后打包成docker镜像，部署到linux服务器上的OCR效果比在windows系统上直接运行Mineru源码要差 #4829

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments 2 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

求助：拉Mineru源码后打包成docker镜像，部署到linux服务器上的OCR效果比在windows系统上直接运行Mineru源码要差 #4829

Uh oh!

Wxx1250227780 Apr 21, 2026

Replies: 2 comments · 2 replies

Uh oh!

dosubot[bot] Bot Apr 21, 2026

Uh oh!

myhloli Apr 21, 2026 Maintainer

Uh oh!

Wxx1250227780 Apr 21, 2026 Author

Uh oh!

myhloli Apr 21, 2026 Maintainer

Wxx1250227780
Apr 21, 2026

Replies: 2 comments 2 replies

dosubot[bot]
Bot Apr 21, 2026

myhloli
Apr 21, 2026
Maintainer

Wxx1250227780 Apr 21, 2026
Author

myhloli Apr 21, 2026
Maintainer