hub / github.com/OpenBMB/MiniCPM-V

github.com/OpenBMB/MiniCPM-V @main sqlite

1,284 symbols 3,918 edges 138 files 105 documented · 8%

README

口袋级多模态大模型，在 iOS、安卓、鸿蒙上实现极致高效的图像与视频理解

中文 | English

MiniCPM-V 4.6 🤗 🤖 📱 | MiniCPM-o 4.5 🤗 📞 🤖 | 📄 技术报告 | 🍳 使用指南 | 🌐 API

MiniCPM-V 和 MiniCPM-o 是面向端侧高性能与高效部署的多模态大模型系列。MiniCPM-V 专注于在图像、视频和文本输入上的高效视觉语言理解，MiniCPM-o 则进一步扩展到实时端到端全模态交互，支持流式视频和音频输入以及文本和语音输出。目前 MiniCPM-V 和 MiniCPM-o 系列中最值得关注的模型包括：

MiniCPM-V 4.6: 🔥🔥🔥 MiniCPM-V 系列最新、最高效的模型。总参数量 1.3B，性能超过更大参数规模的 Gemma4-E2B-it 的同时，展现出比更小参数规模的 Qwen3.5-0.8B 更高的效率（~1.5 倍左右的 token 吞吐）。基于 LLaVA-UHD v4 提出的 ViT 内提前压缩技术，MiniCPM-V 4.6 将视觉编码开销降低了 50% 并支持4倍/16倍混合视觉 token 压缩率，可以灵活根据任务需求达到更优的性能-效率平衡。该模型可部署于 iOS、安卓、鸿蒙等主流手机平台，并开源配备了端侧部署代码。
MiniCPM-o 4.5: ⭐️⭐️⭐️ MiniCPM-o 系列最新、最强大的模型。总参数量 9B，在视觉、语音及全双工多模态实时流式交互方面的表现接近 Gemini 2.5 Flash，是目前开源社区中功能最全面、性能最强的模型之一。全新的全双工多模态实时流能力意味着输出流（语音和文本）与实时输入流（视频和音频）互不阻塞。这使得 MiniCPM-o 4.5 能够在实时全模态对话中实现“边看、边听、边说”，并能进行如“主动提醒”等主动交互。

更新日志

[2026.06.25] 🔥🔥🔥 MiniCPM-V 4.6 已正式合并至 Ollama 官方模型库，为 Ollama 用户带来高效的图像与视频理解能力。欢迎体验！
[2026.05.17] ⭐️⭐️⭐️ 我们发布了 MiniCPM-V 4.6 和 MiniCPM-o 4.5 的 API 接口，并同时提供了一个 MiniCPM-V 4.6 的免费公用密钥，欢迎试用！
[2026.05.11] 🔥🔥🔥 我们开源了 MiniCPM-V 4.6，支持 4倍/16倍混合视觉 token 压缩率，凭借出色的编码效率和 1.3B 的轻量规模，它是我们端侧部署最友好的一代模型，高并发场景 token 吞吐达到 Qwen3.5 0.8B 的 ~1.5 倍。欢迎试用！
[2026.02.06] 🥳 🥳 🥳 我们开源了可在 Mac 或 GPU 等本地设备上部署的实时 Web Demo。立即体验！
[2026.02.03] 🔥🔥🔥 我们开源了 MiniCPM-o 4.5，该模型视觉和语音能力达到了 Gemini 2.5 Flash 水平，同时支持全双工多模态流式交互。欢迎试用！
[2025.08.26] 🔥🔥🔥 我们开源了 MiniCPM-V 4.5，其视觉性能超越了 GPT-4o-latest、Gemini-2.0 Pro 和 Qwen2.5-VL 72B。它不仅延续并强化了 MiniCPM-V 的热门能力，还带来了诸多实用的新功能。欢迎试用！
[2025.08.01] ⭐️⭐️⭐️ 我们开源了 MiniCPM-V & o Cookbook，提供针对不同人群的全场景使用指南，配合最新的文档网站上手更轻松！
[2025.03.01] 🚀🚀🚀 MiniCPM-o 系列的对齐技术 RLAIF-V 被 CVPR 2025 接收为 Highlights 了！其代码、数据、论文均已开源。
[2025.01.19] ⭐️⭐️⭐️ MiniCPM-o 在 GitHub Trending 上登顶， Hugging Face Trending 上也达到了第二！
[2024.05.23] 🔥🔥🔥 MiniCPM-V 在 GitHub Trending 和 Hugging Face Trending 上登顶！MiniCPM-Llama3-V 2.5 Demo 被 Hugging Face 的 Gradio 官方账户推荐，欢迎点击这里体验！

点击查看完整更新日志。

[2026.05.07] 📢📢📢 我们发布了 MiniCPM-o 4.5 技术报告，介绍了其实现实时全双工全模态交互的关键技术。欢迎点击这里查看。
[2026.02.05] 📢📢📢 我们注意到，由于网络状况原因，网页版演示可能会出现显著的延迟问题。我们正在积极工作，将尽快提供实时交互演示版的Docker镜像供本地部署，敬请持续关注！
[2025.09.18] 📢📢📢 MiniCPM-V 4.5 技术报告已发布! 欢迎点击这里查看.
[2025.09.01] ⭐️⭐️⭐️ MiniCPM-V 4.5 已被 llama.cpp、vLLM 和 LLaMA-Factory 等框架官方支持，欢迎从官方入口直接使用！更多框架如 Ollama 和 SGLang 的官方支持正在持续适配中！
[2025.08.02] 🚀🚀🚀 我们开源了 MiniCPM-V 4.0，该模型在图像理解能力上超越了 GPT-4.1-mini-20250414。该模型不仅继承了 MiniCPM-V 2.6 的众多实用特性，还大幅提升了推理效率。我们还同步开源了适用于 iPhone 和 iPad 的 iOS 应用，欢迎试用！
[2025.06.20] ⭐️⭐️⭐️ MiniCPM-o 的 Ollama 官方仓库正式支持 MiniCPM-o 2.6 等模型啦，欢迎一键使用！
[2025.01.24] 📢📢📢 MiniCPM-o 2.6 技术报告已发布! 欢迎点击这里查看.
[2025.01.23] 💡💡💡 MiniCPM-o 2.6 现在已被北大团队开发的 Align-Anything，一个用于对齐全模态大模型的框架集成，支持 DPO 和 SFT 在视觉和音频模态上的微调。欢迎试用！
[2025.01.19] 📢 注意! 我们正在努力将 MiniCPM-o 2.6 的支持合并到 llama.cpp、Ollama、vLLM 的官方仓库，但还未完成。请大家暂时先使用我们提供的 fork 来进行部署：llama.cpp、Ollama、vllm。 合并完成前，使用官方仓库可能会导致不可预期的问题。
[2025.01.17] 我们更新了 MiniCPM-o 2.6 int4 量化版本的使用方式，解决了模型初始化的问题，欢迎点击这里试用！
[2025.01.13] 🔥🔥🔥 我们开源了 MiniCPM-o 2.6，该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别，进一步优化了 MiniCPM-V 2.6 的众多亮点能力，还支持了很多有趣的新功能。欢迎试用！
[2024.08.17] 🚀🚀🚀 llama.cpp 官方仓库正式支持 MiniCPM-V 2.6 啦！点击这里查看各种大小的 GGUF 版本。
[2024.08.15] MiniCPM-V 2.6 现在支持多图像 SFT。有关更多详细信息，请参阅微调文档
[2024.08.14] MiniCPM-V 2.6 现在可以通过 SWIFT 框架微调了！
[2024.08.10] 🚀🚀🚀 llama.cpp 官方仓库正式支持 MiniCPM-Llama3-V 2.5 啦！点击这里查看各种大小的 GGUF 版本。
[2024.08.06] 🔥🔥🔥 我们开源了 MiniCPM-V 2.6，该模型在单图、多图和视频理解方面取得了优于 GPT-4V 的表现。我们还进一步提升了 MiniCPM-Llama3-V 2.5 的多项亮点能力，并首次支持了 iPad 上的实时视频理解。欢迎试用！
[2024.08.03] MiniCPM-Llama3-V 2.5 技术报告已发布！欢迎点击这里查看。
[2024.07.19] MiniCPM-Llama3-V 2.5 现已支持vLLM ！
[2024.06.03] 现在，你可以利用多张低显存显卡（12G/16G）进行GPU串行推理。详情请参见该文档配置。
[2024.05.28] 💫 我们现在支持 MiniCPM-Llama3-V 2.5 的 LoRA 微调，更多内存使用统计信息可以在这里找到。
[2024.05.28] 💥 MiniCPM-Llama3-V 2.5 现在在 llama.cpp 和 Ollama 中完全支持其功能！请拉取我们最新的 fork 来使用：llama.cpp & ollama。我们还发布了各种大小的 GGUF 版本，请点击这里查看。请注意，目前官方仓库尚未支持 MiniCPM-Llama3-V 2.5，我们也正积极推进将这些功能合并到 llama.cpp & ollama 官方仓库，敬请关注！
[2024.05.25] MiniCPM-Llama3-V 2.5 支持流式输出和自定义系统提示词了，欢迎试用!
[2024.05.24] 我们开源了 MiniCPM-Llama3-V 2.5 gguf，支持 llama.cpp 推理！实现端侧 6-8 tokens/s 的流畅解码，欢迎试用！
[2024.05.23] 🔍 我们添加了Phi-3-vision-128k-instruct 与 MiniCPM-Llama3-V 2.5的全面对比，包括基准测试评估、多语言能力和推理效率 🌟📊🌍🚀。点击这里查看详细信息。
[2024.05.20] 我们开源了 MiniCPM-Llama3-V 2.5，增强了 OCR 能力，支持 30 多种语言，并首次在端侧实现了 GPT-4V 级的多模态能力！我们提供了高效推理和简易微调的支持，欢迎试用！
[2024.04.23] 我们增加了MiniCPM-V 2.0对 vLLM 的支持，欢迎体验！
[2024.04.18] 我们在 HuggingFace Space 新增了 MiniCPM-V 2.0 的 demo，欢迎体验！
[2024.04.17] MiniCPM-V 2.0 现在支持用户部署本地 WebUI Demo 了，欢迎试用!
[2024.04.15] MiniCPM-V 2.0 现在可以通过 SWIFT 框架微调了，支持流式输出!
[2024.04.12] 我们开源了 MiniCPM-V 2.0，该模型刷新了 OCRBench 开源模型最佳成绩，在场景文字识别能力上比肩 Gemini Pro，同时还在综合了 11 个主流多模态大模型评测基准的 OpenCompass 榜单上超过了 Qwen-VL-Chat 9.6B、CogVLM-Chat 17B 和 Yi-VL 34B 等更大参数规模的模型！点击这里查看 MiniCPM-V 2.0 技术博客。
[2024.03.14] MiniCPM-V 现在支持 SWIFT 框架下的微调了，感谢 Jintao 的贡献！
[2024.03.01] MiniCPM-V 现在支持在 Mac 电脑上进行部署！
[2024.02.01] 我们开源了 MiniCPM-V 和 OmniLMM-12B，分别可以支持高效的端侧部署和同规模领先的多模态能力！

MiniCPM-V 4.6

MiniCPM-V 4.6 是 MiniCPM-V 系列的最新模型，也是迄今最端侧友好的一代模型。该模型基于 SigLIP2-400M 和 Qwen3.5-0.8B LLM 构建。其延续了 MiniCPM-V 在单图、多图和视频理解方面的强大能力，同时显著提升了计算效率，还首次支持了 4倍/16倍混合视觉 token 压缩率，其主要特点包括：

🔥 领先的基础能力。 MiniCPM-V 4.6 在 Artificial Analysis Intelligence Index 基准上获得 13 分，以 19 倍更低的 token 成本超过 Qwen3.5-0.8B 的 10 分，并以 43 倍更低的 token 成本超过 Qwen3.5-0.8B-Thinking 的 11 分。同时，它也超过了参数规模更大的 Ministral 3 3B（11 分）。
💪 出色的多模态能力。 MiniCPM-V 4.6 在绝大多数图文理解任务上优于 Qwen3.5-0.8B，并在 OpenCompass、RefCOCO、HallusionBench、MUIRBench、OCRBench 等众多评测基准上展现出 Qwen3.5 2B 级别的能力。
🚀 极致高效架构。 MiniCPM-V 4.6 基于 LLaVA-UHD v4，引入 ViT 内部视觉 token 早压缩机制，将视觉编码阶段计算量降低 50% 以上，在效率上甚至超越部分更小的模型，相比 Qwen3.5-0.8B 实现约 1.5 倍的 token 吞吐；同时支持 4 倍/16 倍混合视觉 token 压缩率，在精度与速度之间灵活切换。
📱 广泛的手机平台支持。 MiniCPM-V 4.6 可在 iOS、安卓、鸿蒙三大主流手机平台完成部署，并开源配备了端侧适配代码，开发者可在自己的设备上一键复现端侧体验。
🛠️ 开发者友好。 MiniCPM-V 4.6 适配 SGLang、vLLM、llama.cpp、Ollama 等推理框架，并支持 SWIFT、LLaMA-Factory 等微调生态。开发者可以在消费级显卡上为新领域、新任务快速定制模型。我们还提供了覆盖 GGUF、BNB、AWQ、GPTQ 格式的多种量化版本权重，适配多样的部署需求。

性能评估

综合性能（Instruct）

点击查看 MiniCPM-V 4.6-Thinking 的综合性能。

MiniCPM-V 4.6 推理效率

高并发请求吞吐量	单并发请求首响延迟 TTFT (ms)

典型示例

MiniCPM-V 4.6 可以在 iOS、安卓、鸿蒙 等主流端侧平台完成部署。

iPhone _{iPhone 17 Pro Max}	安卓 _{红米 K70}	鸿蒙 _{华为 nova 14}

使用说明

基于 Transformers 推理

点击展开基于 Transformers 的推理示例。

安装

pip install "transformers[torch]>=5.7.0" torchvision torchcodec

CUDA 兼容性提示： torchcodec（用于视频解码）可能与部分 CUDA 版本存在兼容性问题。例如 torch>=2.11 默认使用 CUDA 13.1，在 CUDA 12.x 环境下可能出现 RuntimeError: Could not load libtorchcodec 等错误。两种解决方案：

用 PyAV 替代 torchcodec —— 图像和视频推理均可正常使用，无 CUDA 版本限制： bash pip install "transformers[torch]>=5.7.0" torchvision av

安装 torch 时指定 CUDA 版本以匹配当前环境（如 CUDA 12.8）： bash pip install "transformers>=5.7.0" torchvision torchcodec --index-url https://download.pytorch.org/whl/cu128

加载模型

from transformers import AutoModelForImageTextToText, AutoProcessor

model_id = "openbmb/MiniCPM-V-4.6"

processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id, torch_dtype="auto", device_map="auto"
)

# 推荐使用 Flash Attention 2 以获得更好的加速与显存节省，
# 尤其在多图和视频场景下效果显著。
# model = AutoModelForImageTextToText.from_pretrained(
#     model_id,
#     torch_dtype=torch.bfloat16,
#     attn_implementation="flash_attention_2",
#     device_map="auto",
# )

图片推理

```python messages = [ { "role": "user", "content": [ {"type": "image", "url": "https://huggingface.co/datasets/openbmb/DemoCase/resolve/main/refract.png"}, {"type": "text", "text": "What causes this phenomenon?"}, ], } ]

downsample_mode = "16x" # Using downsample_mode="4x" for Finer Detail

inputs = processor.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors="pt", downsample_mode=downsample_mode, max_slice_nums=36, ).to(model.device)

generated_ids = model.generate(**inputs, downsample_mode=downsample_mode, max_new_tokens=512) generated_ids_trimmed = [ out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids) ] outpu

Extension points exported contracts — how you extend this code

GlobalComponents (Interface)

(no doc)

web_demos/minicpm-o_2.6/web_server/components.d.ts

ComponentCustomProperties (Interface)

(no doc)

web_demos/minicpm-o_2.6/web_server/components.d.ts

Core symbols most depended-on inside this repo

load

called by 196

eval_mm/vlmevalkit/vlmeval/smp/file.py

dump

called by 120

eval_mm/vlmevalkit/vlmeval/smp/file.py

listinstr

called by 50

eval_mm/vlmevalkit/vlmeval/smp/misc.py

build_judge

called by 39

eval_mm/vlmevalkit/vlmeval/dataset/utils/judge_util.py

md5

called by 34

eval_mm/vlmevalkit/vlmeval/smp/file.py

track_progress_rich

called by 30

eval_mm/vlmevalkit/vlmeval/utils/mp_util.py

generate

called by 28

eval_mm/vlmevalkit/vlmeval/api/gpt.py

DATASET_TYPE

called by 24

eval_mm/vlmevalkit/vlmeval/dataset/__init__.py

Shape

Method 585

Function 552

Class 139

Route 6

Interface 2

Languages

Python96%

TypeScript4%

Modules by API surface

eval_mm/vlmevalkit/vlmeval/dataset/image_vqa.py49 symbols

eval_mm/vlmevalkit/vlmeval/dataset/utils/mvbench.py48 symbols

eval_mm/vlmevalkit/vlmeval/dataset/cgbench.py46 symbols

omnilmm/model/utils.py44 symbols

eval_mm/vlmevalkit/vlmeval/dataset/tempcompass.py43 symbols

web_demos/minicpm-o_2.6/model_server.py39 symbols

eval_mm/vlmevalkit/vlmeval/dataset/utils/tablevqabench.py37 symbols

eval_mm/vlmevalkit/vlmeval/smp/file.py32 symbols

eval_mm/vlmevalkit/vlmeval/dataset/mvbench.py32 symbols

eval_mm/vlmevalkit/vlmeval/dataset/image_mcq.py29 symbols

eval_mm/vlmevalkit/vlmeval/smp/misc.py27 symbols

eval_mm/vlmevalkit/vlmeval/vlm/minicpm_v.py26 symbols

Dependencies from manifests, versioned

@element-plus/icons-vue2.3.1 · 1×

@iconify-json/fluent1.2.1 · 1×

@iconify-json/material-symbols1.2.1 · 1×

@microsoft/fetch-event-source2.0.1 · 1×

@ricky0123/vad-web0.0.22 · 1×

@rushstack/eslint-patch1.8.0 · 1×

@vitejs/plugin-vue5.0.5 · 1×

@vue/eslint-config-prettier9.0.0 · 1×

@vueuse/core11.0.3 · 1×

axios1.7.7 · 1×

clipboard2.0.11 · 1×

el-table-infinite-scroll3.0.6 · 1×

For agents

$ claude mcp add MiniCPM-V \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact

github.com/OpenBMB/MiniCPM-V @main sqlite

更新日志

目录

MiniCPM-V 4.6

性能评估

典型示例

使用说明

基于 Transformers 推理

安装

加载模型

图片推理

Extension points exported contracts — how you extend this code

Core symbols most depended-on inside this repo

Shape

Languages

Modules by API surface

Dependencies from manifests, versioned

For agents