MCPcopy
hub / github.com/OpenBMB/MiniCPM-V

github.com/OpenBMB/MiniCPM-V @main sqlite

repository ↗ · DeepWiki ↗
1,284 symbols 3,918 edges 138 files 105 documented · 8%
README

口袋级多模态大模型,在 iOS、安卓、鸿蒙 上实现极致高效的图像与视频理解

中文 | English

WeChat WeChat  |   Discord Discord  

MiniCPM-V 4.6 🤗 🤖 📱 | MiniCPM-o 4.5 🤗 📞 🤖 | 📄 技术报告 | 🍳 使用指南 | 🌐 API

MiniCPM-VMiniCPM-o 是面向端侧高性能与高效部署的多模态大模型系列。MiniCPM-V 专注于在图像、视频和文本输入上的高效视觉语言理解,MiniCPM-o 则进一步扩展到实时端到端全模态交互,支持流式视频和音频输入以及文本和语音输出。目前 MiniCPM-V 和 MiniCPM-o 系列中最值得关注的模型包括:

  • MiniCPM-V 4.6: 🔥🔥🔥 MiniCPM-V 系列最新、最高效的模型。总参数量 1.3B,性能超过更大参数规模的 Gemma4-E2B-it 的同时,展现出比更小参数规模的 Qwen3.5-0.8B 更高的效率(~1.5 倍左右的 token 吞吐)。基于 LLaVA-UHD v4 提出的 ViT 内提前压缩技术,MiniCPM-V 4.6 将视觉编码开销降低了 50% 并支持4倍/16倍 混合视觉 token 压缩率,可以灵活根据任务需求达到更优的 性能-效率 平衡。该模型可部署于 iOS、安卓、鸿蒙等主流手机平台,并开源配备了端侧部署代码。
  • MiniCPM-o 4.5: ⭐️⭐️⭐️ MiniCPM-o 系列最新、最强大的模型。总参数量 9B,在视觉、语音及全双工多模态实时流式交互方面的表现接近 Gemini 2.5 Flash,是目前开源社区中功能最全面、性能最强的模型之一。全新的全双工多模态实时流能力意味着输出流(语音和文本)与实时输入流(视频和音频)互不阻塞。这使得 MiniCPM-o 4.5 能够在实时全模态对话中实现“边看、边听、边说”,并能进行如“主动提醒”等主动交互

更新日志

  • [2026.06.25] 🔥🔥🔥 MiniCPM-V 4.6 已正式合并至 Ollama 官方模型库,为 Ollama 用户带来高效的图像与视频理解能力。欢迎体验
  • [2026.05.17] ⭐️⭐️⭐️ 我们发布了 MiniCPM-V 4.6 和 MiniCPM-o 4.5 的 API 接口,并同时提供了一个 MiniCPM-V 4.6 的免费公用密钥,欢迎试用!
  • [2026.05.11] 🔥🔥🔥 我们开源了 MiniCPM-V 4.6,支持 4倍/16倍 混合视觉 token 压缩率,凭借出色的编码效率和 1.3B 的轻量规模,它是我们端侧部署最友好的一代模型,高并发场景 token 吞吐达到 Qwen3.5 0.8B 的 ~1.5 倍。欢迎试用!
  • [2026.02.06] 🥳 🥳 🥳 我们开源了可在 Mac 或 GPU 等本地设备上部署的实时 Web Demo。立即体验
  • [2026.02.03] 🔥🔥🔥 我们开源了 MiniCPM-o 4.5,该模型视觉和语音能力达到了 Gemini 2.5 Flash 水平,同时支持全双工多模态流式交互。欢迎试用!
  • [2025.08.26] 🔥🔥🔥 我们开源了 MiniCPM-V 4.5,其视觉性能超越了 GPT-4o-latest、Gemini-2.0 Pro 和 Qwen2.5-VL 72B。它不仅延续并强化了 MiniCPM-V 的热门能力,还带来了诸多实用的新功能。欢迎试用!
  • [2025.08.01] ⭐️⭐️⭐️ 我们开源了 MiniCPM-V & o Cookbook,提供针对不同人群的全场景使用指南,配合最新的文档网站上手更轻松!
  • [2025.03.01] 🚀🚀🚀 MiniCPM-o 系列的对齐技术 RLAIF-V 被 CVPR 2025 接收为 Highlights 了!其代码数据论文均已开源。
  • [2025.01.19] ⭐️⭐️⭐️ MiniCPM-o 在 GitHub Trending 上登顶, Hugging Face Trending 上也达到了第二!
  • [2024.05.23] 🔥🔥🔥 MiniCPM-V 在 GitHub Trending 和 Hugging Face Trending 上登顶!MiniCPM-Llama3-V 2.5 Demo 被 Hugging Face 的 Gradio 官方账户推荐,欢迎点击这里体验!

点击查看完整更新日志。

  • [2026.05.07] 📢📢📢 我们发布了 MiniCPM-o 4.5 技术报告,介绍了其实现实时全双工全模态交互的关键技术。欢迎点击这里查看。
  • [2026.02.05] 📢📢📢 我们注意到,由于网络状况原因,网页版演示可能会出现显著的延迟问题。我们正在积极工作,将尽快提供实时交互演示版的Docker镜像供本地部署,敬请持续关注!
  • [2025.09.18] 📢📢📢 MiniCPM-V 4.5 技术报告已发布! 欢迎点击这里查看.
  • [2025.09.01] ⭐️⭐️⭐️ MiniCPM-V 4.5 已被 llama.cppvLLMLLaMA-Factory 等框架官方支持,欢迎从官方入口直接使用!更多框架如 OllamaSGLang 的官方支持正在持续适配中!
  • [2025.08.02] 🚀🚀🚀 我们开源了 MiniCPM-V 4.0,该模型在图像理解能力上超越了 GPT-4.1-mini-20250414。该模型不仅继承了 MiniCPM-V 2.6 的众多实用特性,还大幅提升了推理效率。我们还同步开源了适用于 iPhone 和 iPad 的 iOS 应用,欢迎试用!
  • [2025.06.20] ⭐️⭐️⭐️ MiniCPM-o 的 Ollama 官方仓库正式支持 MiniCPM-o 2.6 等模型啦,欢迎一键使用
  • [2025.01.24] 📢📢📢 MiniCPM-o 2.6 技术报告已发布! 欢迎点击这里查看.
  • [2025.01.23] 💡💡💡 MiniCPM-o 2.6 现在已被北大团队开发的 Align-Anything,一个用于对齐全模态大模型的框架集成,支持 DPO 和 SFT 在视觉和音频模态上的微调。欢迎试用!
  • [2025.01.19] 📢 注意! 我们正在努力将 MiniCPM-o 2.6 的支持合并到 llama.cpp、Ollama、vLLM 的官方仓库,但还未完成。请大家暂时先使用我们提供的 fork 来进行部署:llama.cppOllamavllm合并完成前,使用官方仓库可能会导致不可预期的问题
  • [2025.01.17] 我们更新了 MiniCPM-o 2.6 int4 量化版本的使用方式,解决了模型初始化的问题,欢迎点击这里试用!
  • [2025.01.13] 🔥🔥🔥 我们开源了 MiniCPM-o 2.6,该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别,进一步优化了 MiniCPM-V 2.6 的众多亮点能力,还支持了很多有趣的新功能。欢迎试用!
  • [2024.08.17] 🚀🚀🚀 llama.cpp 官方仓库正式支持 MiniCPM-V 2.6 啦!点击这里查看各种大小的 GGUF 版本。
  • [2024.08.15] MiniCPM-V 2.6 现在支持多图像 SFT。有关更多详细信息,请参阅微调文档
  • [2024.08.14] MiniCPM-V 2.6 现在可以通过 SWIFT 框架 微调 了!
  • [2024.08.10] 🚀🚀🚀 llama.cpp 官方仓库正式支持 MiniCPM-Llama3-V 2.5 啦!点击这里查看各种大小的 GGUF 版本。
  • [2024.08.06] 🔥🔥🔥 我们开源了 MiniCPM-V 2.6,该模型在单图、多图和视频理解方面取得了优于 GPT-4V 的表现。我们还进一步提升了 MiniCPM-Llama3-V 2.5 的多项亮点能力,并首次支持了 iPad 上的实时视频理解。欢迎试用!
  • [2024.08.03] MiniCPM-Llama3-V 2.5 技术报告已发布!欢迎点击这里查看。
  • [2024.07.19] MiniCPM-Llama3-V 2.5 现已支持vLLM
  • [2024.06.03] 现在,你可以利用多张低显存显卡(12G/16G)进行GPU串行推理。详情请参见该文档配置。
  • [2024.05.28] 💫 我们现在支持 MiniCPM-Llama3-V 2.5 的 LoRA 微调,更多内存使用统计信息可以在这里找到。
  • [2024.05.28] 💥 MiniCPM-Llama3-V 2.5 现在在 llama.cpp 和 Ollama 中完全支持其功能!请拉取我们最新的 fork 来使用llama.cpp & ollama。我们还发布了各种大小的 GGUF 版本,请点击这里查看。请注意,目前官方仓库尚未支持 MiniCPM-Llama3-V 2.5,我们也正积极推进将这些功能合并到 llama.cpp & ollama 官方仓库,敬请关注!
  • [2024.05.25] MiniCPM-Llama3-V 2.5 支持流式输出和自定义系统提示词了,欢迎试用!
  • [2024.05.24] 我们开源了 MiniCPM-Llama3-V 2.5 gguf,支持 llama.cpp 推理!实现端侧 6-8 tokens/s 的流畅解码,欢迎试用!
  • [2024.05.23] 🔍 我们添加了Phi-3-vision-128k-instruct 与 MiniCPM-Llama3-V 2.5的全面对比,包括基准测试评估、多语言能力和推理效率 🌟📊🌍🚀。点击这里查看详细信息。
  • [2024.05.20] 我们开源了 MiniCPM-Llama3-V 2.5,增强了 OCR 能力,支持 30 多种语言,并首次在端侧实现了 GPT-4V 级的多模态能力!我们提供了高效推理简易微调的支持,欢迎试用!
  • [2024.04.23] 我们增加了MiniCPM-V 2.0对 vLLM 的支持,欢迎体验!
  • [2024.04.18] 我们在 HuggingFace Space 新增了 MiniCPM-V 2.0 的 demo,欢迎体验!
  • [2024.04.17] MiniCPM-V 2.0 现在支持用户部署本地 WebUI Demo 了,欢迎试用!
  • [2024.04.15] MiniCPM-V 2.0 现在可以通过 SWIFT 框架 微调 了,支持流式输出!
  • [2024.04.12] 我们开源了 MiniCPM-V 2.0,该模型刷新了 OCRBench 开源模型最佳成绩,在场景文字识别能力上比肩 Gemini Pro,同时还在综合了 11 个主流多模态大模型评测基准的 OpenCompass 榜单上超过了 Qwen-VL-Chat 9.6B、CogVLM-Chat 17B 和 Yi-VL 34B 等更大参数规模的模型!点击 这里 查看 MiniCPM-V 2.0 技术博客。
  • [2024.03.14] MiniCPM-V 现在支持 SWIFT 框架下的微调了,感谢 Jintao 的贡献!
  • [2024.03.01] MiniCPM-V 现在支持在 Mac 电脑上进行部署!
  • [2024.02.01] 我们开源了 MiniCPM-V 和 OmniLMM-12B,分别可以支持高效的端侧部署和同规模领先的多模态能力!

目录

MiniCPM-V 4.6

MiniCPM-V 4.6 是 MiniCPM-V 系列的最新模型,也是迄今最端侧友好的一代模型。该模型基于 SigLIP2-400M 和 Qwen3.5-0.8B LLM 构建。其延续了 MiniCPM-V 在单图、多图和视频理解方面的强大能力,同时显著提升了计算效率,还首次支持了 4倍/16倍 混合视觉 token 压缩率,其主要特点包括:

  • 🔥 领先的基础能力。 MiniCPM-V 4.6 在 Artificial Analysis Intelligence Index 基准上获得 13 分,以 19 倍更低的 token 成本超过 Qwen3.5-0.8B 的 10 分,并以 43 倍更低的 token 成本超过 Qwen3.5-0.8B-Thinking 的 11 分。同时,它也超过了参数规模更大的 Ministral 3 3B(11 分)。
  • 💪 出色的多模态能力。 MiniCPM-V 4.6 在绝大多数图文理解任务上优于 Qwen3.5-0.8B,并在 OpenCompass、RefCOCO、HallusionBench、MUIRBench、OCRBench 等众多评测基准上展现出 Qwen3.5 2B 级别的能力。
  • 🚀 极致高效架构。 MiniCPM-V 4.6 基于 LLaVA-UHD v4,引入 ViT 内部视觉 token 早压缩机制,将视觉编码阶段计算量降低 50% 以上,在效率上甚至超越部分更小的模型,相比 Qwen3.5-0.8B 实现约 1.5 倍的 token 吞吐;同时支持 4 倍/16 倍混合视觉 token 压缩率,在精度与速度之间灵活切换。
  • 📱 广泛的手机平台支持。 MiniCPM-V 4.6 可在 iOS、安卓、鸿蒙三大主流手机平台完成部署,并开源配备了端侧适配代码,开发者可在自己的设备上一键复现端侧体验
  • 🛠️ 开发者友好。 MiniCPM-V 4.6 适配 SGLang、vLLM、llama.cpp、Ollama 等推理框架,并支持 SWIFT、LLaMA-Factory 等微调生态。开发者可以在消费级显卡上为新领域、新任务快速定制模型。我们还提供了覆盖 GGUF、BNB、AWQ、GPTQ 格式的多种量化版本权重,适配多样的部署需求。

性能评估

综合性能(Instruct)

点击查看 MiniCPM-V 4.6-Thinking 的综合性能。

MiniCPM-V 4.6 推理效率

高并发请求吞吐量 单并发请求首响延迟 TTFT (ms)

典型示例

MiniCPM-V 4.6 可以在 iOS、安卓、鸿蒙 等主流端侧平台完成部署。

iPhone iPhone 17 Pro Max 安卓 红米 K70 鸿蒙 华为 nova 14

使用说明

基于 Transformers 推理

点击展开基于 Transformers 的推理示例。

安装
pip install "transformers[torch]>=5.7.0" torchvision torchcodec

CUDA 兼容性提示: torchcodec(用于视频解码)可能与部分 CUDA 版本存在兼容性问题。例如 torch>=2.11 默认使用 CUDA 13.1,在 CUDA 12.x 环境下可能出现 RuntimeError: Could not load libtorchcodec 等错误。两种解决方案:

  1. PyAV 替代 torchcodec —— 图像和视频推理均可正常使用,无 CUDA 版本限制: bash pip install "transformers[torch]>=5.7.0" torchvision av
  2. 安装 torch 时指定 CUDA 版本以匹配当前环境(如 CUDA 12.8): bash pip install "transformers>=5.7.0" torchvision torchcodec --index-url https://download.pytorch.org/whl/cu128
加载模型
from transformers import AutoModelForImageTextToText, AutoProcessor

model_id = "openbmb/MiniCPM-V-4.6"

processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id, torch_dtype="auto", device_map="auto"
)

# 推荐使用 Flash Attention 2 以获得更好的加速与显存节省,
# 尤其在多图和视频场景下效果显著。
# model = AutoModelForImageTextToText.from_pretrained(
#     model_id,
#     torch_dtype=torch.bfloat16,
#     attn_implementation="flash_attention_2",
#     device_map="auto",
# )
图片推理

```python messages = [ { "role": "user", "content": [ {"type": "image", "url": "https://huggingface.co/datasets/openbmb/DemoCase/resolve/main/refract.png"}, {"type": "text", "text": "What causes this phenomenon?"}, ], } ]

downsample_mode = "16x" # Using downsample_mode="4x" for Finer Detail

inputs = processor.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors="pt", downsample_mode=downsample_mode, max_slice_nums=36, ).to(model.device)

generated_ids = model.generate(**inputs, downsample_mode=downsample_mode, max_new_tokens=512) generated_ids_trimmed = [ out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids) ] outpu

Extension points exported contracts — how you extend this code

GlobalComponents (Interface)
(no doc)
web_demos/minicpm-o_2.6/web_server/components.d.ts
ComponentCustomProperties (Interface)
(no doc)
web_demos/minicpm-o_2.6/web_server/components.d.ts

Core symbols most depended-on inside this repo

load
called by 196
eval_mm/vlmevalkit/vlmeval/smp/file.py
dump
called by 120
eval_mm/vlmevalkit/vlmeval/smp/file.py
listinstr
called by 50
eval_mm/vlmevalkit/vlmeval/smp/misc.py
build_judge
called by 39
eval_mm/vlmevalkit/vlmeval/dataset/utils/judge_util.py
md5
called by 34
eval_mm/vlmevalkit/vlmeval/smp/file.py
track_progress_rich
called by 30
eval_mm/vlmevalkit/vlmeval/utils/mp_util.py
generate
called by 28
eval_mm/vlmevalkit/vlmeval/api/gpt.py
DATASET_TYPE
called by 24
eval_mm/vlmevalkit/vlmeval/dataset/__init__.py

Shape

Method 585
Function 552
Class 139
Route 6
Interface 2

Languages

Python96%
TypeScript4%

Modules by API surface

eval_mm/vlmevalkit/vlmeval/dataset/image_vqa.py49 symbols
eval_mm/vlmevalkit/vlmeval/dataset/utils/mvbench.py48 symbols
eval_mm/vlmevalkit/vlmeval/dataset/cgbench.py46 symbols
omnilmm/model/utils.py44 symbols
eval_mm/vlmevalkit/vlmeval/dataset/tempcompass.py43 symbols
web_demos/minicpm-o_2.6/model_server.py39 symbols
eval_mm/vlmevalkit/vlmeval/dataset/utils/tablevqabench.py37 symbols
eval_mm/vlmevalkit/vlmeval/smp/file.py32 symbols
eval_mm/vlmevalkit/vlmeval/dataset/mvbench.py32 symbols
eval_mm/vlmevalkit/vlmeval/dataset/image_mcq.py29 symbols
eval_mm/vlmevalkit/vlmeval/smp/misc.py27 symbols
eval_mm/vlmevalkit/vlmeval/vlm/minicpm_v.py26 symbols

Dependencies from manifests, versioned

@element-plus/icons-vue2.3.1 · 1×
@iconify-json/fluent1.2.1 · 1×
@iconify-json/material-symbols1.2.1 · 1×
@ricky0123/vad-web0.0.22 · 1×
@rushstack/eslint-patch1.8.0 · 1×
@vitejs/plugin-vue5.0.5 · 1×
@vue/eslint-config-prettier9.0.0 · 1×
@vueuse/core11.0.3 · 1×
axios1.7.7 · 1×
clipboard2.0.11 · 1×
el-table-infinite-scroll3.0.6 · 1×

For agents

$ claude mcp add MiniCPM-V \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact