开源多模态模型 MiniCPM-V 4.5 发布：80亿参数实现移动端AI部署

概述

2025年9月1日，开源AI社区正式发布MiniCPM-V 4.5多模态大语言模型。该模型专为边缘设备设计，参数量达80亿，可在智能手机和平板电脑上高效运行，为移动AI应用开辟了新可能。

技术特性与性能

核心参数

参数量：80亿
OpenCompass综合评分：77.2分（同类开源模型中表现突出）
支持任务：单图像理解、多图像推理、视频分析

移动端性能表现

iPhone 16 Pro Max首token延迟：约2秒
解码速度：超过17 token/秒
视频处理能力：
- 采用3D-Resampler技术，视频数据压缩率提升至96
- 可处理6帧视频内容（64 token）
- 最高实现10FPS实时视频理解

光学字符识别（OCR）能力

基于LLaVA-UHD架构
支持最高180万像素高分辨率图像处理
OCRBench测试准确率：85.7%
支持语言：超过30种（包括英语、中文、德语、法语等）

创新机制与技术架构

可控混合思维机制

用户可通过参数设置切换两种模式：

快速响应模式：适用于常规问答任务
深度推理模式：通过逐步推理处理复杂问题

训练技术

采用RLAIF-V和VisCPM技术
有效减少幻觉现象
提升模型回答的准确性和可靠性

开源生态与部署支持

许可协议

许可证类型：Apache-2.0
学术研究：免费使用
商业应用：需简单注册流程

兼容框架

支持多种推理框架：

llama.cpp
Ollama
vLLM
SGLang

量化支持

提供16种量化格式，适配不同硬件配置

开发支持

发布iOS应用程序
可通过Hugging Face和GitHub获取模型代码和文档
支持通过Gradio设置本地Web界面
支持NVIDIA GPU推理加速

应用前景与局限性

应用价值

隐私敏感场景
离线应用场景
降低AI能力部署门槛
为个人用户和开发者提供新选择

性能限制

参数规模限制可能导致处理极端复杂任务时存在性能边界
用户需根据实际需求选择合适的模型方案

使用提醒

开发团队提醒用户：模型生成内容基于训练数据，使用者必须确保合规性并承担相应责任。

行业影响

MiniCPM-V 4.5的发布体现了开源AI社区在边缘部署方向的技术探索。随着移动设备计算能力的持续提升，此类轻量级多模态模型可能为AI应用普及提供新的技术路径。

该项目的开源特性为研究者和开发者提供了学习和改进的基础，有望推动边缘侧AI技术的进一步发展。

项目地址：AINeologism

火龙果频道

近期新闻

AI-NEWS · 2025年 9月 2日

小模型MiniCPM-V发布

开源多模态模型 MiniCPM-V 4.5 发布：80亿参数实现移动端AI部署

概述

技术特性与性能

核心参数

移动端性能表现

光学字符识别（OCR）能力

创新机制与技术架构

可控混合思维机制

训练技术

开源生态与部署支持

许可协议

兼容框架

量化支持

开发支持

应用前景与局限性

应用价值

性能限制

使用提醒

行业影响

您可能还喜欢...

AI-NEWS · 2025年 9月 2日

开源多模态模型 MiniCPM-V 4.5 发布：80亿参数实现移动端AI部署

概述

技术特性与性能

核心参数

移动端性能表现

光学字符识别（OCR）能力

创新机制与技术架构

可控混合思维机制

训练技术

开源生态与部署支持

许可协议

兼容框架

量化支持

开发支持

应用前景与局限性

应用价值

性能限制

使用提醒

行业影响

您可能还喜欢...

AI助手Cursor估值百亿

PixVerse 发布 V2版本视频模型 支持直接生成最长8秒的视频 著提升分辨率、细节和运动动态

京东布局AI芯片

PixVerse 发布 V2版本视频模型支持直接生成最长8秒的视频著提升分辨率、细节和运动动态