迪克猪的博客
Toggle Dark/Light/Auto mode Toggle Dark/Light/Auto mode Toggle Dark/Light/Auto mode Back to homepage

MiniCPM-V 2.6单图多图视频处理

一、介绍

2024年8月6日,MiniCPM-V 开源项目重磅更新了「小钢炮」 MiniCPM-V 2.6。

仅 8B 参数,单图、多图、视频理解全面超越GPT-4V,稳坐端侧最强多模态铁王座。

8B 参数的模型很有意义,这种小模型可以在手机端侧落地。

MiniCPM-V 2.6 的能力,让外国网友们眼前一亮,火出圈了!

二、转账单测试

1.访问地址

https://huggingface.co/spaces/openbmb/MiniCPM-V-2_6(需梯子)

2.测试转账

找一张转账记录:

直接提交,输出如下内容:

分析了如下内容:交易时间、流水号、收款人、付款人、转账金额、转账时间等基本信息,并可以分析二维码。

是否可以识别二维码内容,继续提问:

3.多图片测试

一次上传了两者图片,金额分别是2000与3000:

显然关联了上下文,不是本次要的结果。

继续提问,看下能否找到所要效果:

再次提问:

计算时长明显增加,且给出了想要的结果。

4.图片测试汇总

  • 一次上传多个图片,能够关联上下文,但是不能给出正确答案(可能有提示词有关)。
  • 上传单个图片,能够汇总相关信息。
  • 上传一个工作流图片,可以进行分析,并可以给出优化建议。s

三、支付记录测试

多次抽卡未能找到自己想要的结果:

截图没有提取出列标题导致的,提示:上传图片尽可能单一功能。修订图片再次上传:

分析结果如下:

这张图片是一个表格的截图,显示了有关支付信息的数据。以下是详细描述:

1.列标题:

	编号(NO.)
	缴费ID
	区域
	学校
	年级
	班级
	学生姓名
	手机号
	支付金额
	提交时间
	订单号
	支付方式
	支付记录
	支付状态

2.内容:

	表格中包含6条记录,每条记录对应一个缴费信息。
	每条记录包括学生的基本信息、缴费时间、订单号以及支付状态等细节。

3.数据示例:

	第一条记录:编号为1500036,区域为涧西区,学校为洛阳市东方第三小学,年级为三年级,班级为三二班,学生姓名为张伟,手机号为137****1741,支付金额为69元,提交时间为2023-12-25 14:05:22,订单号为JXL_2023122_ED7ABC3CB7BCFA23BCB,支付方式为微信,支付记录为成功支付时间:2023-1-1,支付状态为成功支付。
这些是表格中的主要信息和格式描述。

再次提问:有多少人支付,支付成功有多少人,总支付金额,支付成功总金额

四、官方Demo

MiniCPM-V 2.6 刷新了端侧多模态复杂推理能力。

比如这道 GPT-4V 官方演示经典命题:调整自行车车座。这个对人很简单的问题对模型却非常困难,它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。

仅 8B 的 MiniCPM-V 2.6 展现出顺利完成这项挑战的潜力,通过和模型进行多图多轮对话,它清晰地告知完成调低自行车车座的每一个详细步骤,还能根据说明书和工具箱帮你找到合适的工具。

甚至还能根据截图的报错信息,帮你改 bug:

根据表格的截图信息,做数据分析、统计:

五、MiniCPM-V 2.6 细节

MiniCPM-V 2.6 是基于 SigLip-400M 和 Qwen2-7B 构建,共 8B 参数。

支持图片和视频的理解,官方提供的在线 demo 也提供了接口,不仅能处理图文、还是处理视频。

MiniCPM-V 2.6 在最新版本 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 65.2,以 8B 量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型。

项目地址:

https://github.com/OpenBMB/MiniCPM-V

在线体验地址(需梯子):

https://huggingface.co/spaces/openbmb/MiniCPM-V-2_6

模型保存地址(需梯子):

https://huggingface.co/openbmb/MiniCPM-V-2_6