MiniCPM-V 2.6单图多图视频处理
2024年8月6日,MiniCPM-V 开源项目重磅更新了「小钢炮」 MiniCPM-V 2.6。
仅 8B 参数,单图、多图、视频理解全面超越GPT-4V,稳坐端侧最强多模态铁王座。
8B 参数的模型很有意义,这种小模型可以在手机端侧落地。
MiniCPM-V 2.6 的能力,让外国网友们眼前一亮,火出圈了!
https://huggingface.co/spaces/openbmb/MiniCPM-V-2_6(需梯子)
找一张转账记录:
直接提交,输出如下内容:
分析了如下内容:交易时间、流水号、收款人、付款人、转账金额、转账时间等基本信息,并可以分析二维码。
是否可以识别二维码内容,继续提问:
一次上传了两者图片,金额分别是2000与3000:
显然关联了上下文,不是本次要的结果。
继续提问,看下能否找到所要效果:
再次提问:
计算时长明显增加,且给出了想要的结果。
- 一次上传多个图片,能够关联上下文,但是不能给出正确答案(可能有提示词有关)。
- 上传单个图片,能够汇总相关信息。
- 上传一个工作流图片,可以进行分析,并可以给出优化建议。s
多次抽卡未能找到自己想要的结果:
截图没有提取出列标题导致的,提示:上传图片尽可能单一功能。修订图片再次上传:
分析结果如下:
这张图片是一个表格的截图,显示了有关支付信息的数据。以下是详细描述:
1.列标题:
编号(NO.)
缴费ID
区域
学校
年级
班级
学生姓名
手机号
支付金额
提交时间
订单号
支付方式
支付记录
支付状态
2.内容:
表格中包含6条记录,每条记录对应一个缴费信息。
每条记录包括学生的基本信息、缴费时间、订单号以及支付状态等细节。
3.数据示例:
第一条记录:编号为1500036,区域为涧西区,学校为洛阳市东方第三小学,年级为三年级,班级为三二班,学生姓名为张伟,手机号为137****1741,支付金额为69元,提交时间为2023-12-25 14:05:22,订单号为JXL_2023122_ED7ABC3CB7BCFA23BCB,支付方式为微信,支付记录为成功支付时间:2023-1-1,支付状态为成功支付。
这些是表格中的主要信息和格式描述。
再次提问:有多少人支付,支付成功有多少人,总支付金额,支付成功总金额
MiniCPM-V 2.6 刷新了端侧多模态复杂推理能力。
比如这道 GPT-4V 官方演示经典命题:调整自行车车座。这个对人很简单的问题对模型却非常困难,它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。
仅 8B 的 MiniCPM-V 2.6 展现出顺利完成这项挑战的潜力,通过和模型进行多图多轮对话,它清晰地告知完成调低自行车车座的每一个详细步骤,还能根据说明书和工具箱帮你找到合适的工具。
甚至还能根据截图的报错信息,帮你改 bug:
根据表格的截图信息,做数据分析、统计:
MiniCPM-V 2.6 是基于 SigLip-400M 和 Qwen2-7B 构建,共 8B 参数。
支持图片和视频的理解,官方提供的在线 demo 也提供了接口,不仅能处理图文、还是处理视频。
MiniCPM-V 2.6 在最新版本 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 65.2,以 8B 量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型。
项目地址:
https://github.com/OpenBMB/MiniCPM-V
在线体验地址(需梯子):
https://huggingface.co/spaces/openbmb/MiniCPM-V-2_6
模型保存地址(需梯子):