一夜掀翻 GPT-4V 的国产「小钢炮」
把大模型塞进手机里需要几步?
如果说 2023 年是生成式 AI 爆发的元年,那么各路厂商今年难得一见地达成了共识——全力押注端侧大模型。
作为一家专攻「高效大模型」的 AI 新秀,今天面壁智能再秀肌肉,推出了最强端侧多模态开源模型 MiniCPM-Llama3-V 2.5。 最强端侧多模态综合性能:超越多模态巨无霸 Gemini Pro、GPT-4VOCR 能力 SOTA!9 倍像素更清晰,难图长图长文本精准识别图像编码快 150 倍!首次端侧系统级多模态加速
国产「小钢炮」第三弹来了,力压 GPT-4V正如人类依赖五感探索世界,多模态能力是 AI 进化路上的必修课。
仅凭 8B 量级的端侧模型,「以小博大」的 MiniCPM-Llama3-V 2.5 在评测平台 OpenCompass 得分 65.1,不仅比肩闭源模型 Qwen-VL-Max,综合性能还力压重量级选手 GPT-4V 和 Gemini Pro。
在 OCR(光学字符识别)这一综合基准测试中,MiniCPM-Llama3-V 2.5 取得了 725 分的成绩,大幅度远超 GPT-4V,成为超越了 Claude 3V Opus 等越级模型。
幻觉能力是短时间内萦绕在大模型心头上最大的顽疾,MiniCPM-Llama3-V 2.5 在这一问题上也有所改进,
反映到 Object HalBench 的基准测试中,其幻觉率从 MiniCPM-V 2.0(2B)的 14.5 锐减至 10.3,再次超越 GPT-4 V 和 LLaVA-NeXT-34B。
RealWorldQA 基准测试是一场检验模型现实理解力的大考。
MiniCPM-Llama3-V 2.5 交出了 63.5 的答卷,仅次于 InternVL-Chat-V1.5(26B),却依旧让 GPT-4V 和 Gemini Pro 甘拜下风。
依托于面壁自研高清图像高效编码技术,MiniCPM-Llama3-V 2.5 支持高效编码及无损识别 180 万高清像素图片,并且支持任意长宽比、即便是 1:9 的极限比例图像,对它来说,也只是小菜一碟。
「能看」只是开始,更重要的是要懂得「思考」,MiniCPM-Llama3-V 2.5 在复杂推理能力更上一层楼。
官方举例称,给出一张刻满《三体》名言的艺术建筑,一般大模型大致只能描述出图像的模型,而 MiniCPM-Llama3-V 2.5 却可以根据识别到的信息联想到《三体》书籍。
▲MiniCPM-Llama3-V 2.5
▲ GPt-4V
同时还能给出自己的见解——这些建筑很可能是为了纪念这部小说及其对中国科幻文学的贡献而设计的。
又或者甩给它一张英文版的亚洲饮食金字塔,它能秒变私人营养师,定制一周菜谱。
懒得阅读长文,交给 MiniCPM-Llama3-V 2.5 吧,然后询问问题,它能以最快的速度给出答案。
现在,MiniCPM-Llama3-V 2.5 支持 30+ 种语言,涵盖德语、法语、西班牙语、意大利语、俄语等主流语言,一带一路沿线国家的语言基本做到信手拈来。
|