[返回百家论坛首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
一夜掀翻 GPT-4V 的国产「小钢炮」
送交者: XYZ-Space[★★声望品衔10★★] 于 2024-05-29 11:28 已读 805 次  

XYZ-Space的个人频道

把大模型塞进手机里需要几步?

如果说 2023 年是生成式 AI 爆发的元年,那么各路厂商今年难得一见地达成了共识——全力押注端侧大模型。

作为一家专攻「高效大模型」的 AI 新秀,今天面壁智能再秀肌肉,推出了最强端侧多模态开源模型 MiniCPM-Llama3-V 2.5。
最强端侧多模态综合性能:超越多模态巨无霸 Gemini Pro、GPT-4VOCR 能力 SOTA!9 倍像素更清晰,难图长图长文本精准识别图像编码快 150 倍!首次端侧系统级多模态加速



国产「小钢炮」第三弹来了,力压 GPT-4V

正如人类依赖五感探索世界,多模态能力是 AI 进化路上的必修课。

仅凭 8B 量级的端侧模型,「以小博大」的 MiniCPM-Llama3-V 2.5 在评测平台 OpenCompass 得分 65.1,不仅比肩闭源模型 Qwen-VL-Max,综合性能还力压重量级选手 GPT-4V 和 Gemini Pro。



在 OCR(光学字符识别)这一综合基准测试中,MiniCPM-Llama3-V 2.5 取得了 725 分的成绩,大幅度远超 GPT-4V,成为超越了 Claude 3V Opus 等越级模型。

幻觉能力是短时间内萦绕在大模型心头上最大的顽疾,MiniCPM-Llama3-V 2.5 在这一问题上也有所改进,

反映到 Object HalBench 的基准测试中,其幻觉率从 MiniCPM-V 2.0(2B)的 14.5 锐减至 10.3,再次超越 GPT-4 V 和 LLaVA-NeXT-34B。



RealWorldQA 基准测试是一场检验模型现实理解力的大考。

MiniCPM-Llama3-V 2.5 交出了 63.5 的答卷,仅次于 InternVL-Chat-V1.5(26B),却依旧让 GPT-4V 和 Gemini Pro 甘拜下风。

依托于面壁自研高清图像高效编码技术,MiniCPM-Llama3-V 2.5 支持高效编码及无损识别 180 万高清像素图片,并且支持任意长宽比、即便是 1:9 的极限比例图像,对它来说,也只是小菜一碟。



「能看」只是开始,更重要的是要懂得「思考」,MiniCPM-Llama3-V 2.5 在复杂推理能力更上一层楼。



官方举例称,给出一张刻满《三体》名言的艺术建筑,一般大模型大致只能描述出图像的模型,而 MiniCPM-Llama3-V 2.5 却可以根据识别到的信息联想到《三体》书籍。



▲MiniCPM-Llama3-V 2.5




▲ GPt-4V


同时还能给出自己的见解——这些建筑很可能是为了纪念这部小说及其对中国科幻文学的贡献而设计的。

又或者甩给它一张英文版的亚洲饮食金字塔,它能秒变私人营养师,定制一周菜谱。



懒得阅读长文,交给 MiniCPM-Llama3-V 2.5 吧,然后询问问题,它能以最快的速度给出答案。

现在,MiniCPM-Llama3-V 2.5 支持 30+ 种语言,涵盖德语、法语、西班牙语、意大利语、俄语等主流语言,一带一路沿线国家的语言基本做到信手拈来。

喜欢XYZ-Space朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ XYZ-Space的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回百家论坛首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


    用户名:密码:[--注册ID--]

    标 题:

    粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


         图片上传  Youtube代码器  预览辅助

    打开微信,扫一扫[Scan QR Code]
    进入内容页点击屏幕右上分享按钮

    楼主本栏目热帖推荐:

    >>>>查看更多楼主社区动态...






    [ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]