行业资讯

新闻资讯

行业资讯

当前位置：首页 / 新闻资讯 / 行业资讯

微软Phi-3-vision基准测试结果与Claude 3-haiku/Gemini 1.0 Pro相当

发布日期：2024-05-29

450 次

5 月 28 日消息，微软在 Build 2024 大会上发布了 Phi-3 家族的最新成员--Phi-3-vision，主打“视觉能力”，能够理解图文内容，同时据称可以在移动平台上流畅高效运行。

Phi-3-vision 是一款多模态小型语言模型（SLM），主要用于本地 AI 场景，该模型参数量为 42 亿，上下文长度为 128k token，能够为常规视觉推理任务和其他任务提供支持。

那么 Phi-3-vision 有多厉害？微软今天发布了新的论文 [PDF]，表示该 SLM 和 Claude 3-haiku、Gemini 1.0 Pro 等其他模型不相上下。

微软在论文中对比了 ScienceQA、MathVista 和 ChartQA 等模型，Phi-3-vision 的参数虽然不多，但性能非常优秀。

据此前报道，微软提供了 Phi-3-vision 相较于字节跳动 Llama3-Llava-Next（8B）、微软研究院和威斯康星大学、哥伦比亚大学合作的 LlaVA-1.6（7B）、阿里巴巴通义千问 QWEN-VL-Chat 模型等竞品模型的比较图表，其中显示 Phi-3-vision 模型在多个项目上表现优异。

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：020-2204 2442,邮箱：Sales@greentest.com.cn。

上一篇: 韩国电信开发成功量子密钥分发设备,每秒生成15万个密钥
下一篇: 夏普与小米签订无线通信专利交叉许可协议,撤销此前诉讼