阿里云开源通义千问多模态视觉模型Qwen-VL,号称“远超同等规模通用模
,阿里云今日推出了大规模视觉语言模型 Qwen-VL,目前已经在 ModeScope 开源,IT之家早前曾报道,阿里云此前已经开源通义千问 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat。
据悉,Qwen-VL 是一款支持中英文等多种语言的视觉语言模型,相较于此前的 VL 模型,其除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。
Qwen-VL 以 Qwen-7B 为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为 448,此前开源的 LVLM 模型通常仅支持 224 分辨率。
官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。
此外,在 Qwen-VL 的基础上,通义千问团队使用对齐机制,打造了基于 LLM 的视觉 AI 助手 Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。
通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基于 GPT-4 打分机制的测试集 “试金石”,对 Qwen-VL-Chat 及其他模型进行对比测试,Qwen-VL-Chat 在中英文的对齐评测中均取得了开源 LVLM 最好结果。
广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
推荐阅读
-
游戏《最终幻想16》宣布将调整“街机模式”:现有积分榜作废,相关...
,游戏《最终幻想16》已经发布了2个月时间,SqaureEnix官方日前在科... -
更新余承东:明天将现身成都车展AITO问界展台,公布非常“大”的...
感谢IT之家网友雨雪载途的线索投递! 更新:据IT之家现场询问AITO问界... -
黑客要价2.13美元,兜售260万语言学习平台多邻国用户数据...
,近日有黑客在暗网论坛上兜售260万多邻国用户数据,其中包含用户账号名称、真... -
财税政策持续发力促进房地产市场平稳健康发展...
财政部、税务总局、住房和城乡建设部发布的《关于延续实施支持居民换购住房有关个... -
华为MateX3折叠屏手机获推鸿蒙HarmonyOS4.0.0....
感谢IT之家网友雨雪载途的线索投递! ,据华为官方消息,华为MateX3折... -
“数电票”时代下,企业该如何优化财税管理,来提高运营效率?...
随着“数电票”的推广,“数电票”已经发展成为中国财税管理领域的大趋势。发票电... -
极狐考拉车型预售价13.38-17.18万元:定位紧凑型纯电MP...
,在2023成都车展上,极狐旗下紧凑型MPV车型——极狐考拉正式开启预售,价... -
三星GalaxyFold4折叠屏手机迎来OneUI5.1.1更新...
感谢IT之家网友厦门收租人的线索投递! ,据IT之家网友反馈,三星Gala... -
马斯克要求Cybertruck电动皮卡的零件精度达到微米级:“乐...
,特斯拉首席执行官埃隆?马斯克在一封给员工的电子邮件中,强调了Cybertr... -
中煤能源01898发布中期业绩股东应占溢利127.32亿元同比减...
发布中期业绩股东应占溢利127.32亿元同比减少12.37%自产商品煤产量同... -
诺兰《奥本海默》中国首映礼采访:电影特效太安全了,很难模拟实拍爆...
,众所周知,导演克里斯托弗?诺兰是一个“实拍”狂魔,在最新的作品《奥本海默》... -
七彩虹CVNB760M背插主板开卖:白色PCB设计,售价969元...
,七彩虹CVNB760M-BACKFROZENWIFID4接口背插主板现已开...
最新文章
