清华大学发布《大语言模型综合性能评估报告》:GPT-4第一,文心一言更懂
,近日,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》,报告显示总得分率 GPT-4 第一,百度文心一言在三大维度 20 项指标中综合评分国内第一,超越 ChatGPT,其中中文语义理解排名第一,部分中文能力超越 GPT-4。
据了解,报告本次评估选取了 GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工 7 个大语言模型,围绕生成质量、使用与性能、安全与合规三大维度,全面考察大语言模型上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等 20 项指标。综合来看,文心一言语义理解能力突出,特别是具备更好的中文理解能力,更懂中国文化,同时时效性强、内容安全把握细微,这源于其知识增强、检索增强和对话增强的技术创新。
在生成质量方面,基于对语义理解、输出表达、适应泛化的综合评测,文心一言得分率 76.98%,仅次于 GPT-4,领先于包括 ChatGPT 在内的其他大语言模型。其中,在部分中文语义理解方面,文心一言以 92% 的得分率排名榜首。
IT之家注意到,在安全合规方面,基于对内容安全性、偏见和公平性、隐私保护等综合评测,文心一言得分率 78.18%,与 GPT-4 并列排名第一。
广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
推荐阅读
-
消息称苹果公司今年将推出“现代风磁吸编织表带”,有望与新款App...
,苹果产品收藏家Kosutami日前在X平台上发布贴文,表示苹果公司将于今年... -
高通骁龙8Gen4芯片爆料:标准版台积电生产、“forGalax...
,国外科技媒体AndroidHeadlines解读郭明錤日前关于高通的爆料,... -
消息称荣耀首款外折屏手机MagicVs2入网:代号维多利亚,2K...
,荣耀终端有限公司一款型号为VCA-AN00近日通过了电信设备进网许可,根据... -
推动转型创新产品商业银行竞逐绿色金融赛道...
日前,兴业银行宣布成立零碳产业联盟,并发布基于企业碳账户的碳金融服务专案以及... -
人工测铰链耐用性直播结束:三星GalaxyZFlip5手机通过4...
,YouTube频道Mrkeybrd日前举办了一次特别疯狂,又特别无聊的直播... -
再掀价格战!上汽大众最高降6万,零跑、蔚来跟进,专家:新能源降价...
上一轮价格战的硝烟刚刚散去,新一轮价格战已然打响。 今年8月以来,上汽大众... -
理想汽车“魔毯”空气悬架2.0今日通过OTA4.5.3开启正式推...
感谢IT之家网友华南吴彦祖、雨雪载途的线索投递! ,理想汽车今日下午通过官... -
第三批出境团队游国家名单公布出境游产业链持续修复...
8月10日,旅游业迎来重磅利好消息。当日,文化和旅游部发布《关于恢复旅行社经... -
七彩虹RTX4060Timini显卡开卖:8G版3299元,16...
,七彩虹日前上架的iGameGeForceRTX4060TiMINI显卡现已... -
英特尔官宣FalconShores2AI超算芯片:采用模块化设计...
据悉,FalconShores2芯片将继承第一代FalconShores芯片... -
中汽协:7月汽车销量238.7万辆,同比下降1.4%...
感谢IT之家网友航空先生的线索投递! ,IT之家从中汽协公众号获悉,7月,... -
我国《匿名订阅通信服务技术规范》标准正式发布...
感谢IT之家网友末6_的线索投递! ,统一推送工委会今日宣布,由中国信通院...
最新文章
