商汤大模型多个评测表现超ChatGPT 今日精选

2023-06-23 17:09:18 来源: 文汇报

【资料图】

本报讯（记者沈湫莎）商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示，“商量”在这三个测试集中的表现均领先ChatGPT，实现了我国语言大模型研究的突破。全球三大权威语言模型测评基准分别为由美国加州大学伯克利分校等高校构建的多任务考试评测集MMLU、由微软研究院推出的学科考试评测集AGIEval（含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等），以及由上海交通大学、清华大学和英国爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval。截至6月，全球范围内正式发布的大语言模型已超过40款，其中由中国厂商、高校、科研院所等发布的大语言模型近20款。在MMLU测评中，“商量2.0”综合得分为68.6，超ChatGPT（67.3分），仅落后于GPT-4（86.4分）位居第二；在AGIEval测评中，“商量2.0”得分49.9分，超ChatGPT（42.9分），仅次于GPT-4的56.4分。在C-Eval测评中，“商量2.0”得分66.1分，在参评的18个大模型中，仅次于GPT-4（68.7分）。4月，商汤发布“日日新”大模型体系以及中文语言大模型“商量”。目前，“商量”已在众多行业和场景中落地应用，已有近千家企业客户通过申请，应用和体验“商量2.0”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力。在服务客户过程中，“商量2.0”持续迭代和提升，并实现知识的实时更新。

（原标题：商汤大模型“商量”多个评测表现超ChatGPT）

关键词：

商汤大模型多个评测表现超ChatGPT 今日精选

您可能也感兴趣:

今日热点

京东集团为全球抗疫保供发挥重要作用，入选《时代周刊》全球100大最...

天天百事通！2023端午档新片票房破2亿《消失的她》领跑 | 文化观察

放“粽”军营广西南宁武警官兵别样过端午-今日观点

更多

更多

排行

最近更新

今日要闻

商汤大模型多个评测表现超ChatGPT 今日精选

您可能也感兴趣:

今日热点

京东集团为全球抗疫保供发挥重要作用，入选《时代周刊》全球100大最...

天天百事通！2023端午档新片票房破2亿 《消失的她》领跑 | 文化观察

放“粽”军营 广西南宁武警官兵别样过端午-今日观点

为您推荐

商汤大模型多个评测表现超ChatGPT 今日精选

天天观热点：沭阳卫监：以党建引领促卫健执法效能提升

当前短讯！突发！最火赛道，要“降温”？

个人给国外个人汇款_个人向国外个人汇款

更多

更多

排行

最近更新

今日要闻

天天百事通！2023端午档新片票房破2亿《消失的她》领跑 | 文化观察

放“粽”军营广西南宁武警官兵别样过端午-今日观点