日前,权威研究机构弗若斯特沙利文(Frost & Sullivan, 简称“沙利文”)联合头豹研究院发布《2024年中国大模型行研能力年中评测》,结果显示:在16个主流大模型中,商汤“日日新”以8.923分(总分)再度位列榜首,并在报告撰写和基础能力两大子榜中排名第一。
相较于《2023年中国大模型行研能力评测报告》,此次参与评测的主流大模型从12家增至16家,在保持三大能力维度(报告撰写、行业理解、基础能力)的基础上,测试题目从1800道增至3540道,商汤“日日新“在蝉联第一的同时,总分从7.73提升到8.923。
20+资深分析师参与打分:日常使用大模型办公,还是日日新撰写报告最好用值得注意的是,本次大模型行研能力测试覆盖了3540道题目,由20位资深研究分析师和10个中外裁判大模型共同参与评测。
这些分析师大多拥有超过16个月的使用大模型进行日常办公的经验,在评测中,报告撰写这一核心能力维度就覆盖了20篇不同行业报告撰写,涵盖分析师长期跟踪报告问题累积超3000道题。
在“报告撰写”能力(覆盖8个子能力模块)中,商汤“日日新”排名第一,充分体现办公实际应用场景中的领先性。
沙利文及头豹行企研究的8-D模块化大模型提问框架已转化为一个评估工具,通过对十六个模型的定向提问,深入检验并评估模型报告的撰写质量与有效性。
图:大模型报告撰写能力评测总榜TOP5沙利文认为,位列第一的商汤“日日新”在研究报告内容质量综合产出优秀,大模型具备从基础信息中提炼出深层逻辑关系的强大能力。
其中,商汤“日日新”在逻辑推理层的三个细分维度中表现最为突出:
产业链分析:作为高阶难度撰写模块,得益于其优秀的知识储备能力以及逻辑推理归纳能力,“日日新”在这一模块表现优秀;
特征分析:这一模块挑战在于综合处理海量数据、提炼具有深度的代表性见解以及展现独创性,“日日新”在此模块中表现优异;
竞争格局:这是最具挑战性的模块之一,挑战在于准确筛选行业参与者,并归纳推演市场竞争态势的形成原因及未来趋势,“日日新”在企业筛选以及未来变化推演能力较强。
商汤“日日新”加持基础能力,为千行百业研究注入“新质生产力”同时,大模型优秀的基础能力能够显著提升分析师在研报撰写过程中使用模型的流畅性,并增加其使用粘性。
在“行研基础”能力板块的表现中,商汤“日日新”综合表现第一。
图:大模型基础能力评测总榜TOP5这得益于商汤“日日新”大模型体系的持续迭代和能力维度的长期耕耘。自去年4月首次发布,商汤“日日新SenseNova”大模型体系已正式推出多个大版本迭代。在今年7月“日日新5.5”体系迎来多项升级,综合性能较“日日新5.0”平均提升30%,在数学推理、英文能力和指令跟随等能力明显增强,交互效果和多项核心指标实现对标GPT-4o。
通过不断地实践与落地,商汤“日日新”也对各行各业中进行了深刻的行业积累,这为其提供了行业深度洞察与理解能力。在沙利文报告中,商汤“日日新”在“行业理解”能力也表现突出。
商汤“日日新”在面对各行业下的趋势研判、信息归纳和市场认知方面表现了较强的能力,其中在电商零售业、电信业、泛娱乐业、房地产业、教育业、运输业、制造业这些关键领域排名第一。
办公与内容创作是当下大模型最火热的应用场景,并且也是能够直接体现大模型生产力水平的能力,商汤“日日新”此次蝉联第一,正是为行研领域提供“新质生产力”。未来,商汤科技还将不断把大模型的能力转换为在各行各业的实际落地,推动生成式AI的规模化应用。
添加新评论