每日经济新闻大模型评测报告（第1期）

您现在的位置：金融财经网 >> 财经资讯 >> 正文

没有公告

每日经济新闻大模型评测报告（第1期）

★★★

【字体：小大】

每日经济新闻大模型评测报告（第1期）

作者：佚名财经资讯来源：本站原创点击数：更新时间：2024/9/26

　　在数字化浪潮的推动下，人工智能技术正以前所未有的速度发展，其中大模型作为AI领域的重要突破，正在逐渐成为推动社会进步的关键力量。

　　每日经济新闻作为中国主流财经媒体，早在2019年启动AI战略，从2020年上线覆盖所有A股公司的AI快讯，到2021年全国首创数字人主播的AI电视，再到2022年、2023年连续推出雨燕智宣AI短视频智能生成平台，智能媒资库等一系列AI产品，每日经济新闻在“媒体+AI”领域积累了丰富的经验。

　　对此，每日经济新闻组建由30余位优秀记者、编辑和子公司每经科技的工程师构成“每日经济新闻大模型评测小组”，定期推出《每日经济新闻大模型评测报告》（以下简称《大模型评测报告》），旨在深入评测、分析市面上大模型在各行各业实际应用场景中的表现和能力。

　　与传统“大模型评测”强调技术性不同，《大模型评测报告》更侧重于考察大模型在实际应用场景完成具体工作的表现。

　　在传统大模型评测中，技术性指标占据了主导地位，这些指标包括模型的参数数量、计算资源消耗、算法复杂度、训练时间、推理速度等，主要用于评估模型的技术性能和优化程度。

　　然而，这些技术性指标对绝大多数普通用户来说太过晦涩，而且在实际应用中，并不能直观反映模型的实用性和用户体验感，具体来说：

　　参数数量的多少、算法复杂度的高低，对于普通的内容创作者或营销人员来说，这些数据无法直接转化为实际需求。

　　一个模型即使在参数优化、计算效率等方面表现出色，但内容生成的实际效果可能不理想。模型的技术性能并不总是与用户实际体验成正比。

　　技术性指标评测缺乏针与具体应用场景的关联性。比如，一个在参数量和计算资源上表现优异的模型，在新闻生成场景中可能表现欠佳，而在技术文档撰写中则可能有出色表现。

　　用户关心的是模型生成内容的质量、流畅性和自然性。例如，在营销文案生成中，模型是否能够写出吸引人的文案；在新闻稿生成中，模型是否能生成准确、及时的新闻报道。

　　实际应用场景评测可以帮助我们发现和解决具体业务问题。关注用户体验和实际问题解决的评测结果更具实用性。

　　不同应用场景对内容要求不同。通过实际应用场景评测，我们可以针对不同场景进行评估，找到最适合特定场景的模型。

　　实际应用场景评测的结果更直观易懂、更符合用户的认知习惯。用户可以通过具体的评分和示例，直接看到模型在不同场景中的表现。

　　实际应用场景评测的结果具有参考价值和指导价值。用户可以参考评测结果，选择最适合自己业务需求的模型，并了解如何在具体场景中优化模型的使用。

　　开发者可以根据评测结果，了解模型在实际应用中的不足，并进行有针对性的优化。

　　通过实际应用场景评测，可以向用户展示模型的实际表现，增强用户对模型的信心，促进模型在各个领域的推广和应用。

　　基于这些优势，评测小组决定采用实际应用场景评测的方法，全面评估生成式大模型在各个实际应用中的表现，为用户提供更加客观、实用的参考，助力模型在实际业务中的应用和发展。

　　《每日经济新闻大模型评测报告》的目的，是关注企业和个人用户的实际需求，通过评测大模型在实际应用场景中的表现，进而帮助用户在工作、学习、生活等场景中，找到最合适的大模型工具，提升效率。

　　作为国内主流财经媒体，每日经济新闻在美誉度和影响力方面稳居国内财经传媒第一阵容，拥有全国一流的专业采编团队和丰富的财经媒体采编经验。

　　2019年，每日经济新闻作品《ofo迷途》荣获第二十九届中国新闻奖融媒体实践融合创新一等奖；同年，《“校园贷死灰复燃”系列调查》荣获第32届中国经济新闻监督报道类一等奖；2023年，《婴儿之殇与“雅培母乳强化剂”召回疑云》荣获第33届中国新闻奖舆论监督报道项目一等奖。每经近三年荣获省部级及以上新闻奖45项。

　　近年来，在生成式AI浪潮下，每经众多采编人员深耕大模型领域，涌现了数十位优秀的提示词工程师，并与子公司每经科技合作，早在2023年上线了“雨燕智宣AI创作+”产品，通过对国内大模型在新闻标题，视频脚本，文本纠错，文案润色，采访提纲，新闻快评，好稿评选，新闻阅评等数十个采编应用场景的测试，选出最好的大模型，并封装成的最终产品。用户使用“AI创作+”，只需要提供素材，一键即可生成最后结果，不需要为选择哪个大模型发愁，更不需要撰写复杂的Prompt，实现极简式样操作。“雨燕智宣AI创作+”已经成功实现商业化，获得市场赞誉和认可。

　　每日经济新闻专业的财经新闻采编能力和不断深耕的AI技术应用能力，为本次大模型评测提供了坚实保障。

　　《每日经济新闻大模型评测报告》第一期聚焦财经新闻采编能力，具体包括“财经新闻标题创作”“微博新闻写作”“文章差错校对”“财务数据计算与分析”四大应用场景。

　　我们为每个场景分别设置了多项细分任务，并制定了相应的评价维度和评分指标。每日经济新闻15名资深记者、编辑根据评价维度和评分指标，对各款大模型在四大场景中的表现进行评分。

　　为了将大模型可能存在的不稳定所带来的干扰最小化，我们会让大模型对每项细分任务进行5次回答和生成，并取其平均分数，最终按照各项任务平均分的总和，对大模型财经新闻四大场景能力进行排名。

　　需要特别指出的是，本期评测过程是基于各款大模型的API端口，与公众用户使用的大模型C端对话工具的表现存在细微差异，但是评测结果对用户在具体场景中选择合适的大模型工具，依然具有重大参考价值。

　　本期评测均在“雨燕智宣AI创作+”测试台上进行。本期评测一共有15款大模型参与，包括：

　　评测结果显示，零一万物 Yi-Large成为“黑马”，总分排名第一。Anthropic Claude 3 Opus和幻方求索DeepSeek-V2分居第二、第三。各个大模型在不同场景和不同任务中的表现差异明显。GPT 4.0的表现令人意外，仅名列倒数第五。

　　标题是新闻的窗口和眼睛，是新闻内容的集中概括。在信息爆炸的今天，只有好的标题才能够有效传递新闻价值，才能迅速抓住读者的眼球、激发读者的阅读兴趣，进而引导读者深入阅读新闻内容。

　　在本期评测的第一个场景，我们聚焦于大模型在“财经新闻标题创作”上的表现。

　　解读：新闻标题的准确性是赢得读者信任的基础，不准确的标题可能导致读者对新闻内容产生误解，而新闻机构有责任确保标题的准确性。

　　“重要新闻点突出”下设评分指标包括：“突出关键数据”和“突出关键新闻点”。

　　解读：“重要新闻点突出”是指新闻标题中要体现报道中最吸引读者的信息。数据是财经新闻的核心，通过在财经新闻标题创作中突出数据等重要信息，可以迅速传递新闻核心内容，吸引读者注意力，促使读者阅读完全文。

　　“标题结构合理”下设评分指标包括：“重点信息前置”“无冗余”“无长句”。

　　解读：优秀的新闻标题应该简洁精练，让重要信息和新闻主题以最符合大众阅读习惯的方式地传达给读者，而不要增加阅读门槛和理解障碍。

　　评测小组准备了两篇新闻稿，让大模型围绕新闻稿，分别创作5个新闻标题。评测小组首先基于上述3大评价维度和下设7个评分指标，分别对各个大模型所创作的10个标题进行打分；随后，计算每款大模型在7项评分指标方面的平均分；最后，对各个大模型的7项评分指标平均分汇总，得到最后总分，最终得到15款大模型在“财经新闻标题创作”应用场景中的排名。

　　备注：“财经新闻标题创作”场景测评题目，评分指标细则及部分案例，详见附件一。

　　谷歌Gemini 1.5 Pro以88.5分的高分位居榜首，它在“信息提炼准确”“重要新闻点突出”和“标题结构合理”上都有不错表现。

　　表现出色的国产大模型则包括商汤商量SenseChat-5、字节豆包Doubao-pro-32k、百川智能Baichuan4、百度文心ERNIE 4.0，这些大模型在“信息提炼准确”和“重要新闻点突出”上足以媲美谷歌Gemini 1.5 Pro，但在“标题结构合理”，尤其是完成“重点信息前置”要求方面，仍需进一步提升。

　　令人大跌眼镜的是，备受业界推崇的GPT 4.0或是由于其在中文语境下的能力不足，在“财经新闻标题创作”场景的表现垫底。

　　除了总分排名靠前的谷歌Gemini 1.5 Pro、百川智能 Baichuan4之外，幻方求索DeepSeek-V2、月之暗面moonshot-v1也表现亮眼。说明这些大模型不仅能够准确地阅读理解新闻稿件中的文字，还具备较强的信息总结能力和对信息重要性判断筛选能力。

　　在新媒体时代，微博是新闻资讯传播的最快速、最重要平台之一。适合微博平台传播规律的文案对于新闻报道的广泛传播至关重要。微博文案简洁有力，迅速传达核心信息，让读者在短时间内了解新闻要点。这种快速的信息传递方式，极大地提高了新闻的传播效率。

　　其次，微博运营也是其传播特色之一。话题运营是信息传播的放大器。设置和主持适当话题，有助于新闻在社交网络中迅速扩散，形成强大的传播效应。

　　“新闻信息准确”下设评分指标包括：无事实差错，无歧义误导模糊，以及标题与内文匹配。

　　解读：微博新闻的准确性是获得读者信任的基础。任何不准确或错误的信息都可能导致公众的误解，甚至可能引发不必要的恐慌或争议。

　　解读：根据微博读者的阅读习惯和传播规律，好的微博文案应该简洁精练，最好不要超过200字。而超过300字的文案已经不适合微博传播。此外，微博文案需要符合“标题+正文”的格式，以帮助信息清晰地表达信息，让读者容易理解新闻内容和核心观点。

　　解读：话题设置适当维度，主要测试大模型能否为微博设置准确且相关的话题词。适当话题能够增加该文本在搜索、热榜以及推荐机制中的曝光率

　　评测小组喂给大模型两篇财经新闻稿件，要求分别创作5条微博。评测小组的资深微博编辑首先基于上述3大评价维度和下设7个评分指标，分别对各个大模型所创作的5条微博进行打分；随后，计算每款大模型在7项评分指标方面的平均分；最后，对各个大模型的7项评分指标平均分进行加总，最终得到15款大模型在“微博新闻写作”场景中的排名。

　　备注：“微博新闻写作”场景测评题目、评分指标细则及部分案例，详见附件二。

　　综合来看，百度文心ERNIE 4.0、商汤商量SenseChat-5和Anthropic Claude 3 Opus这三款模型表现突出，总分均为81.5分，并列第一，并且在三个维度上的得分均名列前茅，没有明显的短板。

　　月之暗面凭借其明星大模型Kimi而备受关注。在“微博新闻写作”场景中，月之暗面moonshot-v1仅与第一名相差1分。在“新闻信息准确”和“符合微博格式”维度方面均表现优异，不过在话题设置上稍逊一筹。

　　腾讯混元hunyuan-pro、幻方求索DeepSeek-V2、零一万物Yi-Large则紧随其后，与前三名的差距并不算大。

　　而在上一轮比拼中独占鳌头的谷歌Gemini 1.5 Pro却在微博写作上马失前蹄，尤其是在“话题设置适当”维度上拿到了唯一一个0分。

　　多数模型能够生成符合格式要求的微博文案。百度文心ERNIE 4.0、商汤商量SenseChat-5、月之暗面moonshot-v1和腾讯混元hunyuan-pro在此维度得分很高，表明其对微博格式和输出格式要求方面具有良好的理解能力和生产能力。

　　只有百度文心ERNIE 4.0、商汤商量SenseChat-5、GPT 4.0、智谱GLM-4在这方面表现优异，能够设置与新闻内容紧密相关的话题标签。然而，谷歌在这一维度上拿到了全场唯一一个0分。

　　“文章差错校对”是新闻采编工作中要求最高的工作之一，是确保新闻内容的准确性、权威性和专业性不可或缺的一环。

　　“文章差错校对”需要对新闻事实进行核实，数据进行校准，并对文字、标点、语句等差错进行纠正，这是保证新闻报道准确无误最基础也是最重要的工作，关系到新闻媒体的权威性以及公众对媒体的信任度。如果大模型能帮助编辑提高校对纠错工作的效率，编辑则能够将更多精力投入到内容的深度挖掘和创意思考中。

　　评测任务：让大模型阅读包含有人为设置差错和病句的两篇新闻稿，然后结合上下文，进行校对，检查出其中的错误和病句并给出修改建议。每篇新闻稿包含了14处错误，包括错别字、标点使用不当、数字和量词错误、事实和信息错误；每篇新闻稿还设置了3处病句。

　　让大模型对两篇新闻稿各进行5次校对，查找并修改其中的错误和病句。资深编辑基于评价维度中的评分指标，对10次结果进行评分，并取其平均分之和，最终得到15款大模型在“文章差错校对”场景中的排名。

　　备注：“文章差错校对”场景测评题目、评分指标细则及部分案例，详见附件三。

　　综合来看，谷歌Gemini 1.5 Pro在所有参评大模型中表现最为出色，说明该模型能够准确地识别出新闻稿中的错误，并能给出恰当的修改建议，特别是在查找数据和单位错误、事实和信息错误方面。不过，该模型在病句校对纠正上稍显逊色。

　　零一万物 Yi-Large 是谷歌Gemini 1.5 Pro之外唯一总分超过100分的大模型。值得注意的是，此模型在病句的校对纠正方面展现出了超高的能力，两次得分合计32分，高居首位。

　　阿里通义qwen-max、百度文心ERNIE 4.0、商汤商量SenseChat-5位列其后。这些模型在识别错误方面有良好的表现，但纠正错误能力稍显不足。不过，值得一提的是，百度文心ERNIE 4.0在校对纠正病句上也展现了较高的能力。

　　首先，财务数据能够揭示公司的财务健康状况和经营趋势，是读者了解公司、投资者进行投资决策的关键依据，而准确计算财务数据是理解和分析公司财务状况的前提。

　　其次，优秀的财经新闻报道不仅要准确无误地传达上市公司的财务信息，还要将枯燥的财务数据转化为读者、非专业人士易于理解的信息，并能够提供深入的见解和前瞻性分析，帮助读者理解数据背后的含义。

　　评测任务：基于一家上市公司2019年-2023年五年间的10项财务数据，完成三道计算题和一道分析写作题。

　　分析写作题：根据提供的财务数据，对公司的经营情况进行分析，并撰写一篇财经新闻稿件。

　　评测小组让每款大模型对上述四项任务各完成5次。专业财经记者和编辑基于评价维度中的各项指标，对5次结果进行评分。随后，计算每款大模型在四项任务中的平均分；最后，对各个大模型的四项任务平均分进行加总，最终得到15款大模型在“财务数据计算和分析”场景中的最终排名。

　　备注：“财务数据计算和分析”场景测评题目，评分指标细则及部分案例，详见附件四。

　　综合来看，Anthropic Claude 3 Opus表现最为出色，以总分136分高居榜首。该模型在计算题的任务一（同比增长率计算）和任务二（毛利率计算）中均获得了较高的分数，但在任务三（复合增长率计算）中未能给出正确答案。在分析写作题中，该模型撰写的稿件数据项目丰富，包含长期经营数据，并且基于数据进行了较为准确合理的分析。

　　幻方求索DeepSeek-V2是“财务数据计算和分析”场景评测中的一匹“黑马”，以总分133.4分紧随其后。该模型在计算题的任务一和任务二中同样表现良好，但在任务三中也未能给出正确答案。不过，在计算复合增长率的任务中，尽管其答案有误，但已掌握了正确的公式，即CAGR = (现有价值/基础价值)^(1/N) 1。特别值得注意的是，在分析写作题中，幻方求索DeepSeek-V2以111的高分位列第一。其撰写的稿件标题凸显了重要数据，且能基于数据给出合理分析。

　　零一万物 Yi-Large 的总分达到了126.4分，该模型尽管“分析写作题”得分略逊一筹，但在计算题的任务一和任务二中表现稳定，在计算题得分以29.4分冠绝群雄。此外，该模型在计算复合增长率时，同样给出了错误答案，但也给出了正确的公式。

　　此外，百川智能Baichuan4和腾讯混元hunyuan-pro在计算题上表现良好，而月之暗面moonshot-v1在计算题上的表现与写作分析题方面差距巨大，导致它无法在这一场景中跻身前列。月之暗面想要挑战国内大厂的大模型甚至要对标国外大模型，还需要提高自身的数学能力。

　　国产大模型正逐渐展现出其竞争力。与海外大模型相比，它们在多个任务上的表现已经显示出赶超之势。

　　在“财经新闻标题创作”场景中，国产大模型如商汤商量SenseChat-5、字节豆包Doubao-pro-32k和百度ERNIE 4.0等，在信息提炼准确和重要新闻点突出方面与谷歌的Gemini 1.5 Pro不相上下。

　　在“微博新闻写作”场景中，百度文心ERNIE 4.0、商汤SenseChat-5等模型的总分与海外模型Anthropic Claude 3 Opus并列第一，显示出国产大模型的强劲实力。

　　在“文章差错校对”场景中，零一万物 Yi-Large是唯一一款得分超过100分的国产大模型，而且，在查找并修改病句方面，其表现排名第一。从排名前列的大模型看，国产大模型比国外大模型更能理解汉语句式，因此能查找并修改更多的病句。但在查找并修改错别字、标点使用不当、数字和量词错误、事实和信息错误等要求更精准的任务方面，还有提升空间。

　　在“财务数据计算和分析”场景中，Anthropic Claude 3 Opus总分虽领先，但对国产模型如幻方求索DeepSeek-V2和零一万物Yi-Large的优势并不大。尤其是幻方求索DeepSeek-V2成为此场景评测中一匹“黑马”，其“财务数据分析”能力惊人，在这一单项任务中得分最高。

　　评测小组在梳理总结排名后发现，国产大模型在多个测试场景中排名靠前。商汤商量SenseChat-5三次占据前五席位，两次击败谷歌Gemini 1.5 Pro。在海外模型中，Anthropic Claude 3 Opus同样在三个测评场景中排名前五，谷歌Gemini 1.5 Pro在“财经新闻标题创作”和“文章差错校对”两个场景中排名第一。令人意外的是，一直备受各界推崇的GPT 4.0却在本次评测中整体表现不佳，在每个场景中都未能斩获前五名，甚至在“财经新闻标题创作”中排名垫底。

　　在基于财经新闻四大场景的评测中，不同大模型在特定场景、特定维度，甚至特定指标上的表现差异显著，体现了它们在各自领域的专长。

　　例如，谷歌Gemini 1.5 Pro在“财经新闻标题创作”和“文章差错校对”两大场景中排名第一。在“微博新闻写作”场景中，尽管该模型整体排名靠后，但在“新闻信息准确”这一维度上的分数并不低。这显示了这款谷歌旗下的大模型具备较强的准确性。

　　与此同时，国产大模型如商汤商量SenseChat-5、百度文心ERNIE 4.0、字节豆包Doubao-pro-32k也展现出了强劲的竞争力。它们在不同场景中“信息提炼准确”“新闻信息准确”等考察准确性的指标上上与谷歌Gemini 1.5 Pro不相上下。此外，Anthropic Claude 3 Opus、幻方求索DeepSeek-V2、百川智能Baichuan4则显示出了强大的数据计算能力。

　　这些结果表明，无论是国外还是国产大模型，它们在特定领域内都展现出了专长。

　　以“微博新闻写作”场景为例，百度文心ERNIE 4.0、商汤商量SenseChat-5与海外大模型Anthropic Claude 3 Opus并列第一，获得了81.5分的高分。这反映了国产大模型在微博这一国内社交媒体平台上的卓越表现。国产大模型更能够准确把握微博用户的内容偏好和交流方式，生成符合平台特性和用户期待的微博文案。

　　谷歌Gemini 1.5 Pro在微博写作的运营维度上得分为0，可能源于其对微博平台特性和用户行为的不熟悉。

　　此外，在中文语境之下，GPT 4.0在全部4个场景中的排名均不理想。这一现象突显了大模型在跨语言和文化环境中的适应性问题，也表明了国产大模型在本土化应用上具有天然优势。

　　从文章尤其是长文本中准确提取关键信息，是对大模型能力的一项关键挑战。本期评测中“文章差错校对”场景正包含了对这一能力的测试。

　　在“文章差错校对”场景中，谷歌Gemini 1.5 Pro凭借其在错别字、标点使用不当、数字和量词错误、事实和信息错误的查找和纠错方面与其他大模型拉开了差距。体现了它精准查找提取信息的能力。

　　相比之下，零一万物Yi-Large在病句查找和纠错方面则位居首位，本可以挑战谷歌Gemini 1.5 Pro，但在错误查找方面的表现拖了后腿。

　　大模型信息提取能力的差异可能与模型的训练数据、算法设计以及对语言细微差别的捕捉能力有关。增强大模型的信息提取能力，可以提高其生成结果的准确度，更能让大模型适用于对准确性要求极高的新闻工作。

　　如需转载请与《每日经济新闻》报社联系。未经《每日经济新闻》报社授权，严禁转载或镜像，违者必究。

　　特别提醒：如果我们使用了您的图片，请作者与本站联系索取稿酬。如您不希望作品出现在本站，可联系我们要求撤下您的作品。

　　电子科技大学（深圳）高等研究院执行院长汤志伟：面向行业的垂直大模型将是我国实体经济和数字经济深度融合发展的重点

　　在岸人民币汇率迭创新高离岸人民币空头头寸突遭削减业内：稳汇率压力对货币政策的掣肘已大幅减弱

　　重磅利好！央行预期平均下调存量房贷利率0.5个百分点，100万元贷款30年可少付约10万元利息

　　上证指数重回2800点上方，日内涨幅扩大至1.9%。大金融、中字头引领涨势，场内超4600股飘红。

　　重磅消息！央行宣布降准、降息、降低存量房贷利率，A50ETF（159601）涨超1%

财经资讯录入：admin 责任编辑：admin

上一个财经资讯：中国网络电视台

下一个财经资讯：没有了

【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口】

最新热点		最新推荐		相关文章
				中国网络电视台财经早参丨关于资本市场李强… 早财经丨外交部回应缅北冲突… 东方财富财经早餐 12月26日周… 一周国际财经 OpenAI阿尔特曼… 14年募集善款近600万元这个… “旅游搭子”暗藏风险需加强… 热点新闻百年中国证券收藏精品展在沪… 早财经丨加息75点？道指跌近…

　网友评论：（只显示最新10条。评论内容只代表网友观点，与本站立场无关！）