从AI搜索到语音陪练，腾讯元宝全面评测来了！大模型C端玩家谁更胜一筹？

导读《科创板日报》5月31日讯（记者朱凌）直至五月尾声，AI应用市场的火热态势依旧不减。30日，基于混元大模型的AI助手App“腾讯元宝”上线

《科创板日报》5月31日讯（记者朱凌）直至五月尾声，AI应用市场的火热态势依旧不减。30日，基于混元大模型的AI助手App“腾讯元宝”上线，标志着BAT终于在AI消费C端应用领域聚首。

据介绍，自2023年9月首次亮相以来，腾讯混元大模型的参数规模已从千亿升级至万亿，预训练语料从万亿升级至7万亿tokens，并率先升级为多专家模型结构（MoE），整体性能相比Dense版本提升超50%。

元宝面向工作效率场景，提供AI搜索、AI总结、AI写作能力；面向日常生活场景，玩法也更加丰富，提供口语陪练、超能翻译官、百变AI头像等多个特色AI应用。同时，还新增了创建个人智能体等玩法。

《科创板日报》记者将腾讯元宝与OpenAI最新的GPT-4o以及字节的个人助手豆包App做了一场能力大PK。

▍AI效率工具测试：腾讯元宝的信息抓取和链接读取能力突出

数据显示，当前人们使用大模型相关产品时，有超过 65%的需求，集中在工作/学习效率场景。针对效率场景的三大核心需求分别为信息获取、处理和生产，腾讯元宝均进行了产品化探索。

首先，AI搜索能力比拼。

腾讯元宝和GPT-4o在回答“最近全球AI大模型领域的大事件有哪些”这一问题时，都采用了分类的方式来组织答案。但腾讯元宝提供了24篇时效性强、大多发布于近一周内的参考文献，方便用户快速溯源及延伸阅读。

据介绍，背靠腾讯生态的强大支持，腾讯元宝有效整合了微信搜一搜、搜狗搜索等多个平台资源，超越了传统搜索模式。记者点进回答里的参考文献链接查看，验证了其内容主要源自微信公众号等腾讯生态内的高质量资源，以及上的权威信息源。

腾讯元宝回复结果

GPT-4o虽然也进行了信息分类，但仅提供了6篇参考资料，远远少于元宝，且包括了年初的资料，信息的时效性差。因而，腾讯元宝在AI搜索方面具有更强的能力，能够为用户提供更加准确、全面和及时的信息，有效提升内容生成效果。

GPT-4o回复结果

其次，AI总结能力比拼。

从输入方式来看，元宝可上传最多10个PDF、word、txt等多种格式的文档，并能够一次性解析多个微信公众号链接、网址，支持256K的原生窗口上下文，而GPT-4o虽然也能总结链接内容，但是不支持生成国内链接的摘要。

GPT-4o回复结果

记者提交了四个微信公众号文章的链接，元宝对每篇文章内容进行了解析，不仅准确区分了各文章的主题要点，还细致地揭示了文章之间的逻辑联系，展现出对复杂信息的整合能力。

腾讯元宝AI总结结果

元宝还展现了其敏锐的产品细节，记者上传了《斯坦福大学：2024年人工智能指数报告》的文件，元宝首先对文档有一个识别大小和字数进行解析，还贴心地自动填写了默认提示词，这是GPT-4o所不具备的功能。值得一提的是，即使是40万字的文档，元宝解析的速度也是在几秒之内，比GPT-4o快。

腾讯元宝总结界面

然而，记者在比较GPT-4o和元宝对文档的解析答案时，观察到GPT-4o在提供信息的深度和可靠性方面表现得更为出色。GPT-4o的回复更为详尽和系统化，它不仅在每个主题下提供了分点解答，还引入了具体的数据作为支撑，使论点更具说服力。相反，元宝的回复中，观点拆分得不够细致，也缺乏数据信息。

腾讯元宝、GPT-4o回复结果

此外，记者还准备了经济类、医学类、逻辑推理类和谜语类题目来比较腾讯元宝和GPT-4o回答问题的准确率和速度。

记者观察到，尽管元宝和GPT-4o的正确率相同，正确率都是75%，但两者的答题风格各有千秋。GPT-4o以简洁、直接和结构化的方式呈现答案，使用数学公式清晰地展示计算过程，迅速传达结果；而腾讯元宝则侧重于解题思路的引导和逻辑性，提供详尽的步骤和分析，但在效率和直观性方面可能稍逊一筹。

腾讯元宝、GPT-4o回复结果

最后，文生图能力比拼。

腾讯元宝和GPT-4o根据古诗“小荷才露尖尖角，早有蜻蜓立上头”生成的图片，都包含了诗句中的关键元素，如荷花和蜻蜓，较为准确地捕捉并传达了诗中的意境。记者发现，元宝的图片呈现出现代摄影的色彩鲜明特点，而GPT-4o的图片则更贴近古典画风，强调了柔和的色彩和意境的表达，更符合古诗所蕴含的古风韵味。

腾讯元宝、GPT-4o回复结果

▍AI应用测试：日常场景下腾讯元宝的趣味与实用性升级

除了满足效率需要，腾讯元宝的“发现”栏目上线了百变AI头像、口语陪练、超能翻译官、AI智能体等多个日常生活场景中特色应用，均免费开放。

豆包、文心一言、Kimi等大模型目前均属于国内第一阵营。2023年9月推出的混元大模型此次卷土重来会带来惊喜吗？恐怕还是靠实力说话。

第一，口语陪练服务测试。

记者发现，腾讯元宝通过模拟1V1真实的对话场景，为用户的语法和发音打分。更像是一位专属的私人外教，用户点击“怎样优化”便能收获个性化的口语指导和改进建议，比较适合那些寻求细致语法和表达改进的学习用户，如将“what's”改为“who's”优化句子语法结构、增加“and why?”使对话更加详细。

元宝口语陪练对话结果

相比之下，豆包通过虚拟卡通外教进行对话练习，界面简洁有趣，互动性强，能够提供详细的信息和背景知识，使对话内容自然且贴近实际生活，不足之处是并没有明确指出用户的口语改进意见。

豆包口语陪练对话结果

第二，超能翻译官功能测试。

从输入方式来看，相比于豆包仅支持文件、语音和文字三种输入方式，腾讯元宝就比较给力了，不仅支持文件、语音、文字、图片、链接五种输入方式，还能够识别十五种主流语言。

记者测试了一篇英语论文的文档，发现元宝的超级翻译官功能不仅能高效总结论文中的要点，还有全文翻译服务，比较适用于学术研究、专业文献等高要求的翻译任务。此外，元宝专门设计了沉浸式的阅读模式，进一步保障了用户的阅读体验，使翻译内容更加清晰易读。

元宝超能翻译官对话结果

豆包的翻译结果与元宝相比显得逊色，答案冗余且主旨提炼不够精练，同时在翻译速度上不尽如人意，甚至在测试中出现了明显的延迟问题，影响了用户体验的连贯性。

豆包翻译对话结果

第三，百变AI头像功能测试。

腾讯元宝该功能提供了包括芭比、多巴胺、复古繁花、白领精英等在内的12种独特风格，用户可以根据个人喜好选择不同的风格进行尝试。

《科创板日报》记者注意到，与垂直AI相机赛道的App相比，腾讯元宝在用户上传自拍照片时有限制，仅允许上传一张图片，而妙鸭相机允许用户上传多光线、多背景、多视角、多表情的自拍照片。此外，元宝的AI头像功能并未包含近期广受用户欢迎的黏土滤镜、图生视频等玩法。

记者测试发现，虽然元宝生成的AI头像虽然在风格上有所不同，但在细节精细度上未能达到期望水平，显得相对粗糙。尽管提供了不同的风格选项，这些头像在个性化塑造上略显平淡，缺乏独特辨识元素，面部表情趋于单一，缺乏生动变化。此外，背景设计显得较为简易且重复性高，缺少丰富多样的细节处理。

元宝AI头像生成结果

字节豆包的头像创作功能位于发现页面的绘画板块，也采用了多风格生成的概念，采用的文生图而不是上传照片。记者输入“王家卫风格的头像”关键词后，生成了四幅作品。虽然这些作品尝试捕捉独特的文艺氛围，但是与腾讯元宝出现的问题类似，人物头像在细节生动性、表情多样性和背景复杂度上有待加强。而且，生成结果中出现了与关键词如“头发长度”“地点”不符的偏差。

豆包AI头像生成结果

最后，AI智能体测试。

腾讯元宝上线了AI智能体的功能，赋予角色设定，智能体可以是让AI扮演特定角色陪你聊天，也可以是擅长完成特定任务的专家。用户只要点击“创建智能体”，然后按照提示输入名称、角色设定、简介、开场白、预置指令，并选择音色、上传 logo 即可。或让AI自动生成智能体相关信息，并复刻自己的音色。

元宝AI智能体功能

豆包的智能体功能与文心言相似，也允许创建专属声音，同时在声音选择方面比元宝更加多元，包括自动推荐、女声、男声、角色和口音。

豆包AI智能体功能

总的来说，从效率场景工具来看，腾讯元宝擅长快速抓取信息、高效解析链接，在处理速度及多格式输入支持方面具有明显优势。更重要的是，通过深度融合公众号的海量数据资源，比GPT-4o能够提供时效性更强、更全面的搜索结果，称得上是一款搜索功能强大、易于使用的AI助手产品。

从日常生活场景工具来看，腾讯元宝在口语陪练、文档翻译方面的能力表现略优于字节豆包；共同点是两者的智能体功能十分相似，并且都在AI图像的细腻度和创新性方面有明显的提升空间。

大模型应用市场仍在快速发展期，伴随着国内外AI产品更多玩家“参战”，消费端市场将迎来更多智能化、高效率的产品和服务，未来大模型App竞争或将进入一个更加激烈的新阶段。

长江证券研报称，建议持续关注AI在广告、电商、影视、游戏和教育等各领域的商业化落地。

来源：财联社

标签：

猜你喜欢

最新文章