智能体刷屏的背后,是 AI 应用拐点的来临?AICon 北京站议程重磅公布,50+ 硬核分享不容错过 了解详情
写点什么

腾讯大模型 APP 真实测评!七家国产大模型“battle”,元宝顶得住吗?

  • 2024-05-31
    北京
  • 本文字数:2286 字

    阅读完需:约 8 分钟

大小:1.16M时长:06:46
腾讯大模型APP真实测评!七家国产大模型“battle”,元宝顶得住吗?

作者 | 华卫

 

“腾讯做大模型不争一时之先。”

 

5 月 30 日,腾讯基于混元大模型的 App“腾讯元宝”正式上线,苹果及安卓应用商店均可下载。腾讯云副总裁、腾讯混元大模型负责人刘煜宏表示:“过去的一年,我们持续推进腾讯混元大模型的能力爬坡,希望腾讯元宝最终服务于每个普通人的生活。”

 

相比此前测试阶段的混元小程序版本,面向工作效率场景,腾讯元宝提供了 AI 搜索、AI 总结、AI 写作等核心能力;面向日常生活场景,元宝提供了多个特色 AI 应用,并新增了创建个人智能体等玩法。

 

那么,这些功能的实际表现到底如何呢?

 

拿到腾讯元宝的体验资格后,我们马上逐一试用了它的亮点功能,并特别针对文生图和 AI 写作方面,通过同题多解的方式,将其与多个国内知名的大模型进行了对比和评估。

 

创作效果:有提升潜力

 

首先,来直击一下元宝与各大模型“battle”的实况。

 

  • 文生图

 

在这一功能上,我们选择了百度文心一格、阿里通义万相、讯飞星火、美图 MiracleVision 4.0 、字节跳动豆包五个模型对比效果,对他们的理解和内容生成能力逐一进行了测评。另外,考虑到涉及的这些大模型都源自国产,我们特意选取了中国文言文作为输入素材,以此来考察它们在处理本国语言古典文本上的能力。

 

从生成图中所涵盖各实体元素的完整程度和整体画面的协调性来说,元宝的表现是排在前列的。

 

提示词为:林中有寿鹿仙狐,树上有灵禽玄鹤。瑶草奇花不谢,青松翠柏长春。仙桃常结果,修竹每留云。一条涧壑藤萝密,四面原堤草色新。

 

生成结果如下:

(从左到右分别是元宝、豆包、讯飞星火、美图 MiracleVision 4.0、文心一格的输出结果)

 


(通义万相的输出结果)

 

  • AI 写作

 

据介绍,在 AI 写作方面,元宝不仅支持多轮问答,还能够将对话的内容整理成报告,按照要求进行结构化输出。这一功能上,我们将其与文心一言、通义千问、Kimi、豆包四个模型对比效果。

 

以测评案例来看,相较而言,腾讯元宝的生成内容展现出了包含起承转合的完整情节,故事框架也已具备雏形,但语句间的逻辑衔接略显生硬、人物描写也较为生涩。

 

提示词:唐僧师徒四人穿越到现代后的第一天,会发生什么故事?写一个 300 字左右的小故事。

 

元宝的生成结果如下:

 

可以小夸一下的是,元宝留意到了唐僧师徒四人需要吃素的人物细节,在人设和故事设定方面理解得还不错。



再看豆包的生成结果,其语句结构明显更为成熟了,各个段落环节之间衔接得也比较自然。

 


到文心一言这里,无论语句组织还是文字逻辑,都展现出不错的效果。

 


而 Kimi 和通义千问的生成结果,开始呈现出更显著的变化。除语句构造外,整个故事的人物设定、叙事角度、情节架构都更加立体,并都在结尾处给读者构建了一个引人入胜的虚构世界。

 


(Kimi 的输出结果)

 


(通义千问的输出结果)

 

效率、娱乐方面:表现不俗

 

当前,大模型仍在快速发展期,从模型能力到应用落地都存在较大“时延”。数据显示,当前人们使用大模型相关产品时,有超过 65%的需求,集中在工作/学习效率场景,但相关的 AI 产品解决方案尚不成熟。针对效率场景的三大核心需求:信息获取、处理和生产,腾讯元宝均进行了产品化探索。

 

  • AI 搜索

 

AI 搜索方面,腾讯元宝接入了微信搜一搜、搜狗搜索等搜索引擎,并通过 AI 搜索增强,提升时新类和知识类问题效果,比传统搜索更有效率;同时,内容覆盖微信公众号等腾讯生态内容及互联网权威信源,答案准确性更高;此外,元宝还会提供所引用的参考资料,并给出相关推荐,方便快速溯源及延伸阅读。

 

我们输入一个近日引发热议的美国 AI 禁令问题:如何看待中国人被限制在美从事 AI 相关工作?

生成结果如下:

 

  • AI 总结

 

AI 总结方面,无论是希望快速了解一本书或是一个新领域,还是处理复杂繁冗的报告、文献,元宝都能帮上忙。据介绍,元宝可上传最多 10 个 PDF、word、txt 等多种格式的文档,并能够一次性解析多个微信公众号链接、网址,支持 256K 的原生窗口上下文。

 

例如,我们输入:请总结一下 AI 前线公众号这一年来的内容输出亮点。

 

生成结果如下:

 

 

除了满足效率需要,腾讯元宝在日常生活场景,也提供了丰富的应用及玩法,包括百变 AI 头像、口语陪练、超能翻译官等,均免费开放。同时,元宝也支持用户根据个性化需求,快速创建个人专属的智能体,赋予角色设定,或让 AI 自动生成智能体相关信息,并复刻自己的音色。结合腾讯生态场景,元宝还将于近期推出腾讯新闻哥、《庆余年》主题等特色智能体。

 

视频、3D 生成功能后续上线

 

腾讯元宝产品能力升级的背后,是混元底层模型的持续迭代。

 

自 2023 年 9 月首次亮相以来,腾讯混元大模型的参数规模已从千亿升级至万亿,预训练语料从万亿升级至 7 万亿 tokens,并率先升级为多专家模型结构(MoE),整体性能相比 Dense 版本提升超 50%。除不断提升通用大模型能力外,腾讯混元也支持角色扮演、FunctionCall、代码生成等领域能力,数理能力提升 50 %。

 

在多模态方面,腾讯混元文生图大模型是业内首个中文原生 DiT 架构模型,采用了 Sora、Stable Diffusion 3 等行业顶尖产品的同款架构,生成效果相比上代提升超 20%。目前,该模型已经全面开源,在 Github 获得 2000+star,相关能力也全面融入腾讯元宝。

 

此外,腾讯混元大模型在视频、3D 生成等方面也持续探索,目前已经支持 16s 视频生成,单图仅需 30 秒即可生成 3D 模型,相关能力也将于后续在元宝中上线。

 

目前,腾讯内部有超 600 个业务及场景都已经接入腾讯混元,腾讯广告、微信读书、腾讯会议、腾讯文档、腾讯客服等,都已经基于混元实现了智能化升级。据了解,为了满足开发者及企业客户对于通用模型能力的需求,腾讯混元大模型已通过腾讯云对外开放,可通过 API 调用,也可以作为基底模型,为不同产业场景构建专属应用。

2024-05-31 17:5310912

评论

发布
暂无评论
发现更多内容

鸿蒙网络编程系列41-仓颉版HttpRequest模拟登录示例

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】

申公豹

人工智能

Topaz Gigapixel AI破解版下载 Topaz Gigapixel AI安装包分享

Rose

Tampermonkey for Mac(油猴Safari浏览器插件)功能介绍

Rose

能操控电脑的 Computer Use 究竟是什么?万能胶水、旧世界操作员,还是无所不在的智能?| 播客《编码人声》

声网

总计 30 万奖金,Spring AI Alibaba 应用框架挑战赛开赛

阿里巴巴云原生

阿里云 开源 云原生

App Cleaner & Uninstaller Pro for Mac(苹果应用程序清理卸载软件)

Rose

CAD迷你看图 Mac破解版 v4.4.5免激活版

Rose

全新HUAWEI MatePad 11.5发布:搭载华为教育中心,做更好的学习神器

最新动态

ARB链挖矿DApp系统开发模式定制

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

指标平台在企业数据管理中的定位及其如何与BI、数仓的协同工作?

Aloudata

数据分析 指标体系 指标平台 指标开发

老好人无法成为好的管理者

老张

团队管理 技术管理 绩效管理

指标预警归因分析,及时发现业务问题,快速定位问题根因

Aloudata

数据分析 指标平台 指标开发

AI 原生时代,更要上云:百度智能云云原生创新实践

百度Geek说

BOE(京东方)全新一代发光器件赋能iQOO 13 全面引领柔性显示行业性能新高度

爱极客侠

网易伏羲:智能体驱动 未来可期 | 《天堂硅谷》杂志报道

网易伏羲

AI 网易伏羲 AI 人工智能

PDF如何一键转为PPT?10个好用的格式转换工具汇总!

职场工具箱

效率 效率工具 PPT 办公软件 AI生成PPT

跨平台的键鼠共享工具 synergy mac 中文激活版

Rose

Alfred 5中文安装包 Mac 上的效率瑰宝!

Rose

MindNode,一键开启思维整理新模式!

Rose

AI校园新星直通车再启动:Zilliz助您踏上开源舞台

Zilliz

AI 开源社区 Milvus Zilliz

OmniGraffle Pro:绘图巅峰,设计卓越!

Rose

ElevenLabs Voice Design:文本生成个性化语音;科学家用 AI 解读猪叫声背后情绪和压力丨RTE 开发者日报

声网

Serverless + AI 让应用开发更简单

阿里巴巴云原生

阿里云 Serverless 云原生

如何在汽车中构建一个时序数据库 (TSDB)?

Greptime 格睿科技

边缘计算 时序数据库 新能源汽车

浅谈指标平台的价值:赋能企业决策、加速业务响应与提升技术效率

Aloudata

数据仓库 数据分析 指标平台

百度智能云携手面壁智能,深化大模型端云协同合作

极客天地

Sound Control for Mac 强大的音量控制软件

Rose

One Switch for Mac(系统功能快速开关工具) v1.33.1中文版

Rose

最大程度降低“去O”的迁移风险

NineData

数据库 复制 迁移 同步 NineData

腾讯大模型APP真实测评!七家国产大模型“battle”,元宝顶得住吗?_生成式 AI_华卫_InfoQ精选文章