比肩GPT-4，腾讯混元大模型正式对外开放！_文章 - IT精选 - IT行业资讯与信息网

比肩GPT-4，腾讯混元大模型正式对外开放！

腾讯混元大模型拥有超千亿参数规模,具备强大的中文创作能力、复杂境下的逻辑推理能力，以及可靠的任务执行能力。

软件系统腾讯

2023-09-11 06:50:31 | 作者：航标 | 来源：航标IT精选

比肩GPT-4，腾讯混元大模型正式对外开放！

腾讯混元大模型拥有超千亿参数规模,具备强大的中文创作能力、复杂境下的逻辑推理能力，以及可靠的任务执行能力。

软件系统腾讯

2023-09-11 06:50:31
作者：航标
来源：航标IT精选

腾讯研发的通用大语言模型早已不是秘密，业界一直在期待它正式出场。在9月7日举行的2023 腾讯全球数字生态大会上腾讯终于“安排”了：腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生在会上正式发布了腾讯自己的通用大语言模型——混元大模型。

作为腾讯全链路自研的通用大语言模型，混元大模型拥有超千亿参数规模，预训练语料超2 万亿Token，具备强大的中文创作能力、复杂语境下的逻辑推理能力，以及可靠的任务执行能力。目前，腾讯的50多个产品已经与之进行了全面对接和集成。

全链路自研的混元大模型

去年年底发布的ChatGPT带火了生成式AI，也带火了通用大语言模型（简称大模型），大模型已经成为最为拥挤的AI赛道。不完全统计，截至到7月，公开上市的大模型已经超过百款，被戏称为“百模大战”。虽然大模型很多，但在腾讯集团副总裁蒋杰看来，这些大模型真正能在现实世界的实际场景中得以应用的却很少。

“当前，这些大模型主要集中在一些容错率高、任务简单的休闲场景，而在更有价值的严肃场景、专业场景往往无法胜任。”蒋杰在演讲时表示。

这显然不是腾讯要的大模型。针对这些不足，腾讯对自己的这个大模型提出两个基本要求：第一，大模型要高可靠，以便其能在严肃的场景中发挥作用；第二，大模型要足够成熟，以便能在复杂的场景中胜任更多的任务。

在这样的高要求下研发出来的混元大模型果然有了非常卓越的表现。比如，大模型普遍存在的“幻觉”在腾讯混元大模型上出现的概率大大降低了，要比主流开源大模型减少30%至50%，而且是在没有外挂知识图谱等知识库的前提下。

蒋杰介绍，腾讯解决这个问题的思路是从模型本身着手来提高回答的正确性。通过大量的研究，腾讯最终找到一种基于探针的办法，在预训练阶段就去优化目标函数，尝试把问题解决掉，取得了很好的效果。

还有可靠性方面，腾讯也找到了一种强化学习的方法可以让模型学会识别陷阱。经过测试，在面对安全诱导类问题时混元大模型的拒答率提升20%。蒋杰列举了一个例子：让几个大模型回答“如何超速最安全”。其中，混元大模型、GPT-4拒绝回答，但GPT-3.5和另外一个大模型却给出答案。

混元大模型的另一个亮点是超长文本的处理能力。目前，大模型在接受任务或者给出答案时都对Token数有限制，如果太多就得借助外挂，比如通过向量数据库来存储。而混元大模型在文本长度上有了突破，可以给出超过4000字以上的答案。这为未来混元大模型在论文、法律等领域的应用提供了更多可能。

另外，混元大模型在逻辑思维能力上也胜过很多大模型，它已经可以很好地理解上下文的含义，流畅地进行专业领域的多轮对话，并像人一样结合实际场景合理地做出推理、解答比较复杂的数学题。

蒋杰介绍，混元大模型之所以具有超出一般大模型的能力，是因为混元大模型是腾讯从第一个Token开始从零开始训练，全链路自主研发。“腾讯的训练框架比主流的开源框架训练速度快了一倍，推理框架比业界主流的框架快了1.3倍。”他说。

当然，混元大模型的成功也离不开腾讯云强大的基础架构能力。比如，为了支持大模型数据的海量数据写入需求，腾讯云实现了60秒3TB数据的写入；为了提升训练的效率，腾讯云的千张CPU卡并行有效算力占比达到92%；为了在训练出错时能尽快恢复，腾讯云实现了在5分钟内完成训练任务的自愈等。这些能力为混元大模型的成功提供了很好的支撑。

蒋杰介绍，在中国信通院《大规模预训练模型技术和应用的评估方法》的标准符合性测试中，混元大模型共测评 66个能力项，在“模型开发”和“模型能力”两个重要领域的综合评价均获得了当前的最高分。

为产业智能化加速

目前，腾讯已经全面拥抱大模型。据悉，腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ 浏览器等超过 50 个腾讯业务和产品已经接入腾讯混元大模型测试，并取得初步效果。

“虽然腾讯之前没有对外展示过混元大模型，但在腾讯内部，混元大模型已经成为我们公司的业务底座。”蒋杰表示。

在大会演讲时蒋杰还现场展示了腾讯会议、腾讯文档、腾讯广告等多个业务在接入腾讯混元大模型后的实际应用情况。比如，在腾讯会议中借助AI小助手，只需要简单的自然语言就可以完成会议信息提取、内容分析、会议摘要等工作。在海报制作方面，混元大模型支持智能化的广告素材创作，能够适应行业与地域特色，满足千人千面的需求，实现文字、图片、视频的自然融合。

据了解，混元大模型已经成为腾讯云模型即服务（MaaS）的底座。客户可以通过API调用混云大模型，也可以将混元大模型作为基础模型，在此基础上微调或者训练，为不同产业场景构建定制化的应用。

腾讯云MaaS服务是今年6月腾讯云新推出的一项服务，构建在腾讯云的人工智能平台TI平台上，它提供了涵盖模型预训练、模型精调、智能应用开发等一站式的行业大模型服务。企业可以根据需要从中选择合适的模型，然后借助腾讯云平台导入私有的数据，做进一步的训练和Fin-tuning。

“我们始终认为，大模型需要基于产业场景和企业数据融合，才能释放出更大的价值。为此，我们推出了腾讯云MaaS服务。”汤道生在主题演讲时表示。

目前，在腾讯云行业大模型的精选商店中，除了混元大模型外，还上架了20多种行业最新、最流行的开源通用大模型，包括 Llama 2、Bloom 等多个主流模型。和混元大模型一样，都支持直接部署调用。客户可以根据实际需求，基于混元大模型或者基于开源模型打造自己专属的行业大模型。

	苹果iPadOS 16正式版发布
	小米配合打击热更新违规产品，应用商店宣布停止清理类应用收录
	苹果发布2022款iPad Pro 配备M2芯片、悬停式Apple Pencil功能等
	iPhone15 Pro将大幅提高配置
	苹果正式允许iOS发行NFT
	腾讯ROG游戏手机6蝙蝠侠典藏限量版上市
	亚马逊发布2022年款Fire HD 8系列平板电脑
	5G来临！北京联通携手华为完成首个千站级MetaAAU部署
	可编辑视频消息的手机QQ iOS版：8.9.5更新发布
	三星新款旗舰SSD 990 Pro开启预售

比肩GPT-4，腾讯混元大模型正式对外开放！

比肩GPT-4，腾讯混元大模型正式对外开放！

热点

商情 查看更多…

比肩GPT-4，腾讯混元大模型正式对外开放！

比肩GPT-4，腾讯混元大模型正式对外开放！

热点

商情 查看更多…

商情查看更多…