国产AI大模型面临挑战，能否成功“吸粉”？

来源：广东智造人才网 时间：2023-04-19 作者：智造人才网 浏览量：

自2022年stable diffusion模型的进步推动AIGC的快速发展后，年底，ChatGPT以“破圈者”的姿态，快速“吸粉”亿万，在全球范围内掀起了一股AI浪潮，也促使了众多海外巨头竞相发布属于自己的大模型。

而在国内，实际上很久之前，阿里、华为、腾讯等公司便早已有所布局：2019年，阿里开始布局大模型研发，去年9月发布“通义”大模型系列的众多大模型；华为在2021年基于昇腾AI与鹏城实验室联合发布了鹏程盘古大模型；而腾讯的思路也与阿里相似，发布了混元AI大模型；第二梯队的京东、网易、360、字节跳动等企业，也纷纷官宣了自己在AI大模型方面的布局。

而进入2023年以来，随着文心一言的发布，成为了中国第一个类ChatGPT产品后，各家的大模型也纷纷亮相，一时间，国内仿佛陷入了“大模型之战”中。

截至目前，百度文心大模型、华为盘古大模型、商汤大模型、阿里大模型都已亮相，而后还有许多大模型正在准备粉墨登场。

那么，在这匆匆发布的背后，是真的技术成熟，还是鱼龙混杂？各个大模型的实力又是怎样？

一把手挂帅掌舵

拨开唇枪舌剑、剑拔弩张的背后，是各大厂一把手紧锣密鼓的挂帅上阵的架势。

目前，百度方面由李彦宏亲自下场盯研发，一名百度人士对时代周报记者表示，“文心一言发布会前以天为单位汇报进度，节奏非常快。目前还是由CTO王海峰牵头，副总裁吴甜直接负责大模型。研发大模型的主力是自然语言处理技术部门，吴甜则在2010年就进入该部门。”

华为盘古公开负责人是华为云人工智能领域首席科学家田奇；阿里方面的大模型研究一直放在阿里云的达摩院，由阿里云智能 CTO、阿里云首席科学家周靖负责，阿里CEO张勇兼任阿里云CEO；腾讯混元助手项目则是由腾讯最高级（17 级）研究员、腾讯首席科学家张正友负责。

字节目前尚未发布自研大模型相关进度。但一名字节内部人士告诉时代周报记者“我们内部有一个娱乐性质的接口，不确定是自研发还是调用ChatGPT。涉及敏感问题比如内部架构，它都能回答得出来，且答案玄妙，结合了实际情况和民间流传版本。”

各大厂一把手挂帅涌向AI，不难看出大厂管理层对大模型的重视。

事实上，这场人工智能取代人类的大风蓄力已久，从1950年的图灵测试到今天，人工智能走了73年。百度、阿里、华为等公司最早在2019年开始研发自家大模型，如果从人工智能的投入开始计算，百度至少在2010年已经布局。

大风背后，是更为庞大的应用场景和应用需求。

4月11日，蓝色光标刚刚宣布获得微软云官方AI调用和训练许可，相隔一天就有消息传出。蓝色光标管理层决定无限期全面停用文案外包。

阿里方面也宣布，未来阿里大模型将会包揽营销图案、产品介绍、产品描述等工作。去年已经挑选部分商家使用该技术，原本预计花费数百万广告营销图案，可覆盖40%的工作量。

腾讯混元AI大模型则覆盖了自然语言处理、计算机视觉、多模态等基础模型，且应用于腾讯微信搜索、腾讯广告等自有业务场景。总裁刘炽平在年度财报会上曾表示，腾讯业务实际上聚焦于社交、通讯和游戏领域，这意味着大模型主要围绕用户间的互动，同时要求高质量的内容。

华为的盘古系列AI大模型包含NLP(自然语言处理)大模型、CV(机器视觉)大模型、科学计算大模型三大类型。CV大模型可应用于工业铁路等行业，NLP大模型应用于智能文档搜索等领域；科学计算大模型可以应用于气象预报、海浪预测等领域。其中，盘古CV大模型在铁路故障检测系中与传统检测方法相比，降低了人工成本，并且在故障样本检测中，识别率达到了99%以上。

可谓八仙过海，各显神通。大厂们看中的可能不仅是AI可以提高工作效率，取代部分比较机械的工作，更重要的是这在未来可以衍生出各种需求。

Al大模型带动算力需求增长

Al 大模型落地带动海量算力需求。从 ChatGPT、文心一言到 BloombergGPT、DeepSpeed Chat，近半年 AI 大模型持续推出，并在多场景广泛深入地应用，大模型是人工智能发展的必然趋势，AI 大模型时代已来临。算力是打造大模型生态的必备基础，AI 大模型通过存储更多的参数来增加模型的深度和宽度，从而提高模型的表现能力，因此 AI 大模型的参数呈现指数规模，CPT-3 的参数规模达 1750 亿，PaLM-E 的参数规模更是达到了 5620 亿。更多的参数意味着需要更多的计算资源，Al 大模型在训练和推理过程中需要消耗海量算力，AI 大模型开启了算力军备赛，这带动了算力需求的快速增长。

全球算力规模大幅增长，中国智能算力规模增速较快。2021 年全球计算设备算力总规模达到 615EFlops，同比增长 44%。据 IDC 与浪潮信息联合发布的《2022-2023 中国人工智能计算力发展评估报告》显示，2021 年中国智能算力规模达 155.2EFLOPS，预计到 2026 年将达到 1271.4EFLOPS。 2021 年中国通用算力规模达 47.7EFLOPS，预计到 2026 年将达到 111.3EFLOPS。2021-2026 年期间，预计中国智能算力规模年复合增长率达 52.3%，高于同期通用算力规模年复合增长率 18.5%。

算力在模型训练、推理速度和数据处理等方面发挥着重要作用。（1）模型训练：训练一个复杂的 AI 大模型需要大量的算力资源。在模型训练过程中，计算机需要不断地执行矩阵运算、优化算法等操作，以调整模型的参数，提高模型的准确性。较高的算力能够加速模型训练过程，从而加快 AI 技术的研究和发展。（2）推理速度：在模型训练完成后，AI 系统需要执行推理操作来处理新的数据。推理速度取决于计算机的算力和存储速度。高效的推理速度可以提高 AI 应用的响应速度和精度。（3）数据处理：AI 技术需要大量的数据进行训练和推理。计算机的算力和存储能力可以决定 AI 系统能够处理的数据量。如果计算机性能低下，AI 系统可能无法处理大规模的数据集，从而限制了其准确性和性能。

AI 渗透千行百业，算力在应用端同样发挥重要作用。为实现业务增长、保持强大竞争力、占据更大的市场份额，企业纷纷入局 AI 领域，各行各业的 AI 应用渗透度都呈不断加深的态势，应用场景也越来越广泛。据 IDC 预计，人工智能行业应用渗透度排名 TOP5 的行业依次为互联网、金融、政府、电信和制造，到 2023 年年底，中国 50%的制造业供应链环节将采用人工智能以提高效率。对于入局 AI 领域的企业来说，算力对于企业的发展非常重要，高效的计算资源可以提高产品研发效率和产品性能，支持企业日常运营。

（1）提高产品研发效率：企业需要不断研发新的 AI 应用和产品，以满足市场需求和提高企业竞争力。高效的算力资源可以加速 AI 技术的研究和开发，提高产品研发效率。（2）提高产品性能：AI 产品的性能直接取决于算力的大小和效率。算力越高，产品性能越好，可以提供更快速、更准确的服务，从而更好地满足用户的需求。（3）支持日常运营：AI 产品的日常运营过程中，用户交互带来的数据处理需求同样也需要大量的算力支持。

大模型背后的算力之争，谁占先机？

纵观国内发布的大模型，可以发现，相对于国外尖端的AI企业来说，国内还像是蹒跚学步的孩童，在这条道路上刚刚起步。

而在大模型发展的道路上，最重要的实际上还是最基础的算力资源的多少与怎样利用算力的能力，那么国内顶尖大模型企业在算力上的储备几何？

首先是近日同样发布了大模型的商汤科技，在前段时间的交流中，商汤科技内部的相关专家对公司的算力情况进行了交流。

国内能拿到最尖端的显卡是来自英伟达的A100 GPU，商汤科技在美国对华禁售之前，便提前囤积了上万张A100芯片，是国内算力资源比较充足的厂商。

除了来自英伟达的显卡之外，商汤还在采购国内的GPU，并且专家表示，早在去年以前，就已经在大装置中适配了许多寒武纪与海光信息的GPU卡，但在当下商汤仍旧面临着如何将国产GPU卡进行大模型训练适配的问题。

在商汤之外，华为的盘古大模型也引起了众人瞩目，但在算力资源方面，华为却略显窘迫。

因为受到美国的长期制裁，华为只得使用全部国产的加速芯片，而目前昇腾系列最先进大幅使用的型号昇腾910，也只有A100 70%的性能，从长期来看，将会制约大模型的发展。

而算力的短缺也直接影响了华为的发展策略，选择性地放弃了C端的发展，主攻B端工业大模型应用。

而说起算力资源储备最多的企业，莫过于云时代中独占鳌头的阿里。

但从阿里云上的角度来看，当前云上至少拥有上万片的A100 GPU，从整体来说，阿里云的算力资源至少能够达到10万片以上。如果继续抬眼，从整个集团的算力资源来说，将会是阿里云5倍的这样的一个量级。

而在英伟达的芯片之外，阿里云也拥有众多国产化的GPU芯片，而最近的项目中，便选择了寒武纪MLU370，其性能基本过关(A100的60-70%)，检测合格，厂商态度积极，愿意与阿里对接，并且已经用在了CV等小模型的训练和推理上。

在2023年，阿里云算力资源的增速也将达到30%-50%。

得益于云时代的绝对领先，让阿里拥有了远超其他企业的算力资源，也让其在AI时代里天生就占得了上风。

但是，动辄超千亿参数的大模型研发，并不能靠简单堆积GPU就能实现，这是囊括了底层算力、网络、存储、大数据、AI框架、AI模型等复杂技术的系统性工程，需要AI-云计算的全栈技术能力。

而阿里是全球少数在这几个领域都有深度布局、长久积累的科技公司之一，也是为数不多拥有超万亿参数大模型研发经验的机构。

在AI算法方面，阿里达摩院是国内最早启动大模型研究的机构之一，2019年便开始投入大模型研发，在中文大模型领域一直处于引领地位，2021年阿里先后发布国内首个超百亿参数的多模态大模型及语言大模型，此后还训练实现了全球首个10万亿参数AI模型。

在智能算力方面，阿里建成了国内最大规模的智算中心“飞天智算平台”，千卡并行效率达90%，自研网络架构可对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力。基于飞天智算的阿里云深度学习平台PAI，可将计算资源利用率提高3倍以上，AI训练效率提升11倍，推理效率提升6倍，覆盖全链路AI开发工具与大数据服务，深度支持了通义大模型的研发。

阿里云全栈AI技术体系，更是从机器学习平台、大模型即服务、产业智能三个层面，不断丰富AI服务，并通过全栈技术驱动千行百业的AI发展与应用。

可以说，阿里在云时代的成功，在一定程度上延续到了AI时代，与那些算力资源相对不足的竞争者来说，阿里在算力与技术底座方面，有着无可比拟的巨大优势。