大模型是万米赛跑丨中国科学院人工智能院院长王金桥

案例成功经验_案例经验分享_大数据优质经验案例

嘉宾简介：

王金桥，中国科学院自动化所“紫东太初”大模型研究中心常务副主任、武汉人工智能研究院院长，主要从事多模态大模型、视频分析与检索、大规模目标识别等方面的研究，共发表包括IEEE国际权威期刊和顶级会议论文300余篇。

出品 | 搜狐科技

作者 | 张雅婷

运营编辑 | 吴瑜欣

随着概念热潮的退去，“红得发紫”的大模型产业正逐步进入冷静期，外界也更加关注行业的实际进展与商业化落地情况。

与年初相比，国产大模型做得怎么样了？与OpenAI的差距变小了吗？烧钱还要烧多久？在2023中国计算机大会(CNCC)正式开幕前，搜狐科技与中国科学院自动化所“紫东太初”大模型研究中心常务副主任、武汉人工智能研究院院长王金桥进行了深入对话。

“如果没有足够的GPU

训练不出特别领先的东西”

在大模型产业急速狂飙这大半年来，大模型产品层出不穷。最新数据显示，我国我国有至少130家公司研究大模型产品，其中通用大模型有78家。

王金桥认为，与年初ChatGPT横空出世引发的“恐慌”情绪相比，大家已经有了一定做大模型的经验，现在处于军备竞赛的阶段。

这场竞赛中，算力是核心的竞争力。王金桥认为，如果没有足够的GPU，难以训练出特别领先的东西。

而行业本身对算力的高要求，也导致了厂商面临成本高企的挑战。有报道称OpenAI每天要烧70亿美元，山姆奥特曼前不久还去找中东土豪融资。

据了解，GPT3训练一次的费用是460万美元，模型的参数量越大，训练的成本越高。据说GPT-4是8个2000多亿参数的模型，GPT-5大概是GPT-4的100倍。

并且，降本的拐点仍未显现。王金桥表示，大模型是万米赛跑，现在才跑了100米。现在还处于军备竞赛的阶段，模型越训越好，什么时候好到一个瓶颈现在还没有探索出来。天花板还没有摸到，所以这块的投入肯定是持续的。

“没有钱难以炼出这么大的模型。厂商还得承受失败，可能训练10次才能成功。大模型会比互联网行业更‘寡头’，底座模型不可能像现在那么多。”

在王金桥看来，中国大模型的发展会变成应用牵引，逐渐分很多类别。首先是底座模型，一般参数规模都在千亿以上，有涌现能力、举一反三能力，国内预计未来不会超过3~5家，因为算力的资源是有限的。然后是行业模型，比如面向医疗、教育、安全的行业专用模型，这一块国内发展可能会快一些。

对于最近讨论度比较高的端侧大模型概念，王金桥认为这是一个发展的趋势，因为可以适用于网络不好的情况，也更有利于隐私保护。

目前，厂商都将语音助手作为大模型在端侧的落地场景。在王金桥看来，大模型加持下，Siri不会再像以前那样“智障”。不过像几十亿参数的端侧大模型基本上没有涌现能力，只能做一些固定的问答，遇到脑筋急转弯可能就挂了。

紫东太初多模态能力领先

在上百个大模型中，中科院自动化所旗下的紫东太初算是布局时间较早的大模型之一。据了解，中科院大概是从2019年底开始布局，靠自监督来学习世界知识，而那时候GPT-3还没推出。

关于紫东太初名字的由来，王金桥介绍称这有两方面意义，一个是他们认为紫东太初叫紫气东来、混沌初开，代表着人工智能从专用迈向了通用，从感知智能迈向了认知智能；第二个方面是紫东与自动化所的谐音很像，代表着自动化所自身的意义。

今年6月，中国科学院自动化研究所发布“紫东太初”2.0全模态大模型，在此前语音、图像和文本三模态的基础上，加入了视频、信号、3D点云等模态数据，突破了认知增强的多模态关联等关键技术。

与国内主流大模型不同，紫东太初强调全栈国产化布局，算力主要由华为提供，而非英伟达。“2020年底，华为派了一个团队跟我们联合做攻关，做各种工具链的适配，基本上到2021年我们能把1000亿参数的模型跑通。”

在研发过程中，王金桥认为做大模型最大的困难在于这是一个系统性的工程。“一方面要收集各种各样的数据做清洗，另一方面要整一堆机器训练起来，模型这么大要拆成一块一块放到不同的显卡、不同的机器上。数据的切分，分布式计算，数据的IO.......”

此外，训练过程中还会经常遇到存储坏了、显卡坏了的问题，因为训练大模型几百台机器都要全负荷的运转，比如OpenAI基本上两小时断一次。

王金桥指出，目前紫东太初在语言能力上跟GPT有一定差距，但在多模态方面相对领先。“因为自动化所的团队比较系统，做图像、文本、语音、三维、信号的团队都非常丰富。”

在他看来，做紫东太初大模型的短期目标是把模型能力尽快持续地提升，另外把工具链平台做好，希望让大模型用户不需要太多AI知识就能自己生产模型。

“我们希望能够打造一个国产化的、多模态的底座大模型，来支撑国内各行各业的数字化升级。”

END

案例成功经验_案例经验分享_大数据优质经验案例

本文由转载于互联网，如有侵权请联系删除！

爱皮屋