嘉宾简介:
王金桥,中国科学院自动化所“紫东太初”大模型研究中心常务副主任、武汉人工智能研究院院长,主要从事多模态大模型、视频分析与检索、大规模目标识别等方面的研究,共发表包括IEEE国际权威期刊和顶级会议论文300余篇。
出品 | 搜狐科技
作者 | 张雅婷
运营编辑 | 吴瑜欣
随着概念热潮的退去,“红得发紫”的大模型产业正逐步进入冷静期,外界也更加关注行业的实际进展与商业化落地情况。
与年初相比,国产大模型做得怎么样了?与OpenAI的差距变小了吗?烧钱还要烧多久?在2023中国计算机大会(CNCC)正式开幕前,搜狐科技与中国科学院自动化所“紫东太初”大模型研究中心常务副主任、武汉人工智能研究院院长王金桥进行了深入对话。
“如果没有足够的GPU
训练不出特别领先的东西”
在大模型产业急速狂飙这大半年来,大模型产品层出不穷。最新数据显示,我国我国有至少130家公司研究大模型产品,其中通用大模型有78家。
王金桥认为,与年初ChatGPT横空出世引发的“恐慌”情绪相比,大家已经有了一定做大模型的经验,现在处于军备竞赛的阶段。
这场竞赛中,算力是核心的竞争力。王金桥认为,如果没有足够的GPU,难以训练出特别领先的东西。
而行业本身对算力的高要求,也导致了厂商面临成本高企的挑战。有报道称OpenAI每天要烧70亿美元,山姆奥特曼前不久还去找中东土豪融资。
据了解,GPT3训练一次的费用是460万美元,模型的参数量越大,训练的成本越高。据说GPT-4是8个2000多亿参数的模型,GPT-5大概是GPT-4的100倍。
并且,降本的拐点仍未显现。王金桥表示,大模型是万米赛跑,现在才跑了100米。现在还处于军备竞赛的阶段,模型越训越好,什么时候好到一个瓶颈现在还没有探索出来。天花板还没有摸到,所以这块的投入肯定是持续的。
“没有钱难以炼出这么大的模型。厂商还得承受失败,可能训练10次才能成功。大模型会比互联网行业更‘寡头’,底座模型不可能像现在那么多。”
在王金桥看来,中国大模型的发展会变成应用牵引,逐渐分很多类别。首先是底座模型,一般参数规模都在千亿以上,有涌现能力、举一反三能力,国内预计未来不会超过3~5家,因为算力的资源是有限的。然后是行业模型,比如面向医疗、教育、安全的行业专用模型,这一块国内发展可能会快一些。
对于最近讨论度比较高的端侧大模型概念,王金桥认为这是一个发展的趋势,因为可以适用于网络不好的情况,也更有利于隐私保护。
目前,厂商都将语音助手作为大模型在端侧的落地场景。在王金桥看来,大模型加持下,Siri不会再像以前那样“智障”。不过像几十亿参数的端侧大模型基本上没有涌现能力,只能做一些固定的问答,遇到脑筋急转弯可能就挂了。
紫东太初多模态能力领先
在上百个大模型中,中科院自动化所旗下的紫东太初算是布局时间较早的大模型之一。据了解,中科院大概是从2019年底开始布局,靠自监督来学习世界知识,而那时候GPT-3还没推出。
关于紫东太初名字的由来,王金桥介绍称这有两方面意义,一个是他们认为紫东太初叫紫气东来、混沌初开,代表着人工智能从专用迈向了通用,从感知智能迈向了认知智能;第二个方面是紫东与自动化所的谐音很像,代表着自动化所自身的意义。
今年6月,中国科学院自动化研究所发布“紫东太初”2.0全模态大模型,在此前语音、图像和文本三模态的基础上,加入了视频、信号、3D点云等模态数据,突破了认知增强的多模态关联等关键技术。
与国内主流大模型不同,紫东太初强调全栈国产化布局,算力主要由华为提供,而非英伟达。“2020年底,华为派了一个团队跟我们联合做攻关,做各种工具链的适配,基本上到2021年我们能把1000亿参数的模型跑通。”
在研发过程中,王金桥认为做大模型最大的困难在于这是一个系统性的工程。“一方面要收集各种各样的数据做清洗,另一方面要整一堆机器训练起来,模型这么大要拆成一块一块放到不同的显卡、不同的机器上。数据的切分,分布式计算,数据的IO.......”
此外,训练过程中还会经常遇到存储坏了、显卡坏了的问题,因为训练大模型几百台机器都要全负荷的运转,比如OpenAI基本上两小时断一次。
王金桥指出,目前紫东太初在语言能力上跟GPT有一定差距,但在多模态方面相对领先。“因为自动化所的团队比较系统,做图像、文本、语音、三维、信号的团队都非常丰富。”
在他看来,做紫东太初大模型的短期目标是把模型能力尽快持续地提升,另外把工具链平台做好,希望让大模型用户不需要太多AI知识就能自己生产模型。
“我们希望能够打造一个国产化的、多模态的底座大模型,来支撑国内各行各业的数字化升级。”
END