这几天的科技圈实在是太火爆了。
先是8月29日,华为最新旗舰Mate 60 Pro低调上架开售,截至当日13:05,所有配色均已售罄。
接着是8月31日,首批通过备案的大模型——百度文心一言等,宣布今日起面向全社会开放服务。
这两条新闻看似是两个不同赛道的事儿,但其本质有某种高度的关联性。
我这次简单粗暴一把,直接上三个观点:
第一个,从没有“准生证”到直接“上户口”,中国的生成式AI产业可以放心发展了
ChatGPT刚问世没多久,就带来了巨大的争议。
大家可能还记得,面对ChatGPT的快速发展,钢铁侠马斯克带头签署千人联名信,紧急呼吁立即暂停或放缓研究。
事实上,一个谁也搞不清楚其利与弊的新事物,过快的市场化和商品化,也未必是什么好事。
当年,居里夫人在研究镭的放射性期间,曾因为被大量辐射而导致部分皮肤坏死脱落,但是最后又长出新皮,这是一个当时人尽皆知的事实。
其实,从今天的角度理解,这就是人体有一定的自我修复能力而已,居里夫人最终还是死于白血病。
但这个“掉皮再长皮”的事实被爆出后,打开了一部分商人谋取利益的潘多拉之盒,他们借此宣传,镭具有可以帮助人返老还童,焕发新生的神奇功效。
于是,一时间市场上所有的消费品纷纷增加“镭”成分,包括牙膏、香烟、食物、甚至是内衣,而且一火就是20年。
举这个例子是想说明,越是跨越式的、惊天动地的发明和发现,就越要建立与之相适应的监管制度。
但是,一项全新的技术发明,需要花多久去理解、评估然后制定策略,是很难也很耗时的。
然而事情的进展令人欣喜,仅仅几个月时间,生成式AI大模型,就从连“准生证”都没有,一步迈到了直接上了“户口”。
所以,我说生成式AI产业可以”放心了“,就指的是——鼓励生成式人工智能技术在各行业、各领域的创新应用,生成积极健康、向上向善的优质内容,探索优化应用场景,构建应用生态体系等等,已经形成社会共识并落实,这是极大的行业利好。
第二个,担心在AI领域被“卡脖子”?可以放心了
为什么我说大模型“上户口”这事儿和华为mate60PRO上市有类似之处呢?
其实,因为这两件事的本质,都是基于中国的现实条件,动用中国人的智慧,去解决了中国企业遇到的特定难题。
中国大模型的发展充满挑战。
大模型和大模型之间的竞争,到了最后,其实不是原理上的竞争,而是高质量训练数据集的竞争,以及高质量调优策略的竞争。
高质量的中文数据集实在紧缺,很多公司训练模型时只能直接购买英文标注数据集或者直接采集开源的国外语料库。但这些毕竟不是中文语料,很难尽得中文的神韵。
绝大多数有追求的中文大模型,都采取了对整个中文互联网用爬虫搜集训练数据,然后再反复清洗后用于训练的策略。
但若论在全网爬数据,谁又能干得过已经专精此道20多年的百度?百度拥有中国最好的数据集资源,且几乎没有之一。
但是(关键是但是),百度的私有数据集对于训练一个超一流的、国际上绝对领先位置的大模型,仍然是不够的。
这,才是戏肉所在!也就是和华为哪里来的麒麟芯片一样的无尽追问——百度的大模型,是如何在数据集相较国外不具优势,仍然保持全球前沿位置的?
文心一言的强,简单说就是,要有数据,更有最强的学习训练这些数据的技术(算法)。
如果要举些百度独家技术的亮点,那就是知识增强、检索增强等。
在大模型的终极优化中,有监督精调、人类反馈的强化学习和提示语(Prompt)是所有大语言模型都会采用的通用技术,而知识增强、检索增强和对话增强则是百度特有的技术。
而这三个技术就拉开了第一名和第二名之间的距离。
说到知识增强,就需要先解释一下 “知识图谱”。
知识图谱是一种以图形化的方式表示和存储知识的工具。它类似于一个巨大的家族树或地图。
假设你有一个巨大的图书馆,里面有很多很多的书。每本书都包含了很多信息,比如故事情节、人物角色、历史背景等等。这些书的总和及它们之间的关联,就是这个图书馆的知识图谱。
但是,百度这家图书馆的特殊之处在于,它在每本书的结尾处,都列了一个书单,提示你可以通过阅读哪几本书来加强对该书的理解和记忆。
比如,你会读到金庸小说的女主角,都非常美丽,但你并不知道为什么他总要创造这样的人设。
但是, 你翻到金庸作品的后面,附上一个书名,请你读“关于夏梦的书”。
读了以后,你就会明白,金庸先生的梦中情人,是那个时代最美丽的女明星——夏梦,但是金庸却始终没有追求到她。
这样你再读金庸的书的时候,你可能就突然更清晰的借助夏梦的形象、性格等特点,去理解为什么小说中的女主角是那么的完美、独特。
这个比喻中的“附加书单”就可以类比理解知识增强技术。通过引入额外的上下文信息(就像“书单”中的额外故事情节),文心一言可以加强自身理解和记忆的深度。
而检索增强则是一种特殊的知识增强技术,它通过进一步增加与检索相关的信息来增强检索结果的质量。
因此,知识增强和检索增强是密切相关的,都是为了提高知识的质量和检索的准确性。
这是百度在人工智能方面独创性的技术,也是其在该领域中的核心竞争力之一。
从原理上说,这和我们说的检索增强、知识增强都是共通的。
由此,在各种知识的支持下,文心一言如同站在巨人的肩膀上,学得又好又快,模型效率和效果均大幅提升。
所以,文心一言的一骑绝尘,和华为手机的重返5G一样,都是在某种先天条件受限的情况下,通过不断的反馈式创新,最终实现的自主跨越。
第三个观点,担心用不上AI的企业和用户群体,可以放心了
虽然首批拿到“户口”的生成式大模型不多,但业内统计此类企业有近百家。
但随着文心一言等头部企业完全开放,大部分中腰部的通用大模型玩家会撤离。
从设立第一个和AI相关的职位到今天,百度在AI研发上投入1400多亿,如果你算一下,几乎相当于这十多年百度把其它业务上赚到的钱都投入了新的技术研发。
所以百度才能是全球为数不多进行AI全栈布局的人工智能公司,从AI芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,各个层面都有领先业界的关键自研技术。百度因此也成为国内目前唯一拥有芯片层、框架层、模型层和应用层这四层结构俱全的AI企业。
随着生成式AI的开放,这个行业会迅速集中化,只有极少数具备以上三层或四层架构能力的企业的大模型能生存下来。
有足够强的基础模型做支撑的生态,就可以专攻垂类模型。因为,模型本身并不直接产生价值,基于基础大模型开发出来的应用才是模型存在的意义。
例如,医疗领域需要使用医疗大模型来诊断疾病和治疗方案,金融领域需要风控大模型来进行风险评估和投资决策,教育领域需要教学大模型来提供个性化的教学服务等。这些领域都需要开发专用大模型,以解决特定的问题。
因此,开发各种垂类也将会成为新的机会和时代红利;另外,AI原生应用不是简单改良移动互联网时代的APP,所以很多应用需要再造,这也带来了巨大的市场空间。
历史会记住2023年的8月,中国科技追赶全球顶尖的步伐,在这个时点上踏下了一个深深的脚印。