9月7日至9日,2023外滩大会将召开,首届科创人才招聘会为科技、互联网、金融等领域的企业和人才搭建了一个交流平台,而大模型成为此次大会的核心热词。

除了有至少5家金融大模型厂商亮相外,不少上海本土大模型厂商也将开放多个岗位招募,作为上海一家智能文本处理的科技企业,达观数据将参与此次提供千余岗位的招聘会,同时推出“曹植”大模型一体机。

未来大模型的竞争 是优质数据竞争

算力搭台,算法唱戏,数据是道具,这被认为是大模型的竞争三要素。近期,研究机构Epoch AI指出,对数据需求急剧增加,以至于可用于训练的高质量文本可能会在2026年耗尽。

“优质数据才是未来大模型的核心竞争力,但中文教科书只有英文的十分之一。”达观数据CEO陈运文认为,知识密度高的文档资料才是大模型训练的优质数据,包括教科书、论文、报告等,而微信聊天记录、淘宝聊天记录等数据的有效性弱。

优质回答的标准是什么_优秀回答_优质回答的100个经验

ChatGPT花了7年时间,在算法上实现突破,靠的是大规模优质数据驱动和小规模的人类知识驱动(相当于关键点拨)。有一种猜测是,今年底GPT-5会诞生,国产大模型该如何追赶?

除了算法突围和搭建国产算力底座外,陈运文认为,如今,国产优质数据还在挖掘初期。未来,谁掌握的优质数据多,谁能用得更好,谁就能突围。

但他同时也指出,目前散落在出版社、图书馆等机构的优质数据,难以界定版权归属于作者、出版社还是其他机构,这将成为大模型发展的一大难点。

“曹植”大模型一体机 开箱即用的大语言模型

一个合起来似行李箱大小,打开似手提电脑的大模型一体机,内置了“曹植”大模型和算力芯片,也支持第三方开源模型库,企业可以开箱即用,一键部署大模型。

达观数据用海量数据对“曹植”大模型进行预训练,生成具备基础语言能力和垂直应用能力的模型,再部署到企业进行精调。这就省去了企业自建机房、采购算力、系统搭建运维等步骤。

这位“曹植”最擅长的是文档智能审阅、智能知识管理、知识搜索与问答、文档智能写作、智能推荐等,具备AI训练、推理、长文档写作、机器翻译、语义分析审核、知识问答、text-to-SQL等场景功能应用。

“曹植”大模型一体机可以搭载五种GPU服务器,匹配英伟达A100、华为昇腾910、华为昇腾310、燧原-云燧T20加速卡,同时扩展寒武纪、沐曦等国内主流AI加速卡和GPU。

“百模大战”是一场硬核科技赛,对国产大模型和应用企业来说,自主可控安全都是最重要的要求。

“曹植”大模型一体机支持x86、ARM及GPU等异构算力统一管理和调度,保证大模型和信息数据安全,满足金融、政府、运营商及更多传统企业的国产化需求。同时,达观数据还对信创生态的CPU、服务器及操作系统进行全面适配,形成信创一体机交付模式,支持数据库、批量文档等多类型私域数据对接,并对用户数据和敏感信息提供安全性保护。


本文由转载于互联网,如有侵权请联系删除!