2023 年 10 月 30 日,昆仑万维宣布开源其百亿级大语言模型“天工”Skywork-13B 系列,同时配套开源了 600GB、150B Tokens 的超大高质量开源中文数据集。这一举动在业界颇受关注。
昆仑万维的“天工”Skywork-13B 系列包含两个模型:Skywork-13B-Base 和 Skywork-13B-Math,两者均具有 130 亿参数。在 CEVAL、GSM8K 等多个评测中,与同等规模的模型相比,这两个模型表现为突出,在中文能力运用方面,超越了其他开源模型,这依赖于其具有高质量中文语料数据集。
开源中文数据集有哪些?
Skywork-13B系列大模型将开源600GB、150B Tokens的高质量中文语料数据集Skypile/Chinese-Web-Text-150B,是目前最大的开源中文数据集之一。开发者可以用其集进行大模型预训练,定制自己的模型。有专家认为,这对于解决中文模型训练数据集缺乏问题,推动人工智能的协同创新发展,具有重要的作用。首先,开源中文数据集为研究者和开发者提供了丰富的数据资源,有助于推动中文自然语言处理技术的研究与发展。其次,数据集规模庞大,有利于训练出更具泛化能力的模型,从而在各种应用场景中取得更好的性能。
再次,通过开源数据集,企业和开发者可以更便捷地获取高质量数据,降低研发成本,加速人工智能技术在各行业的应用。最后,开源中文数据集有助于培育我国人工智能产业生态,中文数据集在金融科技、政务民生、国防安全等领域具有广泛应用价值,有助于满足国家重大战略需求,推动产业繁荣发展。
除昆仑万维的开源中文数据属于文本数据集,这类数据集主要包括大量的中文文本数据,可以用于训练和测试各种文本处理和分析模型。此外,还有哪些开源中文数据集比较受关注?这些数据集大致可以分为几类?
第一,语义向量模型训练数据集:这类数据集主要用于训练语义向量模型,如智源研究院发布的全球最大的中英文文本对训练数据集MTP,数据规模达3亿对6。这类数据集对于推动大模型场景应用和开源社区的发展,降低大模型商业化门槛,有着重要作用。
第二,问答对数据集:这类数据集主要包括大量的问答对数据,可以用于训练和测试问答系统。
第三,关系抽取数据集:这类数据集主要包括实体和关系的抽取数据,可以用于训练和测试关系抽取模型。
第四,命名实体识别数据集:这类数据集主要包括大量的中文命名实体识别数据,可以用于训练和测试命名实体识别模型。
如何选择开源中文数据集?
以上几类数据集在开源社区中发挥了重要作用,为中文AI领域的研究和发展提供了丰富的资源。如何选择开源中文数据集?用户可以从以下几个方面考虑:
第一,数据领域。根据项目需求,选择对应领域的数据集。例如,如果是针对自然语言处理的研究,可以选择文本分类、情感分析等相关的数据集;如果从事计算机视觉领域,可以选择图像识别、目标检测等数据集。
第二,数据规模。根据项目需求和计算资源,选择适当规模的数据集。较大的数据集通常能提供更丰富的信息,但同时也需要更多的计算资源进行训练。在计算资源有限的情况下,可以考虑使用较小规模的数据集。
第三,数据质量。检查数据集的质量和可靠性。开源数据集可能存在数据缺失、错误、不规范等情况,因此在使用前需要仔细评估数据质量。你可以参考其他用户的使用经验、查看数据集的评论和评分等方式来了解数据集的质量。
第四,数据来源。选择来自可靠来源的数据集。一些知名的开源数据集仓库,如 UCI 机器学习库、Kaggle、Amazon's AWS Datasets 等,提供了丰富的中文数据集。此外,还有一些专门收集中文数据集的网站,如火柴先生的博客等。
第五,数据授权。确保所选数据集符合你的使用需求。开源数据集通常遵循开源协议,如 CC 协议(Creative Commons),你需要了解协议的具体要求,确保在项目中的应用符合规定。
第六,数据集格式:检查数据集的格式是否适合你的项目。常见的数据集格式有 CSV、TXT、JSON、XML 等,你需要确保数据集格式与你的项目工具和算法兼容。
第七,相关工具和资源:了解该数据集是否有相应的工具和资源支持。例如,一些数据集可能已经有预处理工具、特征工程工具、模型训练脚本等,这些都能帮助你更快地应用数据集到项目中。
综合以上因素,根据自己的项目需求和计算资源,选择合适的开源中文数据集。在实际应用中,可能需要尝试多个数据集,以找到最适合自己项目的数据。