一文读懂如何选择开源大模型的中文数据集

2023 年 10 月 30 日，昆仑万维宣布开源其百亿级大语言模型“天工”Skywork-13B 系列，同时配套开源了 600GB、150B Tokens 的超大高质量开源中文数据集。这一举动在业界颇受关注。

昆仑万维的“天工”Skywork-13B 系列包含两个模型：Skywork-13B-Base 和 Skywork-13B-Math，两者均具有 130 亿参数。在 CEVAL、GSM8K 等多个评测中，与同等规模的模型相比，这两个模型表现为突出，在中文能力运用方面，超越了其他开源模型，这依赖于其具有高质量中文语料数据集。

开源中文数据集有哪些？

Skywork-13B系列大模型将开源600GB、150B Tokens的高质量中文语料数据集Skypile/Chinese-Web-Text-150B，是目前最大的开源中文数据集之一。开发者可以用其集进行大模型预训练，定制自己的模型。有专家认为，这对于解决中文模型训练数据集缺乏问题，推动人工智能的协同创新发展，具有重要的作用。首先，开源中文数据集为研究者和开发者提供了丰富的数据资源，有助于推动中文自然语言处理技术的研究与发展。其次，数据集规模庞大，有利于训练出更具泛化能力的模型，从而在各种应用场景中取得更好的性能。

再次，通过开源数据集，企业和开发者可以更便捷地获取高质量数据，降低研发成本，加速人工智能技术在各行业的应用。最后，开源中文数据集有助于培育我国人工智能产业生态，中文数据集在金融科技、政务民生、国防安全等领域具有广泛应用价值，有助于满足国家重大战略需求，推动产业繁荣发展。

除昆仑万维的开源中文数据属于文本数据集，这类数据集主要包括大量的中文文本数据，可以用于训练和测试各种文本处理和分析模型。此外，还有哪些开源中文数据集比较受关注？这些数据集大致可以分为几类？

第一，语义向量模型训练数据集：这类数据集主要用于训练语义向量模型，如智源研究院发布的全球最大的中英文文本对训练数据集MTP，数据规模达3亿对6。这类数据集对于推动大模型场景应用和开源社区的发展，降低大模型商业化门槛，有着重要作用。

第二，问答对数据集：这类数据集主要包括大量的问答对数据，可以用于训练和测试问答系统。

第三，关系抽取数据集：这类数据集主要包括实体和关系的抽取数据，可以用于训练和测试关系抽取模型。

第四，命名实体识别数据集：这类数据集主要包括大量的中文命名实体识别数据，可以用于训练和测试命名实体识别模型。

如何选择开源中文数据集？

以上几类数据集在开源社区中发挥了重要作用，为中文AI领域的研究和发展提供了丰富的资源。如何选择开源中文数据集？用户可以从以下几个方面考虑：

第一，数据领域。根据项目需求，选择对应领域的数据集。例如，如果是针对自然语言处理的研究，可以选择文本分类、情感分析等相关的数据集；如果从事计算机视觉领域，可以选择图像识别、目标检测等数据集。

第二，数据规模。根据项目需求和计算资源，选择适当规模的数据集。较大的数据集通常能提供更丰富的信息，但同时也需要更多的计算资源进行训练。在计算资源有限的情况下，可以考虑使用较小规模的数据集。

第三，数据质量。检查数据集的质量和可靠性。开源数据集可能存在数据缺失、错误、不规范等情况，因此在使用前需要仔细评估数据质量。你可以参考其他用户的使用经验、查看数据集的评论和评分等方式来了解数据集的质量。

第四，数据来源。选择来自可靠来源的数据集。一些知名的开源数据集仓库，如 UCI 机器学习库、Kaggle、Amazon's AWS Datasets 等，提供了丰富的中文数据集。此外，还有一些专门收集中文数据集的网站，如火柴先生的博客等。

第五，数据授权。确保所选数据集符合你的使用需求。开源数据集通常遵循开源协议，如 CC 协议（Creative Commons），你需要了解协议的具体要求，确保在项目中的应用符合规定。

第六，数据集格式：检查数据集的格式是否适合你的项目。常见的数据集格式有 CSV、TXT、JSON、XML 等，你需要确保数据集格式与你的项目工具和算法兼容。

第七，相关工具和资源：了解该数据集是否有相应的工具和资源支持。例如，一些数据集可能已经有预处理工具、特征工程工具、模型训练脚本等，这些都能帮助你更快地应用数据集到项目中。

综合以上因素，根据自己的项目需求和计算资源，选择合适的开源中文数据集。在实际应用中，可能需要尝试多个数据集，以找到最适合自己项目的数据。

本文由转载于互联网，如有侵权请联系删除！

爱皮屋

一文读懂如何选择开源大模型的中文数据集

相关文章