↑↑↑关注后"星标"简说Python
人人都可以简单入门Python、爬虫、数据分析
简说Python推荐来源:天池大数据科研平台
大家好,我是老表~
阿里云天池作为国内“AI众智“首选平台,在组织大数据竞赛、免费开放AI学习内容、提供开发者讨论问答的技术社区的基础上,这几年还开放了数千计公开数据集,通过一站式创建、搜索、使用和打榜,已成为国内开发者找寻真实业务场景数据的首选阵地。
# 阿里数据集地址
https://tianchi.aliyun.com/dataset
接下来给大家介绍一下,这个优质的数据集聚集地。
NO:1多功能,多模块——既专业又开放,全程陪伴你的AI探索之路。
通过长期与合作伙伴的数据资源共创、开放官方比赛数据和邀请开发者一同分享有价值、高质量的开源数据,天池数据集平台能够为开发者们在研发AI项目的过程中提供大量真实可靠的数据依据。行业多,范围广,上千个开源数据供你选择~
NO:2阿里系独家数据开源,满足你的一切好奇。
作为阿里系唯一对外开放数据分享平台,天池数据集拥有淘系独家的电商商品数据和用户行为数据,除此之外,还包括优酷,饿了么,天池大赛,业内专家发布的垂直领域权威数据集等。满足你的一切需求~另外,开发者们可以在数据集页面提交模型,系统自动测评出分,长期参与数据学习赛,即验证了开发者自身能力,又可以与其他开发者进行互动。
NO:3同成长,共进步,也需要你的一臂之力~
为了满足机器学习和人工智能飞速发展的需要,天池数据集鼓励更多的开发者来拥抱开源。2021年伊始,我们也将开放出关于各行各业里百余官方发布数据集和数千由开发者自发分享的优质公共数据集,除此以外,还将通过互动活动增强数据科学家间的联系沟通,不断发展成为国内第一数据开源社区,为AI发展贡献出自己的力量。
最后分享来自天池真实用户的使用心得
现在机器学习深度学习已是非常热门的领域,但平时大家总会遇到找不到相关数据的问题,很大程度上限制了研发积极性和落地性。其实现在很多平台都有开放出来一些数据集能够给大家免费下载,国外的一般会去kaggle还有一些学术论坛慢慢翻,国内的也有阿里云天池,Colab,AI studio等平台。
像是有时候做比较严肃性的项目时,我一般会去天池找开放出来的官方数据集,这些数据集一般都有开源license或者授权信息,非常可靠!今天我为大家整理了一下我2020年一整年做项目时找到的一些有用的数据集链接。
以下,我们为大家准备了天池平台在2020年中盘点出来的50多个热门精选数据集,开发者们可以根据自己的研发需求来下载使用。
在此,我们也呼吁各行各业的开发者们参与到我们的数据集征集活动中来~ 欢迎大家在线分享数据集,让我们在AI探索之路上结伴而行!
已经给大家准备好了数据集PDF文件,大家可以在公众号「简说Python」后台回复:数据集 获取。
这里也给大家准备好了数据集下载和使用的方法,大家可以观看下面视频查看。
「电商」
淘宝直播商品识别数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=75730
阿里巴巴用户行为数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=81505
面向商品的视频描述生成数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=75986
电商服装产品视频标题数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=75173
速卖通搜索系统数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=74690
淘宝用户行为数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=72423
甜品店铺用户评分数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=4366
智能出行平台车辆订单数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=39384
「医疗」
脊椎疾病病理数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=79463
医学影像和标题的语篇照应数据集MedICaT
https://tianchi.aliyun.com/dataset/dataDetail?dataId=86602
息肉医学影像数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=84385
中风后病灶解剖追踪数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82972
颅骨医学图像数据集用于监测颅内出血
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82967
皮肤病图像数据集用于诊断黑素瘤
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82823
COVID-19 mRNA疫苗数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82790
OSIC肺部CT扫描影像数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82703
自然神经影像数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82631
医学影像数据集MedMNIST
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82187
生物医学实体标准化数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=81720
生物医学概念标准化数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=81565
社交媒体医学实体链接语料数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=81554
PubMedQA生物医学研究问答数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=81523
中文BLUE数据集(生物医学文本挖掘语料库)
https://tianchi.aliyun.com/dataset/dataDetail?dataId=81513
中文医学知识图谱数据集CMeKG
https://tianchi.aliyun.com/dataset/dataDetail?dataId=81506
医学对话数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=79671
中文医学问答数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=79670
平安医学技术疾病问答迁移学习数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=79665
临床术语标准化数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=79664
医学实体识别和属性抽取EMR数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=79663
疫情相似句对诊断数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=76751
2019-nCoV新型冠状病毒基因测序数据
https://tianchi.aliyun.com/dataset/dataDetail?dataId=51202
2020新冠肺炎全国各省数据
https://tianchi.aliyun.com/dataset/dataDetail?dataId=78902
「IT通讯」
阿里巴巴快递送达检测系统Beacon数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=76359
大型硬盘故障预测数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=70251
「交通」
谷歌地标数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=86611
「自然语言处理」
语义分割数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82714
谷歌MC4数据集(可翻译101种语言)
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82412
「工业」
布匹瑕疵智能识别数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=79336
「农业」
遥感检测数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=74952
「科学」
太阳耀斑预测数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=74780
太阳黑子类型智能分类数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=74779
「计算机视觉」
视盲OCR图片文案顺序理解数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=72926
「家装」
家居成品房3D图像数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=65347
「公共」
2012美联邦总统选举数据
https://tianchi.aliyun.com/dataset/dataDetail?dataId=2581
共享单车租用数据
https://tianchi.aliyun.com/dataset/dataDetail?dataId=54174
教育系统学生分班预测
https://tianchi.aliyun.com/dataset/dataDetail?dataId=47307
员工离职预测数据
https://tianchi.aliyun.com/dataset/dataDetail?dataId=25860
「娱乐」
豆瓣电影评分数据
https://tianchi.aliyun.com/dataset/dataDetail?dataId=9603
「金融」
银行营销活动效果预测
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45944
信贷用户逾期预测数据
https://tianchi.aliyun.com/dataset/dataDetail?dataId=29157
金融业股票数据
https://tianchi.aliyun.com/dataset/dataDetail?dataId=46522
二手车交易数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=62977
更多优质数据集,大家可以复制下方链接或者点击阅读原文直接访问阿里云天池数据集平台查看下载,也可以后台回复:数据集 获取推荐数据集的下载链接。
https://tianchi.aliyun.com/dataset/
【最新投稿福利】
1>投稿规则:Java、前端、Python等方向的技术文章;内容不少于500字;可以是实战,也可以是欢快程序员类型,也可以是知识点科普;需要是首次发布在微信公众号平台,以原创发布,会注明作者及相关作者简介。
2>福利:按文章质量每1000字(不含代码)激励50-100元不等,投稿被采纳4次及以上者,可以另外获得赠书和简说编程专栏勋章,投稿越多,激励越多。
扫码,备注:投稿
长按扫码关注,一起学Python
学习更多:
整理了我开始分享学习笔记到现在超过250篇优质文章,涵盖数据分析、爬虫、机器学习等方面,别再说不知道该从哪开始,实战哪里找了
点赞+在看+转发