来咨询的小伙伴一般分为两类:
前者不必说,有锅有米只是缺把火;后者就是巧妇难为无米之炊。
实际上,不论是对于转行的同学,还是无工作经验、无实习经验的在校生,有一个拿得出手的项目经验,都能为简历增色不少。
没有实例,简历中只写擅长SQL和PBI、熟练Python,连自己都说服不了。
继上一期
我又在Kaggle上挑选了8个非常适合新人的项目,大家可以根据自己的实际情况,选择适合自己的来练手。
一起来回顾一下数据分析的步骤。
一、数据分析的步骤
如果从爬虫开始,要做成一个完备的项目,结合前文说的数据分析五步法,一般需要9个步骤:
1、选择行业:你想了解什么行业?你意向公司是什么行业?比如电商、金融、游戏、支付、社交等。
2、选择角度:你想了解什么数据?想分析什么和什么的关系?比如想了解用户生命周期、用户各环节转化漏斗、公司经营数据、用户逾期坏账等。
3、爬取数据:根据第2步,确定在爬取前需要哪些字段,在实际爬取过程中又能拿到哪些字段。
4、定义问题:拿到数据后,列出问题12345,明确问题,好做分析,结论落地。
5、清洗数据:原始数据可能会很脏(重复、缺失、无意义等数据及字段),都需要进行清洗。
6、分析工具:利用什么工具来分析?SQL、Python、SPSS等各自扮演什么功能?
7、探索数据:数据探索过程中遇到的技术和业务问题?如何解决的(自行百度还是查阅文献)?收获了什么?知识体系是否更加完备?
8、落地结论:针对问题12345,逐点回答,采用“1数字2结论3原因”的思路,比如:本月销售额500万,环比增长20%,销售额在3月发生显著提升,原因是公司新上了一款产品,同时原产品的销售额基本未发生明显改变。
9、产出报告:将1-8步的分析展示在公众号、CSDN、知乎、简书、人人都是产品经理上,输出PDF或PPT。
最后效果就是:简历上能贴链接,投递简历时能发PDF,面试时能带文档,美滋滋~
如果拥有现成数据集,就可以省去爬虫这一步,但定义的问题和选取的角度都会受到现有数据集的影响。
二、Kaggle介绍
本文的后半部分,将继上次AWS后,对Kaggle进行简单的介绍,同时推荐几个适合新人的数据集。kaggle.com/competitions简要介绍:知名的Kaggle竞赛网站,包含多种用途的数据集,众多候选人简历中项目来源地,截止到目前有3W+项目。
零项目经验的同学建议从Compete-Get Started级别开始。
网上也有很多优秀的Kaggle数据集的分析项目,如果不知道如何入手,可以查看Kernel部分别人共享的Tutorials,或者自行Google,从借鉴别人的优秀经验开始。
三、适合新人的Kaggle项目
1、Hotel booking demand酒店预订需求
kaggle.com/jessemostipak/hotel-booking-demand
该数据集包含城市酒店和度假酒店的预订信息,包括预订时间、停留时间,成人/儿童/婴儿人数以及可用停车位数量等信息。
适用场景:社会科学、旅行、酒店、用户行为,不具有明显的行业标识,可进行常规用户行为分析。
数据量:32列共12W数据量。
可以定义的问题:
1)基本情况:城市酒店和假日酒店预订需求和入住率比较;
2)用户行为:提前预订时长、入住时长、预订间隔、餐食预订情况;
3)一年中最佳预订酒店时间;
4)利用Logistic预测酒店预订。
2、Video Game Sales电子游戏销售分析
kaggle.com/gregorut/videogamesales
包含游戏名称、类型、发行时间、发布者以及在全球各地的销售额数据。
适用场景:电商、游戏销售,常规销售数据。
数据量:11列共1.66W数据量。
以定义的问题:
1)电子游戏市场分析:受欢迎的游戏、类型、发布平台、发行人等;
2)预测每年电子游戏销售额。
3)可视化应用:如何完整清晰地展示这个销售故事。
3、US Accidents 美国交通事故分析(2016-2019)
kaggle.com/sobhanmoosavi/us-accidents
覆盖全美49州的全国性交通事故数据集,时间跨度:2016.02-2019.12,包括事故严重程度、事故开始和结束时间、事故地点、天气、温度、湿度等数据。
适用场景:无明显行业标识,通用。数据量:49列共300W数据量。
可以定义的问题:
1)发生事故最多的州,什么时候容易发生事故;
2)影响事故严重程度的因素;
3)预测事故发生的地点;
4)可视化应用:讲述4年间美国发生事故的总体情况
4、其他可用数据集:
1)New York City Airbnb OpenData纽约市Airbnb开放数据(喜闻乐见的房价预测数据集)
kaggle.com/dgomonov/new-york-city-airbnb-open-data
用途:房价预测和可视化展示
2)The Movies Dataset电影数据集分析
kaggle.com/rounakbanik/the-movies-dataset
用途:多表关联、评分排序、收入分析、推荐引擎
3)Telco Customer Churn电信客户流失问题
kaggle.com/blastchar/telco-customer-churn
用途:流失客户分析、客户终生价值LTV
4)Lending Club Loan Data贷款数据分析
kaggle.com/wendykan/lending-club-loan-data
用途:金融小贷、逾期分析、逾期预测
5)Bitcoin Historical Data比特币数据分析
kaggle.com/mczielinski/bitcoin-historical-data
用途:时间戳、数据清洗、价格预测
文中8个项目数据源,嫌下载麻烦的话,也可以私信,回复“ Kaggle8大项目”领取~