项目经验(案例一)

项目时间:2014-06 - 2014-12

项目名称:以风险为导向的审计软件

项目描述:

项目介绍

以风险为导向的审计软件,是借鉴国外审计软件的设计理念,融入了辩证法的观念,开创了国年首家产品成果,得到中注协及多家会计事务所的一致好评,也是唯一一家与用用友审计软件竞争的产品,主要界面是审计流程框架开发(包括流程作业步骤,问题回答,关键操作,审计程序,审计底稿列示)

主要功能菜单:项目管理(增加,删除,修改,备份,恢复),系统配置,手机拍照,财务数据(数据导入,数据初始化,财务数据维护,总账预览,核算总账明细账预览),审计调整(负值重分类调整,期初账表调整,期末账表调整,期初审计调整,期末审计调整,调整分录导出,调整分录导入),底稿管理(底稿信息维护,底稿签名,底稿导入,底稿导出,底稿归档),在线帮助等模块

我的职责

开发坏境win7,vs2008,Mysql,使用技术基于Mfc框架开发

项目经验(案例二)

项目时间:2016-04 - 2016-12

项目名称:中国人寿大数据平台建设 | 项目工具:rehat平台,集群规模50台,数据量28T

项目描述:

项目介绍

此项目是把多个业务系统的数据统一加工处理,然后再服务于国寿各个平台,项目大概分为下面几个部分,数据以sqoop或者其他ETL工具从增量库生产Gz文件,然后通过调度平台把数据放入到Hbase中,然后通过oozie调用Mapreduce,spark批处理,HiveSql,sqoop等定时执行任务对数据进行加工,并把处理好的数据放到Hbase表中或Hive内部表中,通过WebService接口执行ImpalaSql把平台数据提供给各个子系统。

我的职责

1.负责指定业务模块的Mapreduce编写

2.mapreduce运行效率优化,HbaseAPI编程接口优化,

3.平台运行过程中基本问题的处理,调度平台任务效率优化,

4.Spark离线处理业务逻辑指标计算,

5.spark-streaming 从kafka中读取流数据处理加工并放回hbase中等

项目经验(案例三)

项目时间:2016-06 - 2017-05

项目名称:运营日志分析系统 | 项目工具:Linux、hadoop-2.6.0-cdh5.5.2、sqoop-1.4.6-cdh3u5、hive-1.2.1-cdh3u5、zookeeper-3.4.5-cdh3u5、 Hbase-1.0.0-cdh3u5、mysql、spark-1.3.0-cdh5.5.2、Jdk1.7.0等。

项目描述:

项目介绍

我们公司拥有多款游戏,每天会产生大量的数据,但是这些数据是分散在不同机器中,管理这些数据非常困难。为了保证数据存储的高效、安全和完整,我们需要一个统一的大数据平台来存储和管理数据;其次,我们需要针对每天生产的数据进行分析和统计,例如DAU、DNU、留存、流失、付费喜好或是渠道排查等等;第三,我们需要一个灵活可配置的集群环境,根据实时的业务需求,改变集群的硬件环境。因此我们选择了Hadoop架构来搭建自己的大数据平台。

我们收集到的大量数据,有两方面的信息:一是事件信息,记录发生过的事件:用户A在某个时刻登录了一次;用户B在另一个时刻进行了一次购买,等等。这种事件信息占了系统所存储信息的大部分,而且绝大部分是不断新增的数据。除事件信息外,还有用户的属性信息,比如用户A首次充值的时间为2013年1月1日,等等。

我们通过分布式hadoop集群处理logstash获取的玩家游戏行为信息,使用mapreduce对数据进行过滤清洗后重新存储到HDFS上,使用hive和spark对数据进行分析,从数据反应的各项趋势了解游戏的运行现状,并把分析结果导入到mysql和redis进行统一管理。

我的职责

1.通过logstash抽取日志服务器上的日志文件和缓存数据库的数据导入到HDFS。

2.通过mapreduce对数据做一个MR清洗,清洗出有效字段。

3.将清洗后的数据导入hive进行分析,利用sqoop将hive分析统计后的结果导出到mysql中保存。

4.通过spark对事件日志进行统计分析,利用jdbc把分析结果写入到mysql。

5.使用HBase进行处理后数据的存储。

6.对mapreduce,hive等进行调优,对Hql语句进行编写调优。

5.日常数据的管理及维护。

项目经验(案例四)

项目时间:2015-12 - 2016-06

项目名称:优购平台用户行为分析

项目描述:

项目介绍

该项目为优购平台用户行为分析项目,该项目旨在通过Logstash获取用户海量购物浏览消费数据,经kafka中转,再获取到Spark中对数据进行分析处理;分析统计页面跳转率、每日成交量、用户来源每日用户访问来源排名、每日新增用户数、每日商品销量Top10、实时成交额、实时黑名单等指标;再将结果数据用图表展示出来,为企业科学决策提供依据;图表可以直观展示和分析购物平台运营状况,可根据海量用户行为做合适的营销策略调整,提升活跃用户数,促进优购物网站发展。

我的职责

1.搭建Hadoop,Spark,Hive,Zookeeper集群

2.数据的清洗和简单处理

3.分析处理每日用户访问来源排名、每日新增用户数、页面跳转率、每日商品销量Top10离线指标,实时成交额、实时黑名单等指标

4.hql语句的优化


本文由转载于互联网,如有侵权请联系删除!