出品|爱数据LoveData(ID:cntongji)
嘉宾|Joe
采访|夏天
编辑|小数
8、在数据仓库建模中,您觉得哪一块比较难或者操作难度较大?
做建模比较困难的部分,其实最近几年倒是遇到一个很麻烦的问题,这个也比较有代表性吧。
我们之前的传统的银行、通信,它的数据平台上基于传统的关系数据平台,叫RDBMS,架构也是基于RDBMS这种关系型数据。但是由于这几年大数据平台纷纷出来,而且这种MPP劣势也显示出来了,而且特别多。以及国产化,他也在做这种大数据平台,大数平台架构和我们传统的RDBMS数据平台架构完全不一样。这就涉及到一个问题,作为一个企业,我可能已经有一个基于RDBMS数仓了,我想升级为大数据平台,比如说MPP架构,或者说hadoop架构。
RDBMS:关系数据库管理系统(Relational Database Management System:RDBMS)是指包括相互联系的逻辑组织和存取这些数据的一套程序 (数据库管理系统软件)。关系数据库管理系统就是管理关系数据库,并将数据逻辑组织的系统。
MPP框架:一种列式存储格式,比较有代表性的是HBASE 和Teradata两种列式存储平台。
hadoop架构: 是一个开源的、基于Java的编程框架,设计用于跨电脑集群来处理大数据。Hadoop架构管理多个节点之间的数据传输,确保即使有一个节点坏掉了,系统仍然保有适当的功能。
这里面涉及到一个从技术层面转型,还有一个就是业务逻辑的转型。之前的整个业务逻辑架构设计放到新的大数据平台,这中间有很多的问题要去处理、数据保留机制,业务逻辑处理逻辑,更多是这种转换有些是要取舍、要调整,而有一些可能就根本就实现不了,就是原来传统的一些逻辑在大数据平台根本就不支持,我们要怎么处理。这是我这几年工作中,一定会面临到这个问题,就是中间这种迁移过程中,要的落地的一个解决方案怎么办?就是业务模型的转换,数据逻辑的转换,这个非常麻烦。
只有你对两种架构都有充分了解,同时你对这个业务模型也很了解的情况下,你再积累一定的项目经验,比如说我要去对某一个公司企业的不同模型进行升级或者叫进行迁移,这里我说一下我自己的经验,其实一部分企业的运气,比如说某家企业要做这个迁移,他如果刚好能找到这么一个有经验的项目经理,中间可能不顺利,但也会最终能迁迁移成功
但是多数是找不到一个这种懂多种平台架构,又有一两个完整迁移项目的当经理去负责这个项目,那更多的这种情况下,他更多的是做取舍,只能迁移一部分功能,也就是老的数据仓库平台继续运行,我们有一些功能,因为迁移不了,但是又是非常核心的功能,能抛弃啊,那我就留在原有的数仓平台继续运行,那么这就给后期的运维人员留下很大的两块麻烦。
9、胜任数仓建模工程师这份工作应该具备哪些能力?
作为数据仓库建模工程师,对国内任何一个公司的项目和他的对于这种人以及岗位的要求都是比较高的。
第一,要有基本的数据处理的能力。数据分析、语言能力、工具使用,一些基本都要掌握。我觉得如果去面试的,我都不去问这个,因为我认为你去应聘数据仓库建模工程师这个职位,就应该具备数据处理的能力。
第二,一定要在某个行业或者某几个行业承担过相应建模的工作,如果做过某一个行业模型建模,那么要对这个行业的模型非常了解,以及业务逻辑的熟悉程度。比如刚才说通信行业,移动联通、电信,你要清楚它都是埃森哲的标准三户模型,包括现在虽然优化到是5.0,但是他的模型也没有大的变化。
如果说你是通信行业的建模工程师,就应该非常清楚他的三户模型到底是什么。他的那么巨大的模型,几百页的说明,他都围绕着三户模型去开展出来的,衍生出来的很多的主题。第二块就是你对这个业务模型、业务支持的能力。
第三,就是对于个模型想去落地的能力,可选的主流的产品,你要有一些了解。再有就是像我刚才说我建模工程师向上对接以及根据需求的向下对接。
这两个对接工作如果你来应聘,你承担过相关的工作,那这个时候我就想问一下,你去和需求工程师对接,和数据开发工程师对接的时候,都有哪些可行的方案,这些都是你的经验积累,很多项目、文档是是有平移的。
像我做项目的时候,我自己就会生成很多的文档,留给其他人去用。那我也会问你,你在文档处理这一块,自己的一些心得体会。因为建模工程师会生成大量的文档。交流工作基于文档,文档是可视化很强的东西,这个要求非常高。
因为文档这个东西如果说只有你读得懂,那别的工程师看不懂,这样的建模工程师其实也不合格,因为这说明他能吸收,他没有办法输出。
基本上这三点如果能满足,其实就可以去承担一个项目组的数据建模工程师的工作。
从事数据仓库建模是因为我之前有一定的业务基础,所以我做我去切到模型这块没有那么难。对于从事数据仓库建设各个流程工作的人员中,承担需求收集分析岗位的工程师,同时具有一定的数据处理能力的话,你去转换为一个辅助建模工程师,比较容易,门槛比较低一些,相对来说也可能对于他个人来讲也比较容易。
10、对于转行转岗想找一个大数据开发相关的工作的同学,老师有什么建议?
通过一些对比数据可以看到大数据岗位的薪资待遇比5年前降了一个档,但是他的薪资依然不低,所以不管你是在二三线城市,还是在北上广,大数据岗位的发展和前途还是不做的。
从个人该要准备的内容来说,想切入到大数据平台,那么我觉得对于语言这一块还是要准备,比如说主流的语言掌握些程度。
同时对于一些主流的大数据平台,能够比较熟练的部署,经常做一些实验。比如有一些企业他就有一些大数据平台的环境。这个时候尽量去熟悉操作一下国内的国外的大数据平台的主流和环境。
因为不管是做开发还是做架构,如果不了解这个平台或者,根本就应聘不了这份工作,所以一定要去做这种知识的积累,包括语言、产品的积累。
你如果只熟悉某一款或者某两款制度都不一定行,你要对于国内国外比较主流的几款平台都要了解,都要接触到,这些部署有了这样的一些基础之后,你再结合你自己的一些项目经验,去应聘一个大数据平台开发工程师的工作的时候才比较有底气。
这是说有底气了,但是如果一些项目他对于大数据开发工程师要求得更高,比如说你要有一定的业务逻辑,通过通信、金融或者保险行业迁移过来的这种大数据仓库,那你还有相应的业务知识也要做一些储备,集合基础支持,这样去应聘成功的可能性更高一点。
11、如何看待PMP培训认证和敏捷管理体系这类认证证书的价值,对于提升个人能力方面,老师有什么建议吗?
我自己其实对认证本身不是特别喜欢,因为太功利。提到说这些认证,比如说PMP或者说是敏捷管理的认证,或者说是一些其他的语言类的这种认证我也考过。
说实话从能力的角度上讲,对于你个人薪资的提升的角度上讲,不会有很大帮助。不要觉得好像我上月考了一个什么什么证,我下个月薪资就涨了,我觉得这个想法太幼稚,不可能在你的能力上或者说你工作上体现出来。
那你考这些认证对你的有什么意义呢?薪资上不会有,短期内不会有太大的帮助。但可能会有一个个人学习能力上的提升,我觉得是这样。你如果想考一个认证,或者说是oracle的这个OCP或者OCM 这种认证的话,他是对于你能力的一个提升,因为最终你通过考试,肯定要准备一个月左右,那你之前肯定要准备两三个月的这种能力,估计要等大概3个月,基本上3个月考完。说实话这种不是太难,你只要认真的去准备,基本三个月可以搞定。
PMP: PMP指的是项目管理专业人士资格认证。它是由美国项目管理协会(Project Management Institute(简称PMI))发起的,严格评估项目管理人员知识技能是否具有高品质的资格认证考试。
OCP:Oracle数据库认证专家(Oracle Certified Professional)是Oracle公司的Oracle数据库DBA(Database Administrator 数据库 管理员 )认证课程,通过这个考试,说明此人可以管理大型数据库, 或者能够开发可以部署到整个企业的强大应用。
OCM:Oracle Certified Master(OCM) 大师认证资质是Oracle认证的最高级别。此认证是对技术、知识和操作技能的最高级别的认可。Oracle认证大师是解决最困难的技术难题和最复杂的系统故障的最佳Oracle专家人选。
这个认证考试主要是让你对于管理的流程有一个非常清晰的了解,有一天如果你真的去承担一个这样角色的时候,你心里非常清楚,这个项目几个人 ,每个人标准怎么样,也很清楚他对你未来来的帮助。
认证也就是对于你去学习的过程中有一个促进。因为你想通过他认真去证明你了解了他的整个体系和架构。这个我觉得这是我考了这么几个认证的一个心理体会。因为我其实考完第一个认证,我就知道这种认证对于我曾经想去通过他去提升薪资待遇的这种想法或者晋升的想法,没有什么实质上帮助。
当然如果你是在这种体制内的企业国企,那可能就不一样了。国企更看重的是你要有一个资质能力。私企的话相反只看能力,而你的认证这个东西在私企更多的一个敲门砖,他不一定能敲得开,因此可以把考认证类的证书的经历看做自己知识能力储备的方式。
12、在数字转型过程中,数据从业者价值发生了如何的转变?
形容我以前的工作更多的是藏在下面就做一下数据处理,包括DBA。如果你不来找我,或者说应用没问题,没有人会知道后来有一个人在这边工作,后来好像从数据的底层慢慢往上走。
包括现在提到这个数据化转型、电商数字赋能,以前我们做数据处理这块很被动,我们就是提供一些数据,数据提交出来到底有什么价值不知道,因为我也不使用数据,所以我也不关心这个。
但是现在我们更多的就是这种注数据的价值,对于业务上数据的意义,数据对于企业未来规模、未来决策的这种影响等等,这一系列的东西都是和数据有关。
如果说每一个具体的数据开发工程师,可能他关心不到这个能力。但是如果你作为一个产品经理,尤其是数据产品,或者说数仓项目的负责人,不仅仅说是生产工具,你甚至要通过数据要产生数字化的价值,这量化你这个价值到底体现在哪些地方,即每一年的给业务贡献的这种价值比是多少?
我们通过这一系列的前沿的指标去衡量以前的这种同等的一些数据平台的价值。因为以前我们这种岗位更多的是叫消耗价值。企业产生的创造了利润,不断投入,好像没有产出。现在我们更多的是我们投入当前要继续,但是也要给产出具体的价值。
比如在今年你的数据部门产生相应的价值,而且和相应的业务挂钩,任何部门要认可你的价值,对他的业务有所促进。比如他今年的业务增长了3.5%,1.2%,可能是由我们数据部门直接或者间接产生的。我们以前提供数据的时候,更多的就是提交给你,或者你跟我说你要什么我就给你。但现在我们更多的是我想给你提供什么能够促进你对业务的一些正向的发展。包括给领导的一个决策,更好的方便领导按照数据进行决策,这都是我们处于数据部门进行这种数字化的转变角度方向。
13、和五六年前对比,数据仓库建模工程师工作内容有挺大的转变,主要原因是什么,老师可以分享一下你的看法吗?
这个我觉得有几个因素吧,我自己的亲身体会。一个是产品线的多样化。像刚才我也有提到过,在十年前吧,我们建设数据仓库其实可取平台或者产品非常有限,几乎就是被两家或者三家所垄断,他们做的很成熟,确实做的很好。
那么我们也就不存在选型的问题了,因为你选的就是一家或者2家,而且这两家很像,那也就无所谓了。但是现在由于很多因素,第一国产化的原因,导致我们国产化有很多的产品,应运而生了很多新的产品。
这些产品由于踩在西方企业的这种肩膀上,它的发展很快,确实功能也很强大。再加上这种政治上国产化的要求、信息化和安全化的要求。我们企业尤其是国内的本土企业,他必须要进行这种转型,就会保持他原有的这种稳定的、固定的这种产品进行要进行切割。哪些选择国产化,哪些还要继续使用西方的一些产品。那么这是一个因素,会导致他产品线细分,产品线上的细分势必会导致工作量的强大,那么原来一个人高度维护一个品牌,其实这都没有问题,但是现在一个平台恐怕就变成了两个品牌,就是说是两个平台加一个工具。
那这种他一个人就捉襟见肘,就希望两个人来维护不同的平台空间的交互工作。慢慢的这种模式其实在各个软件公司的被接受,也就慢慢的适应这种模式,岗位上就是细分出来了。
一旦岗位细分出来了,其实他会一定热到学校,尤其是毕业生。他对于这种岗位的选择,这种相互的影响,他就知道企业其实是分不同的岗位,还有要应聘到具体的某一个,企业也是把你放到一个岗位的某一个环节上去。这种相互的作用会导致仓库模型工程师细分出来需求、模型、产品等岗位。