大家好,今年30岁了。
在程序员圈子内,至少在中国国内的it圈,30岁已经不“年轻”了。但熟悉我的朋友,应该知道我对技术一直保有热忱,尤其是运用技术解决实际的问题的时候,给程序员带来的成就感非常大。有时候浮躁的行业现状,让你深思自己的技术生涯还会有多长。可回头看看,作为一线的程序员,感受技术改变时代,真的有一种深处历史浪潮中的参与感 和 存在感。
我记得我刚入行前的10-11年,那时以hadoop为代表的大数据技术,在业内还是比较新鲜的名词。除开很早在big data对标google而有积累的baidu,甚至在AT两家,在彼时对大数据hadoop的积累也不能说有多深入。那时,我正在读研,各位老师们也是争先恐后的蹭大数据这个题材,和而今大家一窝蜂的deep-learning一摸一样。 在17年的今天,hadoop俨然已经成为了大数据的实际工业标准,只要是个中等规模的互联网公司,都已经开始享受hadoop大数据技术栈给业务带来的价值。可以说这套技术已经成熟了。
但是即便如此,在我的了解中,很多业界公司在大数据技术栈的使用和维护方面,仍然遇到了各式各样的问题,尤其是运维方面。相比于传统的关系型数据库DBA运维,大数据集群的运维目标规模更大,动辄成百上千的集群,在bat,应该上万台机器的集群也早已经出现了。
几乎每个规模互联网公司都有了自己的广告系统,自己的用户行为分析系统,用户画像系统,甚至推荐系统。这些系统帮助人们做出了很多决策,比如美团的餐饮推荐推荐,比如电商/在线视频网站的推荐系统;挖掘了很多信息,比如今日头条的新闻推荐系统;甚至帮助我们分析和了解事实,比如滴滴的打车轨迹客服系统。 这一系列的应用,让我们的生活中充斥着更多复杂的算法。
我们已经进入了一个大数据时代,在《未来简史》中,作者甚至认为人类已经是数据和算法的奴隶。在未来,我们没有隐私,我们和其它所有生物一样,成为世界大数据“万物互联”的工具。人类的体验并不神圣,人也并非造物主的巅峰之作,也不是未来智神的前身。人类只是创造万物互联的工具。数据主义甚至要代替 资本主义 和共产主义,成为人类的新的信仰。 未来简史大纲 和 知乎:如何看待《未来简史》中的大数据主义 中有对数据主义的更详细阐述。
人类一向是懒惰的,得到了进步就不愿意后退。随着越来越多的数据被收集和分析,机器可以帮助人类做越来越多的决策,对生活的影响也越来越深。其背后,日益暴增的数据也成为了最大头疼的问题。各大公司都在购买越来越多的机器来存储,并分析这些数据。大家可以想象一下,一个大的数据中心,每天光是坏掉的磁盘,就有几箩筐。
回到技术领域。数据暴增,意味着运维的压力是永远不会停歇的,没有回头路,压力只会越来越繁重。所以我打算总结一些方法论,在17年的年底,写关于hadoop运维的一系列文章,把我自己的经验分享出来。我期望能达到两点目标:
总结一些方法论。让做大数据运维行业的人,一起探讨,互相吸收和交流经验,把大家的工作都做的更好。让有兴趣的非大数据运维程序员,以及有想法进入大数据运维这一行的人,了解我们的工作内容。因为现实中,真正接触到大规模集群的机会,很难得。
今天,我就介绍一下系列的大纲。我会从5个维度来完成这一系列的文章。
部署常规运维深度运维监控/报警安全
在构建整个运维体系的过程中,我们秉承了google的《SRE: Google运维解密》的思想:
在后面的一些列文章中,都可以看到这两个思想在我们实习运维体系中的体现。只有对运维自动化的不断追求,才能腾出工程师更多的精力,编写更多的自动化程序,从而形成一个良性的循环。只有让机器和算法来管理机器,才能让没有回头路的运维压力,得到释放。
Reference:
0.大数据SRE的总结(1)--部署
1.youtube.com/watch?v=XZmGGAbHqa0 探秘google数据中心
2.SRE: Google运维解密 (豆瓣)
3.Google SRE:运维还能如此高逼格?
4.未来简史之数据主义(Dataism)