自我介绍:柯旻--花名大舞阿里集团基础架构事业群-大数据SRE-资深技术专家2007年加入阿里,目前负责阿里大数据平台(Hadoop/odps(5k)/OTS/Hbase/Spark/Jstorm等)运维工作,专注于大规模海量数据分布式计算平台运维工作Email:dawu@taobao.com微博:@大舞-ukl大纲演进变化历程2009.42010.32010.72012.12012.102013.72014?面临的变化挑战规模快速膨胀跨机房跨地域灵活性效率提升扩展性&可管理性数据安全需要关注的那些事传统需要变革组织流程平台人、平台和流程需要有效的结合,才能发挥组织的力量。没有最好的,只有最合适的。DevOps误区:无论是研发至上还是运维至上,都是极端的。随着IT成熟度的不同,会有不同的表现。强行用一种模式去套用,可能适得其反。代价可能是很高。因此,DevOps看似一个平台工具的革命,实际上它是整个组织的革命,需要人、平台和流程有效的配合,甚至文化的驱动。每个公司需要摸索一套合适的落地方案和计划。DevOpsDevOpsDevOpsDevOps为运维“平反”善意但却容易误解的价值传递:“以后都没有运维了!”如果运维的核心价值仅仅看作是发布、变更和部署等工作,那是对运维核心价值的狭义理解。
Dev高价值、核心价Dev日常工作Ops高价值、核心价Ops日常工作Dev高价值、核心价Ops高价值、核心价DevOps日常工作的高效运作日常工作的高效运作也华丽转身成高价值的工作Dev和Ops的相互核心价值部分是不可替代的。EG:开发对网络、操作系统、服务器和安全等方向的理解会弱于运营运维对代码和软件架构的设计会弱于研发术业有专攻各自找准价值方向,持续构建核心竞争力相互融合,而非替代注:适度的竞争有利于发展,完全的计划经济并不一定高效,需要动态平衡;业务的架构不是一开始就完全定稿的。而是随业务发展而不断变复杂、稳定、成熟和高效。产品的架构和运维成熟度定制化和标准化的分界点,也是经常会变化的。定制化:对单个产品来说高效、灵活标准化:对整体效率有提升、统一平台的构建需要充分考虑扩展性和兼容性自动化运维平台优势互补,打好组合拳,相互发挥出核心价值。分层构建AppStore调度策略流程封装业务逻辑–原子任务IaaS(DCOS–物理资源、虚拟资源)配置数据监控数据日志数据数据仓库流程引擎任务引擎安全权限标准App业务1业务2业务3统一平台运维定制运维的同学们拥有一套高效的任务引擎、规则引擎和各类已经封装好标准原子任务,其实运维的同学们可以快速的定制自己想要的调度逻辑和门户。
这样,DevOps的推动会更能高效和敏捷。公共管控产品层Angular.js业务管控业务管控业务管控业务管控业务管控业务管控业务管控业务管控业务管控业务管控服务层(API)工作流&组合流公共管控api实时配置管理定时任务用户权限&审批Api安全服务apiservice服务api服务apiservice服务apiservice服务apiservice服务apiservice服务apisecurityapi服务api服务api工具脚本-标准化执行层外部依赖层CMDBACLagentchangefree数据库monitor帐号IDC分层式样架构设计标准化一站式变更,单工作流流程细节掌控集中管理线上服务器定时调度任务应用基础环境配置管理rpm,文件,目录积累日常任务效果数据自动化故障监测和处理系统Sda损坏服务downKernelpanicLoad过宕机运维数据化&运营化02分析过程运维处理运营展现1.传统自动化运维实现了末端流程的沉淀但末端流程需要通过人或第三方系统连2.传统运维分析注重被动分析,固化分析,核心技术往往在第三方工具,展现能力弱,关联度低3.对运维产品的运营能力低下,劳动密集型,低附加值1.加固末端产品能力2.强调系统分工,构建通用连接产品3.创建问题排查系统,分析决断执行过数据化运营1.通过设定的个性化集群水位迁移阈值计算各个集群的需迁移量及可接收量2.利用优化算法产生特定约束下的最优迁移策略(线性优化规划算法)3.量化执行该迁移策略后对集群资源水位及跨机房流量的影响数据化分析T-FlowAECT-cloneIDPSTDSCMDBChangeLineStarAgentICSchangefreeAlimonitorACL面向连接的智能化运维体系01Before2012人工&脚本022013工具整合,业务增长032014042015智能运维体系建设MaxComputeHbaseGalaxyHadoopOTSAnalyticDBJstormHistoreTTSLS自动化平台演进变化历程从实战中总结、提炼、构想、设计、建设出来的一套体系,提高效率,稳定性,准确率,提供深度价值的服务运维--维护稳定安全可靠体验效率效益运营--经营THANKS