生活中,有很多事务需要实时分析处理:展示实时的趋势;基于某个名人明星发布的 Tweet 话题的公开会话讨论;实时为用户推荐最新资讯;用户的实时搜索……以上都是 Twitter 实时服务涵盖的实时场景。对于 Twitter 而言,实时性就是其产品的基石。

Twitter 每天要接收和处理用户发送的数十亿条推文。实时分析这些推文是一个巨大的挑战。为了保证每条推文处理的实时性和高效性,Twitter 在分布式流计算系统 Storm 的基础之上,投入了大量的人力,设计和开发了一套全新的实时计算系统——Heron。

Heron 是为大规模环境量身打造的下一代开源流媒体引擎。Heron 现在已经是 Apache 的孵化项目,它的 Contributor 除了来自 Twitter 外还有来自微软、Google、斯坦福等多个组织机构。Heron 在大规模上提供无与伦比的性能,并已成功满足各种流处理 Application 的价格 / 性能目标。

从 Twitter 实时计算框架的演进可以看出:提高计算的时效性,更快的从数据中挖掘出信息和知识就意味着能够获取更大的价值。最近,越来越多的企业对于实时数据技术架构感兴趣,从批处理向流计算机构的转型,是企业关于如何使用数据的一次技术革命。

但是,实时数据技术栈(包括流计算引擎、数据存储引擎、编程语言和工具)的最前沿现状又是什么呢?在这其中,又有哪些技术挑战?以及这些前沿技术怎么影响流计算的架构和应用呢?

不妨来 QCon 大会上海站的会前两天深度培训,和前 Twitter message group 的技术负责人一起深入讨论下实时数据技术栈的那些事儿。

大数据实时计算

现在越来越多的应用场景对数据处理有了高时效性的要求。如何能够更快的采集数据,实时的处理数据是当前各个新经济所面临的一个挑战。

为了满足以上需求,QCon 大会上海站开设了——《大数据实时计算》深度培训课程,邀请了在实时处理方面拥有丰富经验的两位讲师——郭斯杰、翟佳,于 10 月 16 日和大家一起分享 Twitter 、Yahoo 等大数据实时计算的实践经验。

首先,来认识下《大数据实时计算》的两位分享讲师:

大数据优质经验分享_大数据优质经验分享_大数据优质经验分享

郭斯杰,之前就职于 Twitter,任职 Staff Software Engineer,是 Twitter message group 的技术负责人。同时也是 Apache BookKeeper 的 PMC Chair, Apache DistributedLog 的 Co-Creator。加入 Twitter 之前,就职于 Yahoo。

大数据优质经验分享_大数据优质经验分享_大数据优质经验分享

翟佳,毕业于中科院计算所,目前就职于一家下一代实时处理初创公司 Streamlio,是 streamlio 的核心创始成员之一。在此之前任职于 EMC,是北京 EMC 实时处理平台的技术负责人。主要从事实时计算和分布式存储系统的相关开发,此外也在开源项目 Apache BookKeeper, Distributedlog,DC/OS 等项目中持续贡献代码。


本文由转载于互联网,如有侵权请联系删除!