3.4.1 数据集成

01 业务场景

“巧妇难为无米之炊”,没有数据也就没有后面的一切,数据采集作为基础至关重要。Doris 数据仓库自带的多种数据导入方式 对于数据入仓非常便利,但是在我们的使用过程中也遇到了一些问题。比如:

(1)在从离线数仓进行 broker load 的时候数据依赖丢失,上游数据错误无法评估受影响的范围。

(2)需要编写冗长的 etl 处理逻辑代码,小的操作变更流程很长,需要全流程(至少 30 分钟)的上线操作;此外每次部署操作还有可能遇到各种初始化 MQ 消费者的问题

(3)缺少运行状态监控,出现异常问题无法在分钟甚至小时级别的时间发现;

(4)在线导入仅支持 kafka json,上游的 pulsar、protobuf 数据仍需要代码开发进行转发,导致每次接入数据都需要转换函数的开发以及同样全流程的上线操作;

(5)业务逻辑中,期望业务是什么样,Doris 中的数据就是什么样,让业务无感知。这种全增量同步期望被包住,而不是做很多配置或开发很多代码来实现。

02 解决方案

在建设实时数据模型的过程中。需要依赖众多业务的数据,同时需要针对数据逐层建设数据模型。摸索并搭建了实时数据集成系统和实时调度系统,并下沉到工具层。

(1)实时数据集成。建设快速且自定义的配置,针对不同的数据源建设导入能力。

(2)与 Doris 的 Broker Load 和 Routine Load 进行配合,在此基础上搭建针对业务的全增量同步。

(3)封装集成能力对内部暴露的接口,业务层无需理解中间过程,只选择同步的数据库和数据表即可进行实时同步。

大数据优质经验分享_经验分享平台有哪些_优秀经验分享的好处

03 效果

(1)同步配置

经验分享平台有哪些_大数据优质经验分享_优秀经验分享的好处

(2)同步任务

优秀经验分享的好处_大数据优质经验分享_经验分享平台有哪些

(3)上线前

(4)上线后

3.4.2 数据调度

01 业务场景

我们在初期通过 Doris 建设实时数据的过程中,是通过 Routine Load 后的数据,再定时任务执行后续计算逻辑,后再将计算结果导出到承载存储,如 Redis、Zetta(知乎自研 HBase 协议) 中完成外部压力承载。在这个过程中遇到了如下问题:

(1)依赖未就绪后续任务就执行。如最近 24 小时的曝光,在 15:05 运行昨日 15:00至今日 15:00 的查询。此时如果 Routine Load 仅导入到 14:50 的数据,这次执行结果异常;

(2)Doris 资源有限,但很多任务都是某些整点整分钟的,一次性大量的计算任务造成集群崩溃;

(3) 任务是否执行成功,任务是否延迟,是否影响到业务,无报警无反馈;

(4) 导出存储过程通用,重复代码开发,每次都需要 0.5 – 1 人天的时间开发写入和业务接口。

02 解决方案

(1)架构图

经验分享平台有哪些_优秀经验分享的好处_大数据优质经验分享

(2)流程图

大数据优质经验分享_优秀经验分享的好处_经验分享平台有哪些

03 效果

(1)同步任务

优秀经验分享的好处_经验分享平台有哪些_大数据优质经验分享

(2)收益

3.4.3 数据质量

01 业务场景

数据,已经成为互联网企业非常依赖的重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering the Corporation》一书的作者)曾说过,看起来不起眼的数据质量问题,实际上是拆散业务流程的重要标志。数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套处理准则,而体量大、速度快和多样性的特点,决定了大数据质量所需的处理,有别于传统信息治理计划的质量管理方式。

具体到针对知乎的各个业务:

AI平台、增长团队、内容平台等已经将部分或全部业务渐渐迁移到实时计算平台,在接入数据更实时,更迅速的接入带来的所享受的收益外,数据质量更加变得重要。

优秀经验分享的好处_大数据优质经验分享_经验分享平台有哪些

(1)完整性:数据完整性问题包括:模型设计不完整,例如:唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题;

(2)一致性: 多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。数据实体不一致,例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题;

(3)准确性: 准确性也叫可靠性,是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策;

(4)唯一性: 用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题;

(5)关联性: 数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策;

(6)真实性: 数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料;

(7)及时性: 数据的及时性是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。

02 解决方案

(1)全流程的数据链路和各级质量保证方法

经验分享平台有哪些_优秀经验分享的好处_大数据优质经验分享

(2)业务架构

大数据优质经验分享_经验分享平台有哪些_优秀经验分享的好处

(3)业务流程

大数据优质经验分享_优秀经验分享的好处_经验分享平台有哪些

03 效果

(1)某业务健康情况监控

以通过 DQC 监控的某一个业务的健康情况,该业务由多个导出任务和中间计算任务及部分数据源组成,当前情况是一切正常。期间如果出现某节点任意异常后,都可及时发现。

优秀经验分享的好处_大数据优质经验分享_经验分享平台有哪些

(2)某任务中间逻辑监控

该任务中间计算中其中部分规则未达标,导致该任务未通过。

经验分享平台有哪些_优秀经验分享的好处_大数据优质经验分享

04 收益

(1)上线前

(2)上线后

四、总结与展望

4.1 收益总结

4.1.1 业务发展方面

01 针对实时业务数据

02 针对实时算法特征

03 针对用户画像

4.1.2 工具建设方面

4.1.3 人员组织方面

4.2 未来展望

从 2021 年 8 月成立至今,我们一直思考如何提供更好的实时数据服务?实时数据能建设什么方面的应用,为业务创造价值?如何将用户画像服务做好?用户画像服务的筛选、分析能力如何为业务创造更大价值?摸着石头过河的同时,我们也在不断摸索和建设相关的业务能力和基础建设。在明年的发展中,我们还会针对以下方面进一步发展:

01 基于实时数据

02 基于用户画像

– 作者介绍 –

侯容,知乎用户理解&数据赋能研发Leader,主要负责实时数据、用户画像方向。

本文为从大数据到人工智能博主「bajiebajie2333」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:


本文由转载于互联网,如有侵权请联系删除!