数据存储技术在适应大数据时代的规模需求基础之上,持续优化可用性、可靠性、存算分离、事务性等能力,演变出分布式文件系统、分布式对象存储、分布式块存储三大类型,数据库也通过存储格式等方面的改进助力数据处理的加速等应用需求。为适应AI的迅速发展,对非结构化数据、图数据等原始数据形式的存储支持以提高数据表达能力,或者对AI算法架构中间产物向量表示的存储支持以提高处理效率,都是不可小视的发展趋势,特别是后者已经在大模型推动下成为行业热门,即向量数据库。
为促进大数据存储架构的行业交流与技术发展,DataFun举办首届DataFunSummit2023数据基础架构峰会,设立分布式存储架构、大规模存储架构、数据存储应用、向量数据库架构、离线计算架构、实时计算架构、大规模计算架构、数据计算应用等8个主题论坛,欢迎广大从业者参与活动,推动数据基础架构演进!
扫描二维码即可免费报名
正如From、Join、排序等是SQL的基本算子,存储与计算是也是数据架构中数据生产与消费的基本算子,对于数据架构之下的技术栈层级,我们可将其定义为数据基础架构。
数据存储技术在适应大数据时代的规模需求基础之上,持续优化可用性、可靠性、存算分离、事务性等能力,演变出分布式文件系统、分布式对象存储、分布式块存储三大类型,数据库也通过存储格式等方面的改进助力数据处理的加速等应用需求。为适应AI的迅速发展,对非结构化数据、图数据等原始数据形式的存储支持以提高数据表达能力,或者对AI算法架构中间产物向量表示的存储支持以提高处理效率,都是不可小视的发展趋势,特别是后者已经在大模型推动下成为行业热门,即向量数据库。
数据计算以离线计算和实时计算为两大主要技术路线,离线计算引擎以Spark为主导,实时计算引擎以Flink为主导,规模化仍是第一特点,而前者发展较成熟,后者则在往云原生、流批一体、流式数仓、流式数据库等方向迅速发展,但在实际应用中,这两大引擎仍需要根据业务需求,进行大量的技术优化。在应用层面,大模型对数据分析的改造已初现成果。
下面为您带来本次峰会的详细介绍:
峰会介绍
专家评审团
蒋鸿翔 网易数字产业事业部 技术经理
个人介绍:网易数据库内核和数据基础设施负责人,全面负责数据库内核技术和大数据平台底层技术开发工作,先后主导了内部MySQL分支InnoSQL、HBase、自研时序数据库、实时数据仓库、离线计算等各种不同的平台,具有丰富的数据库内核和大数据平台相关经验;擅长数据库内核技术诊断、复杂环境数据恢复,大数据平台各种性能优化技术等等。
杨华 T3出行 大数据平台研发负责人
个人介绍:杨华 (Vino Yang) , Apache Hudi / Kyuubi PMC member & Apache Kylin Committer. Apache Flink 贡献与布道者。T3 出行大数据平台研发负责人。加入T3之前曾在腾讯主导Flink从0到1落地并支撑日均数十万亿的消息处理规模。
杨诗旻 字节跳动 数据湖团队技术负责人
个人介绍:于 19 年加入字节跳动,目前是数据湖团队技术负责人。团队负责基于 Hudi 的 EB 级数据湖解决方案,在字节内部的实时数仓、离线数仓和推荐系统等多个场景落地,还负责火山引擎产品LakeHouse Analytics Service 的相关技术。目前聚焦于湖仓一体和批流一体的架构演进,在大数据计算、存储、数仓优化等领域有丰富的经验。
峰会论坛
①分布式存储论坛
出品人:司春峰 bilibili 技术专家
个人介绍:2009年毕业于南京大学。先后在EMC的统一存储部门,百度基础架构部和B站基础架构部从事存储系统的研发工作。创建了B站的对象存储系统和KV存储系统。目前负责B站的分布式存储团队。
林堂辉 bilibili 基础架构部 资深研发工程师
个人介绍:2016年加入B站,作为核心开发亲历了B站从单体架构到微服务的架构改造,后续又负责消息队列、服务发现、数据传输等微服务中间件的开发。目前负责NoSQL存储,从零到一搭建了分布式KV存储系统,为全站业务提供了高性能稳定可靠的存储服务。
演讲题目:如何打造一个高可靠的线上存储系统
演讲提纲:对于每天承载亿级请求的在线存储系统,如何通过多活来保证在线服务的可用性。同时对于机器故障数据损坏等,如何通过数据备份容灾来保证数据的可靠性,对于数据损坏如何快速进行修复。最后,介绍一些常用的运维sop来对故障进行预防及快速响应。
听众收益:
1.如果打造多活存储系统
2.如何通过point-in-time recovery来保证服务的可靠性。
3.通过完善的日常sop来对风险进行预防及快速响应。
吴宏松 网易 基础平台 资深服务端开发工程师
个人介绍:吴宏松,Curve开源社区maintainer,2015年硕士毕业,并于2016年开始在网易从事云计算基础设施相关工作,先后参与开发以及优化了网易第一代分布式块存储,Ceph以及Curve等。
演讲题目:国产开源分布式存储系统--Curve
演讲提纲:
1. CurveBS介绍
简要介绍CurveBS的架构设计,以及我们开始开发CurveBS项目的初心。
2. CurveBS结构设计特点
从CurveBS项目的一些特点展开介绍Curve,包括高性能,易运维,云原生,更稳定等,同时分享交流一些我们系统设计方面的一些取舍。
3. CurveBS应用案例以及开源现状
简要介绍下CurveBS的业务应用案列以及开源现状。
4. Curve roadmap
简要介绍下Curve近两年的项目规划以及社区规划。
听众收益:
1. 了解CNCF 分布式存储项目Curve的架构以及特点
2. 了解Curve的应用案例
3. 了解Curve的RoadMap
郭波 百度云存储高级研发架构师
个人介绍:硕士毕业于华中科技大学计算机专业,随即加入百度基础架构体系存储方向,长期致力于分布式存储/云存储架构/云存储产品的研发和推广,具备超过十年的相关经验。目前作为云存储部门高级研发架构师负责Aries存储系统的研发和演进,该系统作为云存储数据面底座,支撑了百度智能云多个云存储产品以及百度网盘的数据存储需求和快速发展,同时也负责了部分NoSQL数据库产品的演进。
演讲题目:百度云磁带库存储架构的设计与实践
演讲提纲:本演讲介绍百度云存储最新一代磁带库存储架构与设计,包括设计细节与实践案例。通过该演讲,听众可以获得一种成功落地的大规模应用磁带库的方案,并可以从中获得一些百度云在磁带库存储上的经验与思考,以及分布式存储在架构设计上的一些经验与思考。演讲内容大致分为以下4个部分:
1. 介绍企业级磁带与磁带库的特性及合适的应用场景;
2.百度云存储数据面底座Aries系统的总体设计与概念;
3.Aries系统接入和应用磁带库的架构设计细节;
4.一个实践案例的解析。
听众收益:
1.企业级磁带和磁带库有哪些典型特性?有哪些适合的应用场景?
2.百度云存储数据面底座Aries是怎么样设计的?
3.Aries如何接入和应用磁带库?有什么实践案例?
侯雪峰 金山云 研发专家
个人介绍:2017加入金山云,目前负责云存储大数据方面的研发,曾就职于百度,对大数据架构有着深入的研究与学习,云原生时代对计算、存储计算分离、流计算、消息队列方面有着深入学习和成功案例。
演讲题目:金山云大数据存算分离架构实践
演讲提纲:
1. 大数据存算分离介绍
2. 金山云存算分离方案
3. 托管存算分离方案 Gaea
4. Serverless 存算分离方案 KS3-HDFS
听众收益:
1. 通过大数据存算分离,降低大数据50%以上的存储成本
2. 存算分离结合弹性计算,节省30%以上的计算资源
3. 存算分离方案如何选型
沈泰宁 PingCAP 分布式存储部门 高级软件工程师
个人介绍:
●TiDB 项目 committer
●TiDB 备份恢复
●TiDB 数据同步
●TiKV 项目 committer
●grpc-rs 项目 maintainer
●rust-prometheus 项目 maintainer
演讲题目:分布式事务型 KV 数据库 TiKV 的实现和实践
演讲提纲:在这次分享中,我们将会探讨 TiKV,一款支持事务的分布式 KV 数据库。首先,我们会介绍包括它的功能特性和应用场景;然后,我们将会阐述 TiKV 的架构和实现,了解它的分层设计,各层的算法和实现;最后,我们将讨论在过去几年的技术发展中 TiKV 遇到的挑战和解决方案。
听众收益:
1. 了解 TiKV 的使用场景和设计目标。
2. 了解分布式事务型 KV 数据库的架构和实现。
3. 了解 TiKV 过去几年实践中遇到的问题和解决方案。
扫描二维码免费报名
②大规模存储论坛
出品人:段立国 百度智能云 存储架构师
个人介绍:2011年硕士毕业于东北大学,毕业后一直在百度工作,10年存储开发经验,百度对象存储BOS技术负责人。
马井玮 百度智能云架构师
个人介绍:马井玮博士,毕业于南开大学,期间发表CCF A、B类论文多篇。2016年加入百度智能云,主导了百度沧海·存储的块存储CDS两大关键组件(Append引擎和EC引擎)的设计和实现落地,大幅降低PB级别块存储系统成本,实现性能的增长。
演讲题目:大规模块存储EC系统构建
演讲提纲:
数据容错方式比较
大规模块存储EC的技术挑战
百度沧海的实现方案和业务效果
听众收益:
大规模块存储系统EC引擎构建的难点以及百度智能云的技术解决方案
齐泽斌 美团基础技术部研究员
个人介绍:美团研究员,KV 存储和文件存储负责人,10 年以上分布式存储研发运营经验。2011 年天津大学毕业后加入百度,负责过分布式文件存储 MFS 和分布式 KV 存储 BDRP 研发及运营。2014 年加入美团,负责过分布式 KV 存储 Cellar、分布式缓存 Squirrel、分布式文件存储 EFS 等研发及运营,主要关注于分布式存储技术领域。
演讲题目:美团大规模 KV 存储挑战与架构实践
演讲提纲:KV 存储作为美团重要的在线存储服务,承载了在线服务每天万亿级的请求量,并且保持着 5 个 9 的可用性。为了更好的支撑业务发展,并优化性能、成本,我们研发出两套不同定位的 KV 存储系统。针对大数据量、高数据可靠性场景,研发了分布式 KV 存储 Cellar;针对高吞吐、低延迟场景,研发了分布式缓存 Squirrel。随着服务规模的快速增长,Cellar 和 Squirrel 各自又遇到了不同的可用性、扩展性挑战,并作出了不同的架构迭代。在本次分享中,将介绍美团 KV 存储 Cellar 和 Squirrel 在大规模场景下的可用性和扩展性挑战、架构实践经验,以及 KV 存储的技术发展趋势。
听众收益:
1.了解大规模 KV 存储的可用性、扩展性挑战,以及架构上的应对方法
2.了解分布式缓存和持久化 KV 的应用场景和技术架构差异
3.了解 KV 存储在当前技术趋势下的发展方向
何昱晨 小米高级软件研发工程师
个人介绍:何昱晨,本科硕士均毕业于中国人民大学。2017年硕士毕业后加入小米,负责分布式KV存储系统Pegasus功能开发、业务支持等工作。工作期间,独立开发了Pegasus Bulk Load和Partition Split两个大功能,向社区共提交超过200个patch,致力于不断完善系统功能、持续提升系统健壮性。在2020年Pegasus加入Apache之后,受邀成为Apache Pegasus PPMC。目前是Pegasus在小米的项目负责人。
演讲题目:Apache Pegasus的应用实现与未来规划
演讲提纲:介绍Apache Pegasus的整体架构,基本功能,典型用户场景和未来后续规划。
听众收益:
1. Apache Pegasus适用于哪些场景?
2. 如何参与到开源项目中?
黄华 蚂蚁集团图计算技术专家
个人介绍:深耕存储领域数十年,对底层存储设备,存储引擎,大规模数据库存储系统有深入理解。
演讲题目:基于完美哈希的面向读优化的存储系统
演讲提纲:
1. 基于完美哈希索引的批量更新存储系统及其在蚂蚁业务场景的应用;
2. 如何基于完美哈希构建高效率低成本的超大规模KV存储系统;
听众收益:
1. 基于完美哈希索引,打造索引空间小,索引效率高的点查存储系统;
2. 如何将基于静态数据集的完美哈希索引机制打造成可实时读写的存储系统;
郑鹏飞 百度智能云 高级架构师
个人介绍:博士毕业于中国科学院大学。目前是百度智能云文件存储方向的负责人,在分布式存储方向上有8年工作经验,在块存储、私有化对象存储、分布式缓存、文件存储等多个存储方向上都有研发和架构设计经验。
演讲题目:打造千亿文件量级的大规模分布式文件系统
演讲提纲:
1. 影响分布式文件系统扩展性的问题
2. 元数据系统的技术演进历史
3. 百度智能云 CFS 元数据系统的核心设计
听众收益:
1. 分布式文件系统难以扩展的本质问题是什么?
2. 分布式文件系统的抽象概括是什么样的?
3. 百度智能云是如何彻底解决元数据扩展性问题的?
扫描二维码免费报名
③数据存储应用实践
出品人:冯玮 字节跳动 大数据存储技术负责人
个人介绍:字节跳动大数据存储技术负责人,在分布式存储领域有 10+年技术与产品经验。目前负责字节跳动大数据存储产品的研发和运营工作。主要负责产品及方向包括 HDFS(自研),数据湖(存储)和 火山大数据存储加速产品等,涉及数十 EB 数据的管理和治理。
毛琦 小红书基础架构存储负责人
个人介绍:先后在emc、华为、阿里云从事存储产品的核心开发和架构师角色,目前在小红书负责nosql kv数据库、图数据库、newsql数据库的研发和架构演进
演讲题目:小红书面对万亿社交网络关系的图存储实践
演讲提纲:小红书是一个社区属性为主的产品,它涵盖了各个领域的生活社区,并存储海量的社交网络关系。为解决社交场景下超大规模数据的更新与关联读取问题,并减少数据库压力和成本,我们自研了面向超大规模社交网络的图存储系统 REDtao,大大提高了系统稳定性,它将缓存和底层数据库封装起来,并对外提供统一的图查询 API,实现了访问收敛,同时在缓存中实现了高效的边聚合。
听众收益:图存储系统在社交网络关系的应用和收益。
田勇 字节跳动HDFS产品技术负责人
个人介绍:字节跳动HDFS产品技术负责人,参与过文件、对象、NoSQL等多个分布式产品研发,在分布式存储领域拥有10+技术经验。之前在百度负责Mola/Table等NoSQL产品的研发。当前主要关注字节HDFS产品的技术架构演进、成本优化以及数十EB的数据治理等方向的工作。
演讲题目:EB级存储规模HDFS在字节的探索与实践
演讲提纲:HDFS是字节内部历史最久远、体量最大的存储系统,存储规模达到数十EB,运营时间超过10年。支撑了大数据、机器学习、Flink/AP/MQ等多种近离线场景。伴随着字节系业务的发展历程,产品和技术经历了一系列的演进,形成了字节独有的特色:包括采用单一大集群多机房部署形态,通过C++重构版的NameNode/DataNode解决社区版存在的性能和启动效率等问题。构建分级存储体系,结合上层生态的数据访问范式管理数据在多级存储、跨AZ间的流动,降低数据存储成本,提升数据访问效率。此外,还进一步结合机器学习来识别用户的误删行为,提升数据安全保障等。本次分享主要围绕着字节HDFS产品在以上工作中的探索和实践展开:
1. 字节HDFS的新特性;
2. 多机房架构挑战;
3. 分级存储实践;
4. 数据安全防护实践
听众收益:
1. 字节c++重构版本的namenode/datanode引入哪些新feature?
2. 如何结合大数据生态实现海量数据精细化治理来保障业务稳定性,达到成本最优?
3. 多机房架构如何设计?如何解决跨机房访问带宽瓶颈?
4. 如何结合AI实现数据误删保护?
徐明敏 bilibili 基础架构微服务负责人
个人介绍:2011年毕业,先后在阿里、微软、触宝、字节跳动以及B站工作,主要从事分布式缓存/分布式存储/服务治理/可观测等相关工作。加入B站之后作为微服务方向Leader,主要负责服务治理/消息队列/负载均衡/可观测性等方向建设。个人对分布式系统,性能优化以及新硬件应用比较感兴趣。
演讲题目:B站日志平台架构演进
演讲提纲:主要内容为B站的日志平台如何从1.0走到现在3.0的存算分离/离在线统一架构的。其中遇到了哪些困难,在架构上做了怎样的抉择和思考,如何在有限的人力以及资源下完成降本增效目标。
听众收益:
靓点1:基于B站团队现状如何做技术选型和规划
靓点2:B站日志平台是如何实现离在线统一的
靓点3:B站日志平台是如何一步一步贯彻降本增效的
刘健 字节跳动 Abase 产品研发负责人
个人介绍:字节跳动 Abase 产品研发负责人,在分布式存储领域拥有10年技术经验。曾在百度参与Mola,Aries等存储系统的研发工作。当前主要关注超大规模的NoSQL数据库在稳定性、成本、数据生态、多地域支持等方向的工作。
演讲题目:Abase2:全球 NoSQL 数据库中的 CRDT 支持实践
演讲提纲:Abase是字节内部使用最广泛,体量最大的NoSQL数据库之一,峰值QPS达到百亿级,数据规模达到EB级。支持了推荐、搜索、广告、头条、抖音、电商等几乎公司所有业务的在线KV存储场景。随着业务的发展,越来越多用户需要在不同物理地域间部署Abase集群及同步数据解决就近读写、容灾和资源瓶颈等问题;同时由于大量用户通过Redis接口访问Abase,我们设计实现了Abase2的多地域部署架构,并且提供主要Redis命令的CRDT支持,因此本次分享将围绕Abase2在全球部署支持方面的工程实践展开。具体内容包括:
1. 字节多地域部署的需求和挑战
2. Abase2 的架构介绍
3. CRDT (conflict-free replicated data type)解决方案介绍
4. String/Hset/Zset 命令的 CRDT 支持工程实践
听众收益:
1. 如何解决数据库跨地域部署/同步/一致的需求
2. 如何实现 Redis 主要命令的 CRDT 支持
3. 如何在支持 CRDT 的同时实现高性能
4. 如何在多地域部署过程中同时做到成本优化
扫描二维码免费报名
④向量数据库架构与实践
出品人:郑伟 腾讯 大数据部平台部 Senior TechLeader
个人介绍:在推荐、搜索、广告领域深耕十多年,精通从正排、向量索引等基础架构到召回、混排等业务系统。目前负责腾讯推荐系统中台TRS的工作,服务腾讯内部十几个大小推荐业务。
徐华建 翼支付风险管理部总监
个人介绍:中国电信翼支付风险管理部总监,中国图象图形学学会视觉大数据专委会委员,多年视觉风控和内容安全算法及产品能力建设,目前负责翼支付视觉风控和内容安全相关AI能力建设。
演讲题目:翼支付在向量检索的应用与实践
演讲提纲:
向量检索是一种通过计算向量之间的相似度来进行信息检索的方法。它基于向量空间模型,将文本、图像等数据表示为高维向量,并利用相似度计算来快速检索相似的数据项。向量检索是向量数据库的一种应用,向量数据库为向量检索提供了基础设施和算法支持,使得大规模向量数据的快速检索成为可能。
向量检索在很多领域有广泛应用,如文本搜索、图像检索、推荐系统等。它在智能风控、电子商务、社交媒体、智能搜索等行业背景下发挥着重要作用,提供了高效的信息检索和个性化推荐功能,为用户提供更好的体验和效率。