E-mail: ziyulin@xmu.edu.cn
MapReduce是谷歌公司的核心计算模型,Hadoop开源实现了MapReduce。MapReduce将复杂的、运行于大规模集群上的并行计算过程高度抽象到了两个函数:Map和Reduce,并极大地方便了分布式编程工作,编程人员在不会分布式并行编程的情况下,也可以很容易将自己的程序运行在分布式系统上,完成海量数据的计算。
本教程以一个词频统计任务为主线,详细介绍MapReduce基础编程方法。环境是Ubuntu16.04(或Ubuntu18.04或Ubuntu20.04或Ubuntu22.04)、Hadoop3.3.5,开发工具是Eclipse。
林子雨编著《数据采集与预处理》教材在Linux系统中的实验指南
访问林子雨编著《数据采集与预处理》教材官网
《数据采集与预处理》教材中的所有实验是在Windows操作系统中完成的,但是,有些高校教师在使用教材过程中反馈了意见,现在有一些学生使用苹果电脑,不是Windows系统,无法顺利开展实验,因此,建议我们团队开发面向Linux系统的实验指南。为了满足这类需求,特制作本指南。
林子雨老师 2022年11月18日大数据
Ubuntu 安装MySQL默认密码是多少
在使用Ubuntu过程中,安装MySQL后找不到密码,Ubuntu安装MySQL后怎么重置密码?
林子雨老师 2022年10月29日大数据
345......»最旧 »
基于Scala语言的Spark数据处理分析案例集锦
案例制作:厦门大学数据库实验室
指导老师:厦门大学信息学院计算机系数据库实验室 林子雨 博士/副教授 E-mail: ziyulin@xmu.edu.cn
相关教材:林子雨、赖永炫、陶继平编著《Spark编程基础(Scala版)》(访问教材官网)
(1)基于泰坦尼克号生还数据的Spark数据处理分析
(2)基于美剧《权力的游戏》剧集数据的Spark数据处理分析
(3)基于Covid-19传播数据的Spark数据处理分析
(4)基于DOTA2 Matches数据集的Spark数据处理分析
(5)基于音乐数据的Spark数据处理与分析
(6)基于咖啡连锁店的Spark数据处理分析
(7)基于Spark的气象监测数据分析
(8)基于Spark的厦门市市民球场处理与分析
(9)基于Spark的Google Play应用商店数据分析
(10)基于Spark的淘宝数据分析
(11)基于Spark的电信客户流失分析
(12)基于Spark的NBA球员数据分析
本网页内容节选自林子雨编著《Flink编程基础(Scala版)》(教材官网),版权所有,侵权必究
第3章 Flink的设计与运行原理
近年来,流处理这种应用场景在企业中变得越来越频繁,由此带动了企业数据架构开始由传统数据处理架构、大数据Lambda架构向流处理架构演变。Flink就是一种具有代表性的开源流处理架构,具有十分强大的功能,它实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理。Flink的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及“精确一次”的状态一致性保障等。Flink不仅可以运行在包括 YARN、Mesos、Kubernetes等在内的多种资源管理框架上,还支持在裸机集群上独立部署。Flink目前已经在全球范围内得到了广泛的应用,大量企业已经开始大规模使用Flink作为企业的分布式大数据处理引擎。
本章首先给出Flink简介,并探讨为什么选择Flink以及Flink的典型应用场景;然后介绍Flink的统一数据处理、技术栈、工作原理、编程模型和应用程序结构;最后介绍Flink中的数据一致性。(节选自林子雨编著《Flink编程基础(Scala版)》)