内容简介
本书从大数据实时计算框架Spark的编程语言Scala入手,第1~4章重点介绍函数式编程语言Scala的基础语法、面向对象编程以及函数式编程等,再通过编程训练案例介绍Scala这门语言的实际开发应用,为读者后面学习Spark框架打下牢固的编程基础。第5~10章重点介绍Spark的安装部署、SparkCore编程、Spark SQL结构化数据处理以及Spark Streaming实时数据处理等,对它们进行详细的剖析和解读。最后,在第11章中通过网站运营指标统计和IP经纬度热力图分析两个实战开发项目,让读者充分掌握Spark大数据实时计算框架技术的应用与实操方法。 本书适合所有对大数据技术感兴趣的读者。
AI简介
这是一本深入讲解大数据处理框架Spark编程语言Scala的实战指南。本书从函数式编程在Scala中的应用入手,详细讲解了Scala编程基础和Spark框架,包括Scala语言的特色、搭建Scala开发环境、Scala解释器、Scala语法基础、Scala控制结构和函数、方法、数组、元组和列表、Map映射、函数式编程等。
本书通过编程训练案例,详细介绍了Scala这门语言的实际开发应用,为读者后面学习Spark框架打下牢固的编程基础。同时,本书也详细介绍了Spark的安装部署、SparkCore编程、Spark SQL结构化数据处理以及Spark Streaming实时数据处理等,对它们进行详细的剖析和解读。
在介绍Spark SQL与DataFrame API时,本书详细介绍了Spark SQL的发展、数据分类和Spark SQL适用场景、Spark SQL特点、Spark SQL数据抽象、DataFrame简介、Dataset简介以及RDD、DataFrame和Dataset的区别。本书还详细介绍了Spark SQL初体验,包括SparkSession入口、创建DataFram