Apache Spark 2:Data Processing and Real-Time Analytics

Apache Spark 2:Data Processing and Real-Time Analytics

评分

★★★★★

ISBN

9781789959918

出版社

Packt Publishing 2018-12-21出版

分类

编程设计

内容简介
Apache Spark is an in-memory, cluster-based data processing system that provides a wide range of functionalities such as big data processing, analytics, machine learning, and more. With this Learning Path, you can take your knowledge of Apache Spark to the next level by learning how to expand Spark's functionality and building your own data flow and machine learning programs on this platform.You will work with the different modules in Apache Spark, such as interactive querying with Spark SQ
AI简介
这是一本深度探讨Apache Spark的实用指南,它详细介绍了Apache Spark的各个模块,包括Spark SQL、Spark Streaming、Spark MLlib等,以及如何通过这些模块进行数据处理和实时分析。 书中首先介绍了Apache Spark的基本概念,包括其分布式架构、内存处理、数据流模型等,以及如何使用Spark SQL进行交互式查询。接着,书中深入探讨了Spark Streaming,包括其架构、错误处理、数据源等,以及如何通过Spark Streaming进行实时分析。 书中还详细介绍了Spark MLlib,包括其架构、分类算法、聚类算法等,以及如何通过Spark MLlib进行机器学习。此外,书中还介绍了Apache YARN,包括其集群管理、资源调度等,以及如何通过Apache YARN进行资源管理。 书中还探讨了测试在分布式环境中的挑战,包括故障的复现、状态的管理以及测试工具的选择等,以及如何通过Spark Web UI进行监控和管理。此外,书中还介绍了应用程序失败的原因和解决方法,以及如何通过日志进行调试。
阅读/下载地址