内容简介
If you are a developer, engineer, or an architect and want to learn how to use Apache Spark in a web-scale project, then this is the book for you. It is assumed that you have prior knowledge of SQL querying. A basic programming knowledge with Scala, Java, R, or Python is all you need to get started with this book.
AI简介
这是一本全面介绍Apache Spark中Spark SQL组件的书籍。本书以Spark SQL为核心,介绍了它在大数据处理、机器学习、流处理、图处理以及许多其他类型的应用架构中的应用。本书不仅适合有经验的开发者、工程师和架构师,也适合初学者和想要深入学习Spark SQL的读者。
本书首先介绍了Spark SQL的基本概念,包括SparkSession、DataFrames和Datasets,以及Catalyst优化器和Project Tungsten。这些概念是理解Spark SQL的基础,也是后续章节讨论的基础。
接着,本书深入探讨了如何使用Spark SQL处理结构化数据和半结构化数据。书中详细介绍了如何从各种数据源读取数据,包括关系数据库、NoSQL数据库、JSON数据、Avro文件和Parquet文件等。同时,书中也介绍了如何定义和使用自定义数据源。
在数据探索方面,本书介绍了如何使用Spark SQL进行基本数据分析,包括识别缺失数据、计算基本统计量和识别数据异常值等。此外,书中还介绍了如何使用Apache Zeppelin进行数据可视化,以及如何使用Spark S