内容简介
If you are a data engineer, an application developer, or a data scientist who would like to leverage the power of Apache Spark to get better insights from big data, then this is the book for you.
AI简介
这是一本专注于Apache Spark应用开发和大数据处理的实战指南。这本书详细介绍了Spark源代码构建方法,包括如何从二进制文件或源代码构建Spark,以及在Amazon EC2、单独集群、Mesos集群和YARN集群上部署Spark的方法。此外,还介绍了如何使用Tachyon作为离线存储层,以及如何优化内存使用,提高Spark的性能。
这本书深入探讨了Spark在多种集群上的部署,包括Amazon EC2、单独集群、Mesos集群以及YARN集群上部署Spark的方法。这些方法可以帮助读者根据具体需求和资源情况选择最适合的部署方式。
在机器学习的定义与基本概念部分,这本书详细解释了机器学习的定义、依赖、数据类型和测量尺度,以及如何使用机器学习库,如MLlib。此外,还介绍了如何使用线性回归,以及如何通过ALS的显式反馈协同过滤和隐式反馈协同过滤进行推荐。
在数据的测量尺度与类型部分,这本书详细解释了数据的测量尺度与类型,包括名义尺度、序数尺度、区间尺度和比例尺度,以及连续数据和离散数据。这些概念对于选择合适的算法和模型,以及处理数据中的各种问题都至关重要。
在图的基本操作