内容简介
Are you a developer with a background in machine learning and statistics who is feeling limited by the current slow and “small data” machine learning tools? Then this is the book for you! In this book, you will create scalable machine learning applications to power a modern data-driven business using Spark. We assume that you already know the machine learning concepts and algorithms and have Spark up and running (whether on a cluster or locally) and have a basic knowledge of the various librarie
AI简介
这是一本深度探索大数据处理和机器学习结合的书籍,旨在帮助读者构建可扩展的机器学习应用,以应对现代数据驱动业务的需求。本书首先介绍了大数据的发展及其影响,阐述了数据科学的定义,并强调了Spark及其机器学习支持的重要性。
书中详细解释了数据 munging的重要性,以及如何处理类别特征和缺失值。同时,还深入探讨了决策树算法的介绍,并介绍了如何评估模型的性能,包括模型评估指标和混淆矩阵等概念。此外,还介绍了GraphX简介和构建,以及如何使用Spark Streaming处理实时数据流。
在实战部分,本书通过加载好莱坞电影演员合作网络数据和预测模型的生产环境部署等案例,展示了如何将理论知识应用于实际工作中。同时,还强调了提取模式的重要性,并解释了如何通过流数据处理和批处理需求来满足业务需求。
本书还深入讨论了代码设计的重要性,并介绍了如何解决二分类问题,包括单决策树、随机森林、梯度提升机和深度神经网络(DNN)等算法。此外,还介绍了如何使用网格搜索和超参数调整来优化模型性能。