AI简介
这是一本计算机编程设计类别的书籍,主要面向数据科学家和分析师,旨在帮助读者利用现有的Scala知识进行高质量和可扩展的数据分析。这本书的内容涵盖了数据导入与清洗、数据转换与处理技巧、数据分析与可视化实例、Apache Flink简介、Akka简介、Accord简介、Breeze线性代数库API介绍、Apache Spark DataFrames介绍、线性回归预测连续值、Logistic回归和SVM进行二分类、Submitting Spark jobs to local cluster、Running Spark standalone cluster on EC2、使用Spark Streaming创建DStream、使用Spark进行Twitter数据流处理、使用Twitter4j库连接到Twitter API、使用GraphX分析Twitter数据等多个方面。
在数据导入与清洗方面,书中详细介绍了如何使用CSV、JSON、XML等格式进行数据导入,如何使用Spark SQL、DataFrame等工具进行数据处理和清洗。在数据转换与处理技巧方面,书中提供了许多实用的数据转换与处理技巧