内容简介
This book is intended for Data Analysts, Scientists, Data Engineers, Statisticians, Researchers, who want to integrate R with their current or future Big Data workflows.It is assumed that readers have some experience in data analysis and understanding of data management and algorithmic processing of large quantities of data, however they may lack specific skills related to R.
AI简介
这是一本专注于将R语言与大数据分析相结合的实战指南。这本书的目标是帮助数据分析师,科学家,数据工程师,统计学家,研究人员,以及所有希望将R语言融入他们当前或未来大数据工作流的人。
在书中,作者首先定义了大数据,并详细讨论了大数据的定义,特性,以及如何处理和分析大数据。接着,作者详细介绍了R语言的历史,发展,以及其特点和优势。然后,作者深入探讨了大数据时代的挑战,以及如何使用R语言来解决这些问题。
在书中,作者还详细介绍了如何提升R代码的性能,包括内存数据管理,并行计算,以及GPU计算等。此外,作者还介绍了如何利用Hadoop生态系统来处理大数据,以及如何将R语言与SQL数据库和NoSQL数据库进行连接。
书中还详细介绍了如何使用SparkR来处理大数据,以及如何利用H2O来进行大规模数据聚类和分类。此外,作者还介绍了机器学习的基本概念,以及如何利用R语言和H2O来进行大规模数据聚类和分类。