内容简介
This book targets data scientists, cloud developers and Devops Engineers who would like to become proficient with OpenStack Sahara. Ideally, this book is well suitable for readers who are familiars with databases, Hadoop and Spark solutions. Additionally, a basic prior knowledge of OpenStack is expected. The readers should also be familiar with different Linux boxes, distributions and virtualization technology.
AI简介
这是一本专注于大数据处理框架OpenStack Sahara的指南,面向数据科学家、云开发人员和Devops工程师,为他们提供成为Sahara专家所需的所有知识。这本书适用于熟悉数据库、Hadoop和Spark解决方案,并且对OpenStack有一定了解的读者。
这本书首先介绍了大数据处理框架OpenStack Sahara,阐述了Sahara如何通过其无限扩展性、弹性和数据可用性,在OpenStack云管理平台上实现Hadoop集群的扩展和管理。接着,书中详细介绍了Sahara组件及功能,包括Cluster、Node、Template等,并解释了如何使用Sahara来部署和管理Hadoop、Spark等大数据应用。
书中还深入探讨了准备Hadoop节点的镜像,以及如何使用CLI和Horizon来创建和管理Hadoop集群。此外,还介绍了如何创建Sahara插件的镜像,并理解和使用Affinity Group。书中还讨论了如何提高数据可靠性的存储和调度策略,并简化了高可用Hadoop集群的部署。
在书的后半部分,作者详细讲解了OpenStack服务故障排查,以及如何排查集群创建问