内容简介
This book is intended for those who want to understand what YARN is and how to efficiently use it for the resource management of large clusters. For cluster administrators, this book gives a detailed explanation of provisioning and managing YARN clusters. If you are a Java developer or an open source contributor, this book will help you to drill down the YARN architecture, write your own YARN applications and understand the application execution phases. This book will also help big data engineer
AI简介
这是一本详细解析YARN资源管理系统的专业书籍。本书首先从YARN资源管理系统概述入手,让读者了解YARN的设计目标、核心组件以及工作流程。接着,书中深入讲解了Hadoop-YARN集群的安装和配置,包括单节点和多节点的安装步骤,以及Hortonworks和Cloudera的安装概述。
在深入理解YARN的工作原理后,本书继续探讨了如何提交样本MapReduce应用,如何处理YARN中的失败,以及如何通过YARN的Web UI查看容器和应用日志。此外,书中还详细介绍了如何将Storm和Spark等大数据处理框架集成到YARN上,以及如何编写自己的YARN应用程序。
在YARN的安全方面,本书详细解释了工作与访问控制列表(ACLs) ,以及如何使用Apache Ranger和Knox来简化Hadoop集群的安全配置。在资源管理方面,书中探讨了队列和队列类型,以及如何使用Capacity Scheduler和Fair Scheduler来实现高效的资源调度。
在MRv1和MRv2的迁移方面,本书提供了详细的MRv1和MRv2简介,并指导读者如何将MRv1应用迁移到MRv2。此外,书中