内容简介
If you are an expert Hadoop user who wants to use Apache Oozie to handle workflows efficiently, this book is for you. This book will be handy to anyone who is familiar with the basics of Hadoop and wants to automate data and machine learning pipelines.
AI简介
这是一本专注于Hadoop工作流调度器,Apache Oozie的指南。书中详细介绍了Oozie的安装与架构,Coordinator概念与调度,运行Sqoop作业,Rerun的概念与应用,Oozie的重跑功能,运行Hive 2 action jobs从Oozie,Workflow的定义,创建Oozie Pig Workflow,配置Oozie服务器以使用MySQL数据库,Spark与Hadoop生态系统的关系,运行Hive action从Oozie,Java MapReduce作业类型,HCatalog数据集,Bundles在作业调度中的应用,数据管道的概念与应用,Dataset定义与频率等关键内容。
书中首先介绍了Oozie的安装与架构,包括如何配置Oozie,如何安装Oozie,以及如何使用Oozie。接下来,书中详细介绍了Coordinator概念与调度,包括如何定义和调度Dataset,如何处理Dataset,以及如何定义Coordinator。书中还详细介绍了运行Sqoop作业,包括如何使用Sqoop,如何使用HCatalog,以及如何运行Sqoop作业。
书中还详细介绍