内容简介
这是一本讲解NPU硬件架构设计与技术实现的著作。作者将自己在CPU、GPU和NPU领域15年的软硬件工作经验融会贯通,将四代NPU架构设计经验融为一体,将端侧和云侧NPU架构合二为一,总结并提炼出本书内容。本书主要讨论神经网络硬件层面,尤其是芯片设计层面的内容,主要包含神经网络的分析、神经网络加速器的设计以及具体实现技术。通过阅读本书,读者可以深入了解主流的神经网络结构,掌握如何从零开始设计一个能用、好用的产品级加速器。
通过阅读本书,你将:
透彻理解与深度学习相关的机器学习算法及其实现;
学会主流图像处理领域神经网络的结构;
掌握加速器运算子系统和存储子系统的设计;
摸清加速器设计中遇到的具体问题及其解决方法;
了解NPU架构需要考虑的控制通路和数据通路;
AI简介
这是一本深入讲解神经网络硬件层面架构设计与技术实现的著作。本书主要讨论神经网络硬件层面,尤其是芯片设计层面的内容,主要包含神经网络的分析、神经网络加速器的设计以及具体实现技术。通过阅读本书,读者可以深入了解主流的神经网络结构,掌握如何从零开始设计一个能用、好用的产品级加速器。
书中首先介绍了图像处理领域神经网络的结构,包括神经网络加速器内部缓存分布、网络的基本块以及存储子系统的设计。这些方面的设计和优化对于提升神经网络加速器的性能和效率至关重要。
接着,作者深入探讨了神经网络硬件层面架构设计,包括如何将神经网络算法有效地转化为硬件电路,以实现快速、高效的计算。书中详细阐述了卷积神经网络(CNN)的基本结构和算法实现,并深入探讨了针对CNN的AI加速器的各种架构、具体硬件实现和优化方法。
在存储子系统设计方面,本书详细介绍了存储子系统概述、数据格式的定义以及内部缓存的设计等内容。这些内容对于神经网络加速器的性能、功耗、面积影响巨大。
在架构优化技术方面,本书详细讨论了运算精度的选择、硬件资源的复用、Winograd算法和FFT算法、除法变乘法、LUT的使用、宏块并行技术、减少软件