AI简介
这是一本全面深入探讨视频理解领域的书籍,涵盖了视频理解的重要领域,包括动作识别、时序动作定位和视频Embedding等。本书不仅解释了相关算法的原理,还梳理了算法演进的脉络。全书共分6章,第1章简要介绍视频行业的发展历程;第2章回顾经典图像分类模型和RNN;第3章和第4章介绍动作识别的重要算法;第5章介绍时序动作定位的重要算法;第6章介绍视频Embedding的重要算法。
书中详细介绍了视频理解的定义和目标,旨在通过智能分析技术,自动化地对视频中的内容进行识别和解析。智能分析技术通常是指机器学习中的深度学习技术。
本书还详细介绍了图像分类网络回顾,主要介绍了图像分类在视频理解中的基础作用,以及图像分类网络的重要思想和设计理念。图像分类网络是动作识别算法的基础骨架,而动作识别是视频理解的基础。此外,RNN(循环神经网络) 及其两个重要变种LSTM(长短期记忆网络) 和GRU(门控循环单元) ,因其对时序数据的强大建模能力,在视频理解中也扮演了重要角色。
书中还详细介绍了基于2D卷积的动作识别方法,通过利用图像分类模型提取视频帧特征,然后进行特征融合的动作识别方法。这种方法可以快速吸