内容简介
这是一本讲述如何用NLP技术进行文本内容理解的著作,也是一本系统讲解NLP算法的著作,是作者在NLP和内容理解领域多年经验的总结。
本书结合内容理解的实际业务场景,系统全面、循序渐进地讲解了各种NLP算法以及如何用这些算法高效地解决内容理解方面的难题,主要包括如下几个方面的内容:
(1)文本特征表示
文本特征表示是NLP的基石,也是内容理解的基础环节,本书详细讲解了离散型表示方法和分布型表示方法等特征表示方法及其应用场景,还讲解了词向量的评判标准。
(2)内容重复理解
详细讲解了标题重复、段落重复、文章重复的识别方法和去重算法。
(3)内容通顺度识别及纠正
详细讲解了内容通顺度的识别方法以及纠正不通顺内容的方法。
(4)内容质量
详细讲解了多种内容质量相关的算法,以及如何搭建高质量的知识问答体系的流程。
(5)标签体系构建
详细讲解了针对内容理解的标签体系的建设流程和方法,以及多种相关算法。
(6)文本摘要生成
详细讲解了抽取式文本摘要和生成式文本摘要两种流行的文本摘要生成方法,以及文本摘要的常用数据集和文本摘要评价方法。
(7)文本纠错
详细讲解了文本纠错的传统方法、深度学习方法、工
AI简介
这是一本全面而深入地介绍自然语言处理(NLP)技术在文本内容理解领域应用的著作。书中首先介绍了文本特征表示,包括离散型表示方法和分布型表示方法,以及词向量的评判标准。接着,深入探讨了内容重复理解,包括标题重复、段落重复、文章重复的识别方法和去重算法。此外,书中还详细讲解了内容通顺度识别及纠正,包括数据增强、基于FastText算法的句子通顺度识别、基于TextCNN算法的分类任务实现、基于TextRNN算法的分类任务实现,以及基于Seq2Seq模型的纠正策略。
在内容质量方面,书中讲解了GBDT算法和XGBoost算法,以及如何搭建高质量的知识问答体系的流程。书中还详细讲解了标签体系构建,包括标签体系的重要性、分类、构建标签体系,以及TF-IDF算法、PageRank算法、TextRank算法等。在文本摘要生成方面,书中讲解了抽取式文本摘要和生成式文本摘要两种流行的方法,以及文本摘要的常用数据集和文本摘要评价方法。
在文本纠错方面,书中讲解了文本纠错的传统方法、深度学习方法、工业界解决方案,以及常用的文本纠错工具的安装和使用。最后,书中还介绍了用户画像构建与应用,包括如何通过标签体