AI简介
这是一本以实际业务场景为例,介绍自然语言处理(NLP)系统开发项目的整个生命周期——从收集数据到部署和监控模型。全书分为四大部分,共有11章。第一部分概述NLP技术,为全书奠定知识基础。第二部分从实战角度讲解NLP系统的开发要点,内容涉及文本分类、信息提取等。第三部分专注于NLP重点应用的垂直领域:社交媒体、电子商务、医疗行业、金融业等,并辅以Python示例。第四部分将所有知识点融会贯通,并讲解如何利用所学知识部署NLP系统。
本书详细解析了自然语言处理在现实生活中的应用,如智能助手、垃圾邮件分类系统等。同时,书中还介绍了向量空间模型,如词袋模型、TF-IDF等,并讲解了基本的向量化方法,如独热编码、词袋等。此外,书中还深入探讨了文本表示的方法与应用,如词嵌入、循环神经网络(RNN)等。
在第二部分中,作者详细介绍了文本分类流水线,包括收集或创建标注数据集、将数据集分成训练集和测试集、将原始文本转换为特征向量、使用特征向量和对应的标签训练分类器、在测试集中测试模型性能、部署模型等。此外,书中还讲解了信息提取的定义与应用场景,如事件提取、时间信息提取等。
在第三部分中,作者重点介