文本数据挖掘:基于R语言

文本数据挖掘:基于R语言

评分

★★★★★

ISBN

9787111677505

出版社

机械工业出版社 2021-04-21出版

作者

黄天元

分类

数据库

内容简介
文本是一种特殊的非结构化数据,在当今的大数据时代,其价值日趋凸显。本书利用开源而强大的R软件,对文本数据挖掘的概念、技术及技巧进行了系统的介绍。本书共11章,内容包括:走进文本数据挖掘,R语言快速入门,字符串的基本处理,用好正则表达式,导入各类文本数据,对各类文本数据进行预处理,文本特征提取的4种方法,基于机器学习的文本分类方法,文本情感分析,文本可视化,文本数据挖掘项目实践。本书还提供了丰富的应用案例和程序源代码引导读者高效学习。本书适合对文本数据挖掘感兴趣的学生、科研人员和数据科学从业者阅读。同时,本书还可以作为工具书,为需要经常进行文本数据挖掘的读者提供快速检索。
AI简介
这是一本系统介绍文本数据挖掘的基本概念、技术和技巧的书籍。书中首先介绍了文本数据挖掘的基本概念,包括其定义、重要性、方法以及应用。接着,书中详细介绍了R语言,一种适用于各行业不同背景的从业者的开源软件,并讲解了R软件的安装与配置。 在文本数据挖掘的过程中,字符串处理是非常重要的一个环节。书中讲解了如何使用stringr包处理字符串,包括字符串的构造、辨识、计数与定位,以及字符串的提取、替换与删除等操作。此外,书中还介绍了正则表达式的概念和作用,以及如何使用正则表达式进行文本处理。 在文本数据挖掘中,特征提取是非常关键的一步。书中讲解了基本特征提取的概念与工具,以及如何使用TF-IDF方法进行文本特征提取。此外,书中还介绍了文本分类的概念与分类方法,包括有监督分类和无监督分类,以及有监督文本分类算法原理与应用。 除了上述内容,书中还详细介绍了文本情感分析的定义和目的,以及英文情感分析的方法与工具。此外,书中还讲解了文本可视化的概念和重要性,包括词云的基本概念和绘制方法,以及停用词去除的方法与过程。
阅读/下载地址