内容简介
The book is aimed at upcoming and new data scientists who have little experience with machine learning or users who are interested in and are working on developing smart (predictive) web applications. Knowledge of Django would be beneficial. The reader is expected to have a background in Python programming and good knowledge of statistics.
AI简介
这是一本针对Web数据挖掘和机器学习领域的入门书籍。书中详细讲解了无监督学习和有监督学习的基本概念和算法,以及如何使用Python中的相关库进行实现。
书中首先介绍了机器学习问题的分类,包括无监督学习和有监督学习两大类。其中,无监督学习主要用于分析未标记的数据,揭示数据中的隐藏结构或降低数据的复杂性。而有监督学习则每个数据样本都有一个输入特征向量和标签值,其目标是预测测试数据的标签值。书中详细介绍了聚类算法和降维方法,如K-means算法、层次聚类算法、DBSCAN算法、主成分分析(PCA)等。
在Web数据挖掘技术方面,书中详细讲解了Web结构挖掘技术和Web内容挖掘技术。Web结构挖掘技术关注网络超链接的结构,而Web内容挖掘技术则使用网页上的文本信息进行分析。书中还介绍了自然语言处理(NLP)技术,包括词法分析、停用词去除、词干提取、信息检索模型、TF-IDF方法、潜在语义分析(LSA)算法和Doc2Vec(word2vec)方法等。
在模型误差估计方面,书中介绍了模型预测质量的评估指标,如均方误差(MSE),以及如何通过正则化技术来限制模型的复杂度,避免过拟合。
在决策