AI简介
这是一本Java开发人员,特别是那些已经熟悉数据科学基本概念,并希望进一步提升自己技能的读者编写的书籍。这本书涵盖了数据获取与清洗、数据索引与搜索、数据统计分析、机器学习以及数据可视化等多个方面,为读者提供了全面的Java数据科学解决方案。
在数据获取与清洗方面,本书详细介绍了如何使用Java和Apache Commons IO库从文件和URL中读取数据,并使用Apache Tika和Java正则表达式处理文本文件。同时,还讲解了如何使用Univocity解析CSV和TSV文件,以及如何使用JDOM和JSON.simple处理XML和JSON文件。
在数据索引与搜索方面,本书深入讲解了如何使用Apache Lucene创建和搜索索引,以及如何使用Apache Solr和ElasticSearch等搜索平台。
在数据统计分析方面,本书介绍了如何使用Apache Commons Math进行描述性统计、回归分析、假设检验等,以及如何使用Java 8和Apache Commons Math进行频率分布和回归分析。
在机器学习方面,本书详细讲解了如何使用Java Machine Lea