内容简介
This course is meant for Java developers who are comfortable developing applications in Java, and now want to enter the world of data science or wish to build intelligent applications. Aspiring data scientists with some understanding of the Java programming language will also find this book to be very helpful. If you are willing to build efficient data science applications and bring them in the enterprise environment without changing your existing Java stack, this book is for you!
AI简介
这是一本面向Java开发者的数据科学入门教程,旨在帮助Java开发者在现有的Java技术栈上轻松进入数据科学领域,并构建智能应用程序。书中详细讲解了数据科学的定义与重要性,数据科学问题的解决步骤,数据获取的重要性和来源,文本清洗的必要性,数据清洗的必要性,数据可视化的概念和重要性,人工神经网络概述,自然语言处理(NLP)简介,数据科学应用中的性能优化,Apache Spark,在线评估的重要性,A/B测试的定义和目的,多臂老虎机问题,Java在声音处理方面的应用,深层学习网络的基本概念和特点,决策树的基本概念和特点等内容。
在数据科学的定义与重要性部分,书中解释了数据科学涉及多个学科,包括统计学、计算机科学和数据工程等,以及数据科学的发展催生了云计算和并行处理技术,如map-reduce,使得分析过程可以分布在多个处理器上,利用并行处理的强大能力。
在数据科学问题的解决步骤部分,书中详细介绍了数据获取、数据清洗、数据分析和应用开发四个阶段,并强调了数据获取的质量和效率直接影响到数据分析的结果。
在数据获取的重要性和来源部分,书中讲解了数据可以来自互联网上的多种来源,例如社交媒体、