AI简介
这是一本深入探讨大数据处理中常见算法设计思想的书籍,包括I/O敏感算法、并行算法和随机化算法,以及几个大数据比较热门的专题。这些算法在当前的国内算法书籍中介绍较少,尤其并行算法和随机化算法,尽管已经有相关书籍,但是并行算法的书籍往往和硬件联系比较密切,偏重于计算密集型算法而不是数据密集型算法;随机化算法也并非针对数据密集型计算提出的。
书中详细讨论了大数据的特点和应用,包括规模性(Volume)、高速性(Velocity)、多样性(Variety) 和价值性(Value) ,这些特性对数据处理提出了新的挑战。同时,也介绍了平面图直径问题的亚线性算法、排序链表搜索的亚线性算法等,这些算法在处理大数据时具有较低的时间复杂度。
书中还深入探讨了时间亚线性算法和近似算法,以及如何设计和分析这些算法。同时,也介绍了数据流模型和算法质量分析,包括如何评估算法的准确性。此外,也介绍了空间亚线性算法在数据流中的应用,以及外存算法及其在数据存储中的应用,这些算法在处理大量数据时,能够有效地利用内存,降低I/O开销,提高数据处理效率。
书中还详细介绍了B树的基本原理与性质,以及缓存树在数据处理中的应