AI简介
这是一本专注于数据流上频繁模式和高效用模式挖掘计算的书籍。该书以数据流上的频繁模式和高效用模式挖掘计算为背景,详细介绍了该领域相关的概念、理论及近年来相关的最新研究成果。
本书内容分为多个章节,涵盖了传统数据集中的频繁模式挖掘及其大数据集下的频繁模式挖掘算法、不确定数据集上的频繁模式挖掘算法、具有效用值的数据流中的高效用模式挖掘算法等多个方面。在传统数据集上,频繁模式挖掘只考虑了事务项集中的项是否出现,而没有考虑事务项集中的项集效用值。而在高效用模式挖掘中,事务项集中的效用值也被考虑到了模式的挖掘模型中。至于不确定事务数据集,其频繁模式挖掘则考虑了事务项集中项对应值的不确定性。
书中详细介绍了Apriori算法和FP-Growth算法,这两种算法是频繁项集挖掘的重要算法,它们各有优缺点。Apriori算法需要多次扫描数据集,会产生大量的候选项集,但易于理解和实现;而FP-Growth算法只需要扫描数据集两次,但需要生成FP-Tree,对算法实现的要求较高。在实际应用中,可以根据具体需求和数据特点选择合适的算法。
此外,书中还介绍了滑动窗口的最小支持数,这是数据流挖掘中的一个重要概