一. 基础知识 上次我们介绍了几个关联分析的概念,支持度,置信度,提升度。这次我们重点回顾一下置信度和提升度: 置信度(Confidence):置信度是指如果购买物品A,有较大可能购买物品B。计算方式是这样: 置信度( A -> B) = (包含物品A和B的记录数量) / (包含 A 的记录数量)
举例:我们已经知道,(牛奶,鸡蛋)一起购买的次数是两次,鸡蛋的购买次数是4次。那么置信度Confidence(牛奶->鸡蛋)的计算方式是Confidence(牛奶->鸡蛋)=2 / 4。
提升度(Lift):提升度指当销售一个物品时,另一个物品销售率会增加多少。计算方式是: 提升度( A -> B) = 置信度( A -> B) / (支持度 A)
举例:上面我们计算了牛奶和鸡蛋的置信度Confidence(牛奶->鸡蛋)=2/4。牛奶的支持度Support(牛奶)=3 / 5,那么我们就能计算牛奶和鸡蛋的支持度Lift(牛奶->鸡蛋)=0.83 当提升度(A->B)的值大于1的时候,说明物品A卖得越多,B也会卖得越多。而提升度等于1则意味着产品A和B之间没有关联。最后,提升度小于1那么意味着购买A反而会减少B的销量。 举个例子,有了这个指标,你就能看出卖越多的汉堡就会卖越多的番茄酱。但卖越多的沐浴露,则可能香皂的销量会下降。 二. 关联规则我们前面已经用Apriori得到频繁项集了。那么我们就可以在频繁项集的基础上,找到这里面的关联规则。而计算关联规则所用到的,就是我们上面所说的置信度和提升度。 这里有一点要注意,当我们发现置信度(A->B)很高的时候,反过来的值置信度(B->A)不一定很高。 一个物品的关联结果是非常多的。但好在,我们上一节学习了Apriori思想。运用在置信度上也是合适的: 如果一个关联结果的置信度低,那么它的所有超集的置信度也低。
这样一来,我们就能节省很多的计算量。 三. Apriori关联规则实战我们还是用mlxtend库,根据上一篇找到的频繁项集,计算出它们的关联规则。在此之前,还是先介绍一下相应API的参数。 association_rules(df, metric="confidence", min_threshold=0.8, support_only=False):参数介绍:- df:这个不用说,就是 Apriori 计算后的频繁项集。- metric:可选值['support','confidence','lift','leverage','conviction']。里面比较常用的就是置信度和支持度。这个参数和下面的min_threshold参数配合使用。- min_threshold:参数类型是浮点型,根据 metric 不同可选值有不同的范围, metric = 'support' => 取值范围 [0,1] metric = 'confidence' => 取值范围 [0,1] metric = 'lift' => 取值范围 [0, inf]support_only:默认是 False。仅计算有支持度的项集,若缺失支持度则用 NaNs 填充。完整代码如下: import pandas as pdfrom mlxtend.preprocessing import TransactionEncoderfrom mlxtend.frequent_patterns import apriori#设置数据集dataset = [['牛奶','洋葱','肉豆蔻','芸豆','鸡蛋','酸奶'], ['莳萝','洋葱','肉豆蔻','芸豆','鸡蛋','酸奶'], ['牛奶','苹果','芸豆','鸡蛋'], ['牛奶','独角兽','玉米','芸豆','酸奶'], ['玉米','洋葱','洋葱','芸豆','冰淇淋','鸡蛋']] te = TransactionEncoder()#进行 one-hot 编码te_ary = te.fit(records).transform(records)df = pd.DataFrame(te_ary, columns=te.columns_)#利用 Apriori 找出频繁项集freq = apriori(df, min_support=0.05, use_colnames=True)#导入关联规则包from mlxtend.frequent_patterns import association_rules#计算关联规则result = association_rules(freq, metric="confidence", min_threshold=0.6)这里我们根据置信度来计算,找出置信度大于0.6的关联规则。 计算结果如下: antecedents consequents antecedent support consequent support support confidence lift leverage conviction 0 (洋葱) (芸豆) 0.6 1.0 0.6 1.00 1.00 0.00 inf 1 (芸豆) (洋葱) 1.0 0.6 0.6 0.60 1.00 0.00 1.000000 2 (洋葱) (鸡蛋) 0.6 0.8 0.6 1.00 1.25 0.12 inf 3 (鸡蛋) (洋葱) 0.8 0.6 0.6 0.75 1.25 0.12 1.600000 4 (芸豆) (牛奶) 1.0 0.6 0.6 0.60 1.00 0.00 1.000000 5 (牛奶) (芸豆) 0.6 1.0 0.6 1.00 1.00 0.00 inf 6 (酸奶) (芸豆) 0.6 1.0 0.6 1.00 1.00 0.00 inf 7 (芸豆) (酸奶) 1.0 0.6 0.6 0.60 1.00 0.00 1.000000 8 (芸豆) (鸡蛋) 1.0 0.8 0.8 0.80 1.00 0.00 1.000000 9 (鸡蛋) (芸豆) 0.8 1.0 0.8 1.00 1.00 0.00 inf 10 (洋葱, 芸豆) (鸡蛋) 0.6 0.8 0.6 1.00 1.25 0.12 inf 11 (洋葱, 鸡蛋) (芸豆) 0.6 1.0 0.6 1.00 1.00 0.00 inf 12 (鸡蛋, 芸豆) (洋葱) 0.8 0.6 0.6 0.75 1.25 0.12 1.600000 13 (洋葱) (鸡蛋, 芸豆) 0.6 0.8 0.6 1.00 1.25 0.12 inf 14 (芸豆) (洋葱, 鸡蛋) 1.0 0.6 0.6 0.60 1.00 0.00 1.000000 15 (鸡蛋) (洋葱, 芸豆) 0.8 0.6 0.6 0.75 1.25 0.12 1.600000 我们可以发现,除了置信度(confidence),提升度(lift)外,还有两个指标,leverage和conviction。这两个用得比较少,和置信度,提升度也有些类似,就不展开说了。 既然返回的结果是Dataframe,那么就可以很方便得用pandas的排序方法找出置信度或提升度高的物品组合,方法如下: DataFrame.sort_values
比如上面例子中要找出最大的置信度,用 result.sort_values(by = 'confidence',ascending=False,axis=1)
上面例子中我们可以发现,{洋葱 -> 鸡蛋,芸豆} 的置信度是 1.00 ,而它们的提升度是 1.25 。这说明买了洋葱的人很可能会再购买 1.25 份的 {鸡蛋,芸豆} 。所以可以让它们放到一起出售。 OK,相信通过这个前面的介绍和这次的这个例子,已经能够明白Apriori算法的原理以及如何使用它。当然Apriori只能算是关联挖掘算法中比较基础的一个,还有其他的关联挖掘算法,比如FP-growth,以后有机会再介绍吧。 对了,我从网上找了个关联分析的数据和大概针对这个数据写了个小的demo代码。
数据是超市的购物清单,大概有7500条,足够我们来运算分析了。
|
|