python中如何进行数据关联挖掘
1、经过分析,我决定使用Oranges进行关联规则的实现,原因如下:
FP-growth算法比Apriori算法时间复杂度低
Orange3是一整套数据挖掘工具包,学习后可以熟悉相关操作,进行其他的数据挖掘算法的研究

2、pymining不再维护,Orange3仍然是一个非常活跃的包,更新频繁
Orange3实现的结果比较多,除了规则外,还能够计算出评价结果的相关数据

3、数据输入
对于使用函数包来说,我们不用管函数实现的方法,只有研究数据输入的格式即可。
Orange3的关联规则输入支持两种形式:
布尔类型
字符串类型

4、对于布尔类型
每一个行向量代表一个属性是否存在的数据结构
>>> Xarray([[False, True, ..., True, False], [False, True, ..., True, False], [ True, False, ..., False, False], ..., [False, True, ..., True, False], [ True, False, ..., False, False], [ True, False, ..., False, False]], dtype=bool)

5、比如上面的数据X,注意这个array(属于numpy里面的多维数组)。类型一定是bool才行。 这个二维数组每一个行的维度都是一样的,这样得到的规则结果就是纯粹数组直接的关联 规则,我们要自己讲对于规则的数字和属性名称对于起来。

6、比如结果可能是这样:>> rules [(frozenset({17, 2, 19, 20, 7}), frozenset({41}), 41, 1.0), (frozenset({17, 2, 19, 7}), frozenset({41}), 41, 1.0), ... (frozenset({20, 7}), frozenset({41}), 41, 1.0), (frozenset({7}), frozenset({41}), 41, 1.0)]
1
