电商数据发掘之联系关系算法(一):“啤酒+尿布”的联系关系划
联系关系,实在很简朴,便是几个工具大概变乱是常常同时呈现的,“啤酒+尿布”便长短常典范的两个联系关系商品。
文/通策疑息尾席运营民 谭磊
所谓联系关系,反应的是一个变乱战其他变乱之间依靠或联系关系的常识。当我们查找英文文献的时分,能够发明有两个英文词皆能描述联系关系的寄义。第一个是相干性relevance,第两个是联系关系性association,二者皆能够用去形貌变乱之间的联系关系水平。此中前者次要用正在互联网的内容战文档上,好比搜索系统算法中文档之间的联系关系性,我们接纳的词是relevance;然后者常常用正在实践的事物之上,好比电子商务网站上的商品之间的联系关系度我们是用association去暗示的,而联系关系划定规矩是用association rules去暗示的。
假如两项或多项属性之间存正在联系关系,那么此中一项的属性值便能够根据其他属性值停止猜测。简朴天去道,联系关系划定规矩能够用那样的方法去暗示:A→B,此中A被称为条件大概左部(LHS),而B被称为成果大概左部(RHS)。假如我们要形貌闭于尿布战啤酒的联系关系划定规矩(购尿布的人也会购啤酒),那么我们能够那样暗示:购尿布→购啤酒。
联系关系算法的两个观点
正在联系关系算法中很主要的一个观点是撑持度(Support),也便是数据集合包罗某几个特定项的概率。
好比正在1000次的商品买卖中同时呈现了啤酒战尿布的次数是50次,那么此联系关系的撑持度为5%。
战联系关系算法很相干的另外一个观点是置疑度(Confidence),也便是正在数据集合曾经呈现A时,B发作的概率,置疑度的计较公式是 :A取B同时呈现的概率/A呈现的概率。
数据联系关系是数据库中存正在的一类主要的可被发明的常识。若两个或多个变量的与值之间存正在某种纪律性,便称为联系关系。联系关系可分为简朴联系关系、时序联系关系、果果联系关系等。联系关系阐发的目标是找出数据库中躲藏的联系关系网。偶然其实不晓得数据库中数据的联系关系函数,大概即便晓得也是没有肯定的,因而联系关系阐发死成的划定规矩带有置疑度。
联系关系划定规矩发掘发明年夜量数据中项散之间风趣的联系关系或相干联络。它正在数据发掘中是一个主要的课题,近来几年已被业界所普遍研讨。
联系关系划定规矩发掘的一个典范例子是购物篮阐发。联系关系划定规矩研讨有助于发明买卖数据库中差别商品(项)之间的联络,找出主顾购置止为形式,如购置了某一商品对购置其他商品的影响。阐发成果能够使用于商品货架规划、货存摆设和按照购置形式对用户停止分类。
联系关系划定规矩的发明历程可分为以下两步:
第一步是迭代辨认一切的频仍项目散(Frequent Itemsets),要供频仍项目散的撑持度没有低于用户设定的最低值;
第两步是从频仍项目集合机关置疑度没有低于用户设定的最低值的划定规矩,发生联系关系划定规矩。辨认或发明一切频仍项目散是联系关系划定规矩发明算法的中心,也是计较量最年夜的部门。
撑持度战置疑度两个阈值是形貌联系关系划定规矩的两个最主要的观点。一项目组呈现的频次称为撑持度,反应联系关系划定规矩正在数据库中的主要性。而置疑度权衡联系关系划定规矩的可托水平。假如某条划定规矩同时满意最小撑持度(min-support)战最小置疑度(min-confidence),则称它为强联系关系划定规矩。
联系关系划定规矩数据发掘阶段
第一阶段必需从本初材料汇合中,找出一切下频项目组(Large Itemsets)。下频的意义是指某一项目组呈现的频次相对一切记载而行,必需到达某一程度。以一个包罗A取B两个项目标2-itemset为例,我们能够供得包罗{A,B}项目组的撑持度,若撑持度年夜于即是所设定的最小撑持度(Minimum Support)门坎值时,则{A,B}称为下频项目组。一个满意最小撑持度的k-itemset,则称为下频k-项目组(Frequent k-itemset),普通暗示为Large k或Frequent k。算法并从Large k的项目组中再试图发生少度超越k的项目散Large k+1,曲到没法再找到更少的下频项目组为行。
联系关系划定规矩发掘的第两阶段是要发生联系关系划定规矩。从下频项目组发生联系关系划定规矩,是操纵前一步调的下频k-项目组去发生划定规矩,正在最小可托度(Minimum Confidence)的前提门坎下,若一划定规矩所供得的可托度满意最小可托度,则称此划定规矩为联系关系划定规矩。
比方:经过下频k-项目组{A,B}所发生的划定规矩,若其可托度年夜于即是最小可托度,则称{A,B}为联系关系划定规矩。
便“啤酒+尿布”那个案例而行,利用联系关系划定规矩发掘手艺,对买卖材料库中的记载停止材料发掘,尾先必需要设定最小撑持度取最小可托度两个门坎值,正在此假定最小撑持度min-support=5% 且最小可托度min-confidence=65%。因而契合需供的联系关系划定规矩将必需同时满意以上两个前提。若颠末发掘所找到的联系关系划定规矩 {尿布,啤酒}满意以下前提,将可承受{尿布,啤酒} 的联系关系划定规矩。用公式能够形貌为:
Support(尿布,啤酒)≥5% and Confidence(尿布,啤酒)≥65%。
此中,Support(尿布,啤酒)≥5%于此使用规范中的意义为:正在一切的买卖记载材料中,最少有5%的买卖显现尿布取啤酒那两项商品被同时购置的买卖止为。Confidence(尿布,啤酒)≥65%于此使用规范中的意义为:正在一切包罗尿布的买卖记载材料中,最少有65%的买卖会同时购置啤酒。
因而,此后如有某消耗者呈现购置尿布的止为,我们将可保举该消耗者同时购置啤酒。那个商品保举的止为则是按照{尿布,啤酒}联系关系划定规矩而定,果为便已往的买卖记载而行,撑持了“年夜部门购置尿布的买卖,会同时购置啤酒”的消耗止为。
从上里的引见借能够看出,联系关系划定规矩发掘凡是比力合用于记载中的目标与离集值的状况。
假如本初数据库中的目标值是与持续的数据,则正在联系关系划定规矩发掘之前该当停止恰当的数据离集化(实践上便是将某个区间的值对应于某个值),数据的离集化是数据发掘前的主要环节,离集化的历程能否开理将间接影响联系关系划定规矩的发掘成果。
下一期将引见一个使用联系关系划定规矩的案例去注释联系关系算法的实践使用。
下一篇:电商数据发掘之联系关系算法(两):牛奶能够拆配哪些商品
注:相干网站建立本领浏览请移步到建站教程频讲。
相关信息
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|