数据挖掘中涉及的关联规则在实际生活中的应用有哪些?
一、数据挖掘中涉及的关联规则在实际生活中的应用
关于关联规则分析,这篇文章可以认真学习一下,讲的比较全面,关联规则分析还在零售、快消、电商、金融、搜索引擎、智能推荐等领域大有所为,如超市捆绑营销、银行客户交叉销售分析、搜索词推荐或者识别异常、基于兴趣的实时新闻推荐等。
关联规则是反映一个事物与其他事物之间的相互依存性和关联性,常用于实体商店或在线电商的推荐系统:通过对顾客的购买记录数据库进行关联规则挖掘,最终目的是发现顾客群体的购买习惯的内在共性,例如购买产品A的同时也连带购买产品B的概率,根据挖掘结果,调整货架的布局陈列、设计促销组合方案,实现销量的提升,最经典的应用案例莫过于<啤酒和尿布>。
关联规则分析中的关键概念包括:支持度(Support)、置信度(Confidence)与提升度(Lift)。首先,我们简单温故下这3个关键指标。
1、支持度 (Support):支持度是两件商品(A∩B)在总销售笔数(N)中出现的概率,即A与B同时被购买的概率。类似于中学学的交集,需要原始同时满足条件。
例子说明:
比如某超市2016年有100w笔销售,顾客购买可乐又购买薯片有20w笔,顾客购买可乐又购买面包有10w笔,那可乐和薯片的关联规则的支持度是20%,可乐和面包的支持度是10%。
2、置信度 (Confidence):置信度是购买A后再购买B的条件概率。简单来说就是交集部分C在A中比例,如果比例大说明购买A的客户很大期望会购买B商品。
例子说明:
某超市2016年可乐购买次数40w笔,购买可乐又购买了薯片是30w笔,顾客购买可乐又购买面包有10w笔,则购买可乐又会购买薯片的置信度是75%,购买可乐又购买面包的置信度是25%,这说明买可乐也会买薯片的关联性比面包强,营销上可以做一些组合策略销售。
3、提升度 (Lift):提升度表示先购买A对购买B的概率的提升作用,用来判断规则是否有实际价值,即使用规则后商品在购物车中出现的次数是否高于商品单独出现在购物车中的频率。如果大于1说明规则有效,小于1则无效。
例子说明:
可乐和薯片的关联规则的支持度是20%,购买可乐的支持度是3%,购买薯片的支持度是5%,则提升度是1.33>1, A-B规则对于商品B有提升效果。 理论很简单,真正实践起来却会遇到种种困难,印证了那句”数据分析师的50%~80%的时间都花在了处理数据上”。
要计算支持度(Support)、置信度(Confidence)与提升度(Lift),首先需要知道Freq(A∩B)、Freq(A)、Freq(B)和总笔数数值,那么需要对商品进行排列组合。
若一个收银小票(销售ID)有30种商品,则组合数达到435种。而且可视化层级上还需要展现集团下每个分公司、每个城市、每个门店、月度、季度或者年度时间的关联规则分析,如果用传统的工具来实现上述分析无异于大海捞针。在BDP中,不仅可以便捷地实现多维数据分析,还可以通过灵活强大的功能组合来进行更深层面的数据分析探索。
延伸阅读:
二、BI是什么
BI即商业智能,泛指用于业务分析的技术和工具,通过获取、处理原始数据,将其转化为有价值的信息指导商业行动。Gartner把BI定义为一个概括性的术语(umbrella term),其中包括应用程序、基础设施和工具,通过获取数据、分析信息以改进并优化决策和绩效,形成一套优异的商业实践。

猜你喜欢LIKE
相关推荐HOT
更多>>
为什么SQL数据库用B树索引?
一、SQL数据库用B树索引的原因1、平衡性B树是一种自平衡的树型数据结构,它能够自动调整和保持树的平衡状态。这意味着无论是在插入、删除还是查...详情>>
2023-10-15 17:27:31
Python的pymysql、mysql、mysqlx库都有什么区别?
一、Python的pymysql、mysql、mysqlx库的区别Python的pymysql、mysql、mysqlx库连接数据库所使用的引擎不一样,简单操作都没什么影响的。如果一...详情>>
2023-10-15 16:54:43
CHNS数据库怎么查找想要的数据?
一、CHNS数据库查找想要的数据的方法CHNS数据库是指中国健康与营养调查(China Health and Nutrition Survey)数据库,该数据库提供了中国家庭...详情>>
2023-10-15 16:31:56
502 Bad Gateway怎么解决?
一、502 Bad Gateway的解决办法“502 Bad Gateway”错误是指在客户端(通常是您的浏览器)和服务器之间建立网关或代理时出现问题。1、刷新页面...详情>>
2023-10-15 16:03:47热门推荐
MySQL LEFT JOIN 和 JOIN查询有什么区别?
沸写好的java可执行程序在其他电脑上如何使用?
热oracle19c与oracle12c有哪些区别?
热Python的字典和数据库有什么区别?
新mysql字符串内部是怎么比较大小的?
Excel怎样从Access中实时读取更新的数据?
mysql中,逻辑删除对索引以及性能会造成什么影响?
什么是 ZIP 文件,工作机制是什么?
sql中group by,having语句在select前执行,那么为什么能用select中的别名?
public class和class的区别有哪些?
Python的应用领域及优缺点?
postgreSQL is not null 和 !=NULL有什么区别吗?
Oracle执行SQL报错ORA-00922是什么原因?
为什么SQL数据库用B树索引?
技术干货






