正文

概念+实战讲解！一文带你了解rfm模型kaggle项目实战分享数据分析(代码片段)

报告，今天也有好好学习  报告，今天也有好好学习  2023-01-08  458

关键词：

今日份学习分享，请查收！

必须要看的前言

RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中，RFM模型是被广泛提到的。

所以RFM模型是数据分析师必须掌握的知识点，而本篇文章详细介绍RFM模型的同时，还附带了kaggle项目实战，收藏本篇文章，你还怕搞不懂RFM模型，不懂怎么对用户进行分类吗？

一、什么是RFM模型？

RFM模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱3项指标来描述该客户的价值状况。

R值：Recency, 最近一次消费

最近一次消费指的是上一次购买距离当前的时间。比方说最近一次买车什么时候，上一次买唱片是几时。

理论上，上一次消费时间越近的顾客应该是比较好的顾客，对提供即时的商品或是服务也最有可能会有反应。营销人员若想业绩有所成长，只能靠偷取竞争对手的市场占有率，而如果要密切地注意消费者的购买行为，那么最近的一次消费就是营销人员第一个要利用的工具。

功能：R值的功能不仅在于提供的促销信息而已，营销人员的消费报告可以监督事业的健全度。优秀的营销人员会定期查看消费分析，以掌握趋势。月报告如果显示上一次购买很近的客户，(消费为1个月)人数如增加，则表示该公司是个稳健成长的公司；反之，如上一次消费为一个月的客户越来越少，则是该公司迈向不健全之路的征兆。

F值：Frequency, 消费频率

消费频率是顾客在限定的期间内所购买的次数。我们可以说最常购买的顾客，往往也是满意度最高的顾客。增加顾客购买的次数意味着从竞争对手处偷取市场占有率，由别人的手中赚取营业额。

基于这个指标，我们可以把客户分为五等分：如购买一次的客户为新客户，购买两次的客户为潜力客户，购买三次的客户为老客户，购买四次的客户为成熟客户，购买五次及以上则为忠实客户。运营人员的目标是要让消费者不断升级。

注意：不同类型的商品的消费频率往往有着较大的差距，如婚礼类产品和零食类产品，前者往往也就购买一次差不多得了（多了社会就乱套了哈哈），后者属于易耗品，消耗评论搞，相对容易产生重复购买，所以说F值不适合用作跨类目比较。

M值：Monetary, 消费金额

消费金额同消费频率一样，有限定的时间范围，指的是一段时间（通常是1年）内的消费金额。它同时也能验证帕累托法则（俗称二八法则），即80%的收入来自于20%的客户。

M值是RFM模型中相对于R值和F值最难使用，但最具有价值的指标。同一品牌美妆类，价格浮动范围基本在某个特定消费群的可接受范围内，加上单一品类购买频次不高，所以对于一般店铺而言，M值对客户细分的作用相对较弱。

二、实践应用有哪些？

基于RFM模型进行客户细分

CRM实操时可以选择RFM模型中的1-3个指标进行客户细分，如下表所示。切记细分指标需要在自己可操控的合理范围内，并非越多越好，一旦用户细分群组过多，一来会给自己的营销方案执行带来较大的难度，而来可能会遗漏用户群或者对同个用户造成多次打扰。

如何选择最终指标有两个参考标准：店铺的客户基数，店铺的商品和客户结构。

店铺的客户基数：在店铺自身客户数量不大的情况下，选择1-2个维度进行细分即可；反之可以选择2-3个指标进行用户用类。

店铺的商品和客户结构：如果在店铺的商品层次比较单一，客单价差异幅度不大的情况下，购买频次（F值）和消费金额（M值）高度相关的情况下，可以只选择比较容易操作的购买频次（F值）代替消费金额（M值）。对于刚刚开店还没形成客户粘性的店铺，则可以放弃购买频次（F值），直接用最后一次消费（R值）或者消费金额（M值）。

通过RFM模型评分后输出目标用户

RFM模型评分主要有三个部分：

确定RFM三个指标的分段和每个分段的分值；
计算每个客户RFM三个指标的得分；
计算每个客户的总得分，并且根据总得分筛选出优质的客户

还是以上图为例。

此时我们将每个用户在每个指标下所得的分数相加，就可得到最终的分数。

但这里需要注意的是，对于每个指标下所对应的每个分值不应像上图一样，应根据不同的店铺进行进一步的赋值（听其他网友说可以用AHP层次分析法，我暂时还没有去了解）。
并且，相加时最好先给每个指标设一个权重，比方说最终的计算公式可以是：score = 0.5R+0.3F+0.2M。
具体的权重设置也可以参考上文提到的两个参考标准。

基于RFM的常用策略

RFM非常适用于提供多种商品的企业，这些商品单价相对不高，或者相互间有互补性，具有多次重复购买的必要，这些企业可能提供如下商品：日用消费品、服装、小家电等；RFM也适用于这类企业，它们既提供高价值耐用商品、同时又提供配套的零部件或维修服务，如下：精密机床、成套生产设备、打印机等；RFM对于商品批发、原材料贸易、以及一些服务业（如旅行、保险、运输、快递、娱乐等）的企业也很适用。

RFM可以用来提高客户的交易次数。业界常用的DM(直接邮寄)，常常一次寄发成千上万封邮购清单，其实这是很浪费钱的。根据统计(以一般邮购日用品而言)，如果将所有R(Recency)的客户分为五级，最好的第五级回函率是第四级的三倍，因为这些客户刚完成交易不久，所以会更注意同一公司的产品信息。如果用M(Monetary)来把客户分为五级，最好与次好的平均回复率，几乎没有显著差异。

有些人会用客户绝对贡献金额来分析客户是否流失，但是绝对金额有时会曲解客户行为。因为每个商品价格可能不同，对不同产品的促销有不同的折扣，所以采用相对的分级(例如R、F、M都各分为五级)来比较消费者在级别区间的变动，则更可以显现出相对行为。企业用R、F的变化，可以推测客户消费的异动状况，根据客户流失的可能性，列出客户，再从M（消费金额）的角度来分析，就可以把重点放在贡献度高且流失机会也高的客户上，重点拜访或联系，以最有效的方式挽回更多的商机。

补充

以上三个指标会将维度细分出4份，这样就能够细分出4x4x4=64类用户，再根据每类用户精准营销……显然64类用户已超出普通人脑的计算范畴了，更别说针对64类用户量体定制营销策略。实际运用上，我们只需要把每个维度做一次两分即可，这样在3个维度上我们依然得到了8组用户。

（编号次序RFM,1代表高，0代表低）
重要价值客户（111）：最近消费时间近、消费频次和消费金额都很高，必须是VIP啊！
重要保持客户（011）：最近消费时间较远，但消费频次和金额都很高，说明这是个一段时间没来的忠诚客户，我们需要主动和他保持联系。
重要发展客户（101）：最近消费时间较近、消费金额高，但频次不高，忠诚度不高，很有潜力的用户，必须重点发展。
重要挽留客户（001）：最近消费时间较远、消费频次不高，但消费金额高的用户，可能是将要流失或者已经要流失的用户，应当给予挽留措施。

三、kaggle项目实战讲解

项目来源：
https://www.kaggle.com/carrie1/ecommerce-data

项目简介：
这是一个跨国数据集，其中包含在英国注册的商店于2010年12月1日至2011年12月9日之间发生的所有在线零售交易。该公司主要销售独特的全天候礼品，许多客户对象是批发商。

本次项目的主要目的是利用RFM模型进行用户分类。

PS: 本次项目是在jupyter上运行的。

导入模块

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
 
plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置汉字字体,优先使用黑体

加载数据

df = pd.read_csv('data.csv',encoding = 'ISO-8859-1', dtype = 'CustomerID':str)

接下来正式开始进行分析啦！

1 数据探索与数据清洗

1.1 数据探索

df.shape

df

数据包含541910行，8个字段，字段内容为：

InvoiceNo: 订单编号，每笔交易有6个整数，退货订单编号开头有字母’C’。
StockCode: 产品编号，由5个整数组成。
Description: 产品描述。
Quantity: 产品数量，有负号的表示退货。
InvoiceDate: 订单具体时间。
UnitPrice: 单价（英镑），单位产品的价格。
CustomerID:客户编号，每个客户编号由5位数字组成。
Country: 国家的名称，每个客户所在国家/地区的名称。

df.info()

我们不难发现，我们需要进行日期格式的转换，以及常规的缺失值统计、去重以及异常值的检测与处理。

1.2 缺失值统计

# 先统计缺失率
df.apply(lambda x :sum(x.isnull())/len(x),axis=0)

# Description是用于产品描述，与后续分析无关，删去。
df.drop(['Description'],axis=1,inplace=True)
df.head()

# 这里的CustomerID对于后续分析仅起到标识作用，不做删除，可以用unknown填充。
df['CustomerID'] = df['CustomerID'].astype('str')
df.info()

df['CustomerID'] = df['CustomerID'].fillna('unknown')

1.3 日期格式的转换

df['date'] = [x.split(' ')[0] for x in df['InvoiceDate']]
df['date'] = pd.to_datetime(df['date'])
df['month'] = df['date'].astype('datetime64[M]')
df[['date', 'month']]

1.4 去重

df = df.drop_duplicates()
df.shape

1.5 异常值处理

在这里，我们把退货订单看做异常数据（即数量为负数或者货单价为负数的数据）。

df[(df['Quantity']<0) | (df['UnitPrice']<0)]

# 除去异常数据
df = df[(df['Quantity']>0) & (df['UnitPrice']>0)]
df[(df['Quantity']<0) | (df['UnitPrice']<0)]

2 用户分类

#  首先计算R值
R_value = df.groupby('CustomerID')['date'].max()
R_value = (df['date'].max() - R_value).dt.days  # 这里将2011-12-9作为当前日期进行计算
R_value

# 将2010-12-1至2011-12-9视为F值的区间段，计算每个客户所下单的数量
F_value = df.groupby('CustomerID')['InvoiceNo'].nunique()
F_value

# 首先计算每个订单的消费金额
df['amount'] = df['Quantity'] * df['UnitPrice']
# 再计算M值
M_value = df.groupby('CustomerID')['InvoiceNo'].nunique()
M_value = df.groupby('CustomerID')['amount'].sum()
M_value

R_value.describe()

R_value.hist(bins = 30)

M_value.describe()

M_value.hist(bins = 30)

M_value.plot.box()

可见非常不均。

M_value[M_value<2000].hist(bins = 30)

# 分位数 观察出异常值还是很严重
F_value.quantile([0.1,0.2,0.3,0.4,0.5,0.9,1])

F_value.hist(bins = 30)

F_value.plot.box()

F_value[F_value<30].hist(bins = 30)

一样是非常的不均。

# 每个指标下都分为五个等级
R_bins = [0,30,90,180,360,720]
F_bins = [1,2,5,10,20,5000]
M_bins = [0,500,2000,5000,10000,200000]

先是R值：

R_score = pd.cut(R_value,R_bins,labels=[5,4,3,2,1],right=False)
R_score

接着是F值：

F_score = pd.cut(F_value,F_bins,labels=[1,2,3,4,5],right=False)
F_score

最后是M值：

M_score = pd.cut(M_value,M_bins,labels=[1,2,3,4,5],right=False)
M_score

生成新的数据框看一看：

rfm = pd.concat([R_score,F_score,M_score],axis=1)
rfm.rename(columns='date':'R_score','InvoiceNo':'F_score','amount':'M_score',inplace=True)
rfm

rfm.info()

改下数据格式：

rfm['R_score'] = rfm['R_score'].astype('float')
rfm['F_score'] = rfm['F_score'].astype('float')
rfm['M_score'] = rfm['M_score'].astype('float')
rfm.describe()

按平均值在每个指标下划分价值高低：

rfm['R'] = np.where(rfm['R_score']>3.82,'高','低')
rfm['F'] = np.where(rfm['F_score']>2.03,'高','低')
rfm['M'] = np.where(rfm['M_score']>1.89,'高','低')
rfm

# 将三个指标结合
rfm['RFM']=rfm['R']+rfm['F']+rfm['M']
rfm

def rfm2grade(x):
    if x=='高高高':
        return '高价值客户'
    elif x=='高低高':
        return '重点发展客户'
    elif x=='低高高':
        return '重点保持客户'
    elif x=='低低高':
        return '重点挽留客户'
    elif x=='高高低':
        return '一般价值客户'
    elif x=='高低低':
        return '一般发展客户'
    elif x=='低高低':
        return '一般保持客户'
    else:
        return '一般挽留客户'  
 
rfm['用户等级']=rfm['RFM'].apply(rfm2grade)
rfm

3 分类结果

rfm['用户等级'].value_counts()

rfm['用户等级'].hist(figsize=(12,9))

# 分类占比
rfm['用户等级'].value_counts() / rfm['用户等级'].value_counts().sum()

rfm['用户等级'].value_counts().plot(kind = 'pie', # 选择图形类型
        figsize = (15, 9),
        autopct='%.1f%%', # 饼图中添加数值标签
        title = 'RFM用户分类', # 为饼图添加标题
        textprops = 'fontsize':8,# 设置文本标签的属性值
        subplots=True)
plt.legend(loc=2, bbox_to_anchor=(1.05,1.0),borderaxespad = 0.)  # 添加注解

4 结论与建议

从用户分类占比的结果来看，高价值客户和重要发展客户共占总数的47%，是公司收入的重要来源。

高价值客户（111）
RFM三个值都很高，要提供vip服务。
重点发展客户（101）
消费频率低，但是其他两个值很高，就要想办法提高他的消费频率，建议及时推送公司活动信息或新品相关信息来吸引客户。
重点保持客户（011）
最近消费距离现在时间较远，也就是F值低，但是消费频次和消费金额高。这种用户，是一段时间没来的忠实客户。应该主动和他保持联系，提高复购率。可以赠送优惠券或推送商品折扣信息来增加购买次数。
重点挽留客户（001）
最近消费时间距离现在较远、消费频率低，但消费金额高。这种用户，即将流失，要主动联系用户，调查清楚哪里出了问题，并想办法挽回。当然同样可以赠送优惠券或推送商品折扣信息来增加购买次数。
一般发展客户（100）
公司应获取客户的详细数据信息用户画像，从中了解客户的消费属性。建议对此类客户进行精准营销和及时推送产品信息。

当然，最终的营销策略应基于公司自身的财政投入决定。

RFM也不可以用过头，而造成高交易的客户不断收到信函。每一个企业应该设计一个客户接触频率规则，如购买三天或一周内应该发出一个感谢的电话或Email，并主动关心消费者是否有使用方面的问题，一个月后发出使用是否满意的询问，而三个月后则提供交叉销售的建议，并开始注意客户的流失可能性，不断地创造主动接触客户的机会。这样一来，客户再购买的机会也会大幅提高。

结束语

为方便需要的朋友运行代码，我也把完整的代码和数据文件放到了网盘上，需要的朋友自取。
链接：https://pan.baidu.com/s/1qzVvW2tFYquertL6jbWx8w
提取码：1024

引用鸣谢：https://www.jianshu.com/p/4b60880f24e2

CSDN@报告，今天也有好好学习

一文带你了解推荐系统常用模型及框架

可以看KDD会议，最新推荐系统论文。推荐系统概述传统推荐模型OldschoolModel协同过滤模型通过对用户之间的关系，用户对物品的评价反馈一起对信息进行筛选过滤，从而找到目标用户感兴趣的信息。用户---商品的评分矩阵（该矩... 查看详情

一文带你了解知识图谱融入预训练模型哪家强？九大模型集中放送

©原创作者 |疯狂的Max01预训练模型与知识图谱1.预训练模型近年来，随着语言模型的技术发展，其在NLP领域获得巨大的成功，业界SOTA的前沿模型也大多是Transformer结构模型的变体。Transformer结构模型使用注意力机制来获取文本... 查看详情

python数据分析实战案例：基于电商销售数据的rfm模型构建(代码片段)

目录1.背景2.分析目标3.数据准备4.数据清洗4.1查看是否含有缺失值4.2查看是否有异常值4.3数据整理5.具体目标分析5.1分析每年销售额的增长率5.2各个地区分店的销售额5.3销售淡旺季分析5.4新老客户数5.5用户价值度RFM模型分析6.案例... 查看详情

python数据分析实战案例：基于电商销售数据的rfm模型构建(代码片段)

『python开发实战菜鸟教程』实战篇：一文带你了解人脸识别应用原理及手把手教学实现自己的人脸识别项目(代码片段)

文章目录0x01：引子0x02：环境搭建0x03：开发实战 1.实现人脸检测标记2.人脸特征点提取3.人脸识别验证0x04：后记开源GitHub地址--> https://github.com/xiaosongshine/dlib_face_recognition推荐补充阅读：『Python开发实战菜鸟... 查看详情

一文读懂：python爬虫超详细讲解带你实战爬知乎（零基础入门，男女老少都看的懂）(代码片段)

爬虫的基本流程网络爬虫的基本工作流程如下：首先选取一部分精心挑选的种子URL将种子URL加入任务队列从待抓取URL队列中取出待抓取的URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已... 查看详情

深度学习一文带你了解神经网络，激活函数

...度学习的核心，在了解神经网络之前，我们先来了解几个概念：智能(Intelligence)是个体有目的的行为,合理的思维以及有效的适应环境的综合能力。或者说智能是个体认识客观事物和运用知识解决问题的能力。人工智能(ArtificialInte... 查看详情

云原生一文带你搞懂docker容器的核心基石cgroups(代码片段)

...器的核心基石Cgroups的详细讲解，讲解了Cgroups的相关概念、Cgroups的构成与作用、如何查看和使用Cgroups等，对大家后续理解容器有很大的帮助~1、为什么要了解Cgroups2、Cgroups简介3、什么是Cgroups？4、为什么需要Cgroups?5、... 查看详情

一文带你了解.net自旋锁(代码片段)

本文主要讲解.Net基于Thread实现自旋锁的三种方式基于Thread.SpinWait实现自旋锁实现原理:基于Test--And--Set原子操作实现使用一个数据表示当前锁是否已经被获取0表示未被索取，1表示已经获取获取锁时会将_lock的值设置为1然后检查修... 查看详情

『python开发实战菜鸟教程』实战篇：一文带你了解人脸识别应用原理及手把手教学实现自己的人脸识别项目(代码片段)

《机器学习算法分类讲解与kaggle实战》专栏概述

查看详情

lora——一文带你了解lora通信技术，以后别人问你它的前世今生特点用途等都可以去吹牛了

【系列专栏】：博主结合工作实践输出的，解决实际问题的专栏，朋友们看过来！《QT开发实战》《嵌入式通用开发实战》《嵌入式Linux开发实战查看详情

lora——一文带你了解lora通信技术，以后别人问你它的前世今生特点用途等都可以去吹牛了

rfm用户分层模型｜原理+python全流程实现(代码片段)

...层，本文我们来了解一下常见的用户分层模型RFM。RFM概念RFM是由R(Recency)、F(Frequency)、M(Monetary)三个维度构成的，其具体含义如下：R：最近一次消费时间间隔F：消费频率M：消费金额这里对于这三个维度的概... 查看详情

一文带你了解java中的构造器

C++引入了构造器（constructor，也叫构造函数）的概念，它是在创建对象时被自动调用的特殊方法。Java也采用了构造器，并且还提供了一个垃圾收集器（garbagecollector），当不再使用内存资源的时候，垃圾收集器会自动将其释放。... 查看详情

一文带你了解单元测试和基准测试干货(代码片段)

在平时，通过代码实战部分你可以看到，在写每个功能的时候，都会编写测试代码。那是因为TDD（Test-DrivenDevelopment，测试驱动开发）中提倡先编写测试代码，然后再编写功能代码，每做一个修改... 查看详情

一文带你了解单元测试和基准测试干货(代码片段)

深度学习实战kaggle比赛：房价预测（kaggle-house-price）(代码片段)

实战Kaggle比赛：房价预测实战Kaggle比赛：房价预测Kaggle比赛获取和读取数据集预处理数据训练模型KKK折交叉验证模型选择预测并在Kaggle提交结果小结JupyterNotebook读取数据预处理数据连续数值的特征做标准化（standardizat... 查看详情