用户画像

 ·  ☕ 15  · 👀...

介绍

概念

用户画像(UserProfile),也叫用户信息标签化、客户标签。
从电商的角度看,根据用户在电商网站上所填的信息和用户的行为,可以用一些标签把用户描绘出来,描述用户的标签就是用户画像。

构建用户画像技术

技术 说明
用户画像 1. 基本属性
2. 购买能力
3. 行为特征
4. 兴趣爱好
5. 心理特征
6. 社交网络
行为建模 1. 文本挖掘
2. 自然语言处理
3. 机器学习
4. 预测算法
5. 聚类算法
数据收集 1. 网络日志数据
2. 用户行为数据
3. 网站交易数据

用途

用途 举例 说明
精准营销、推荐 邮件、短信 1. 判断用户有小孩,短信推荐一些母婴产品
2. Push信息
用户统计、分类统计 地域、时段 1. 中国大学购买数据人数Top10
2. 全国城市奶爸当家指数
3. 十二星座对雾霾天气的防范指数4. 访客画像(男女比例、新老用户比例、年龄分布、学历分布)
数据挖掘 特征、行为 1. 喜欢什么东西的人往往喜欢什么
2. 做了这个事的人一般接下来会怎么做
3. 喜欢红酒的人通常喜欢什么运动品牌
4. 喜欢红酒的人年龄段分布情况

更新方式

更新方式 说明 适用场景
方式一 设置一个阈值,当获取的实时用户画像数据量超过这一阈值时,根据存储的画像数据构建用户画像 数据敏感型用户画像
方式二 设置一个时间周期,每隔该周期的时间根据存储的画像数据构建用户画像 时效性要求较高的用户画像
方式三 首先从增加的数据中挖掘用户画像,然后将其与原先得到的用户画像进行比较,根据比较的结果来决定是否更新 相对稳定的用户画像

基本概念

数据分类

概念 说明 用户画像
静态信息数据 1. 来源于用户填的个人资料,或者由此算出的数据
2. 如果有不确定的,可以建立模型来判断,比如用户性别如果不填,可以建立性别模型,根据用户的行为来判断其性别是什么及其概率
- 性别
- 生日
- 城市
- 学历
- 星座
- 月收入
- 婚姻状况
- 职业
动态信息数据 1. 用户行为产生的数据。如注册、浏览、点击、购买、签收、评价
2. 比较重要的行为。如购买商品、浏览商品、放入购物车、关注商品
- 注册时间
- 首单时间
- 潮妈组
- 纠结商品
- 最大消费
- 退货数量
- 败家指数
- 品牌偏好

标签分类

概念 说明 用户画像
确定的标签 比如用户购买了或者收藏了某个商品,用户送货地址和联系手机
猜测的标签 根据算法猜测的标签 用户的性别
- 是男性的概率0.8)
- 孕妇
- 汽车用户
- 用户价值
- 孩子性别概率
- 疑似马甲标志
- 潮妈族
- 满减促销敏感度
- 败家指数

数据挖掘

概念

根据用户的数据挖掘出一些有用的规律以支持决策。

分类

数据挖掘分类 说明
属性筛选 1. 属性筛选
2. 基于信息增益的属性打分
3. 属性重要性打分
4. 主成分分析
5. 基于卡方检验的属性筛选
分类预测 1. 决策树
2. 神经网络分类
3. 贝叶斯网络
4. 分类回归树
5. 支撑向量机分类
6. 逻辑回归
7. 朴素贝叶斯
8. 分类组合模型
回归预测 1. 多元线性回归
2. 神经网络回归
3. 广义线性回归
4. 支撑向量机回归
5. 回归组合模型
聚类分析 1. K均值聚类
2. 基于K均值的层次聚类
3. 分布估计聚类
4. 两阶段聚类
关联分析 1. 购物篮分析
2. 属性关联分析
3. 序列模式分析
时间序列 ARX时间序列

互联网常用用户表示方法

用户标识方式 特点 局限性
Cookie 能够标识匿名、未注册用户 通常有一定有效期,不易跨浏览器、设备
注册ID 网站的用户标识 用户注册意愿低,需要投入大量推广运营成本
Email 互联网早期常用的用户标识方式 一个用户可能有很多Email,此标识会损失准确性
微信、微博、QQ 互联网共识的第三方登陆ID,提供OAuth授权机制 标识具有准确性和持久性
手机号 移动端最精准的标识 较难获取到,视产品激励用户意愿
身份证 最官方的标识 难获取到,视产品激励用户意愿

数据建模

数据模型

客户消费订单模型

模型 数据来源表 用户画像
客户消费订单 订单表 用户什么时候来的?多久没来了?
- 第一次消费时间
- 最近一次消费时间
- 首单距今时间
- 尾单距今时间
总体消费情况怎么样?
- 最小消费金额
- 累计消费次数(不含退拒)
- 最大消费金额
- 累计消费金额(不含退拒)
- 累计使用代金券金额
消费水平怎么样

- 客单价(含退拒)
- 近90天客单价(含退拒)
**常用消费属性?(方便定向营销)**
- 常用收获地区
- 常用支付方式
客户消费订单 订单表
退货表
**最近的消费能力怎么样?
- 近30天购买次数(不含退拒)
- 近30天购买金额(不含退拒)
- 近30天购买次数(含退拒)
- 近30天购买金额(含退拒)
用户拒收和退货习惯则么样?**
- 退货商品数量
- 退货商品金额
- 拒收商品数量
- 拒收商品金额
- 最近一次退货时间
客户消费订单 购物车表 **用户购物车使用习惯怎么样?**
- 最近30天购物车次数
- 最近30天购物车商品件数
- 最近30天购物车提交商品件数
- 最近30天购物车放弃件数
- 最近30天购物车成功率
客户消费订单 订单表
用户表
**用户购物时间与地点习惯?**
- 学校下单总数
- 单位下单总数
- 下午下单总数
- 家里下单总数
- 上午下单总数
- 晚上下单总数

客户购买类目模型

模型 数据来源表 用户画像
客户购买类目 类目维表
一级分类ID
二级分类ID
三级分类ID
一级分类名称
二级分类名称
三级分类名称
客户购买类目 订单表
类目维表
用户最近都购买了哪些类目?
- 近30天购买类目次数
近30天购买类目金额
近90天购买类目次数
近90天购买类目金额
用户喜欢哪些类目

- 近180天购买类目次数
- 近180天购买类目金额
- 累计购买类目次数
- 累计购买类目金额
**用户多久没有购买这个类目了?**
- 最后一次购买类目时间
- 最后一次购买类目距今天数
客户购买类目 购物车表
类目维表
**用户最近都挑中哪些类目?**
- 近30天购物车类目次数
- 近30天购物车类目金额
- 近90天购物车类目次数
- 近90天购物车类目金额

客户购买商店模型

模型 数据来源表 用户画像
客户购买商店 商店表 - 商店ID
- 商店名称
- 品牌ID
- 品牌名称
客户购买商店 购物车表
商店表
用户最近挑选品牌的情况
- 最近30天购物车次数
- 最近30天购物车商品件数
- 最近30天购物车提交商品件数
- 最近30天购物车成功率
- 最近30天购物车放弃件数
**用户多久没有挑选这个品牌了?**
- 最后一次购物车时间
- 最后一次购物车提交商品件数
- 最后一次购物车次数
客户购买商店 订单表
商店表
用户最近购买商店与品牌的情况?
- 最近90天排除退拒商品件数
- 最近90天排除退拒商品金额
- 最近90天购买订单数(含退拒)«br>- 最近90天到货付款订单数
用户最近在这个商店和品牌的退货和拒收情况?
- 最近90天退货件数
- 最近90天拒收件数
- 最近90天退货商品金额
- 最近90天拒收商品金额
用户最后一次品牌的购买情况

- 最后一次排除退拒订单时间
- 最后一次排除退拒订单购买商品件数
- 最后一次排除退拒订单购买商品金额
- 最后一次退货时间
- 最后一次拒收时间

客户基本属性模型

模型 数据来源表 用户画像
客户基本属性 用户所填信息与基本属性 - 客户ID
- 生日
- 省份
- 加密手机
- 登陆来源
- 已使用积分
- 客户登陆名
- 年龄
- 城市
- 注册时间
- 邀请人
- 会员等级名称
- 性别
- 大区域
- 邮箱
- 登陆IP地址
- 会员积分
- 客户黑名单
客户基本属性 用户所填信息计算得到 - 星座
- 邮箱运营商
- 城市等级
- 手机前几位
- 手机运营商
客户基本属性 - 用户调查表得到 - 婚姻状况
- 月收入
- 是否有小孩
- 学历
- 职业
- 是否有车
- 使用手机品牌
客户基本属性 根据算法得到 - 性别模型
- 孩子性别概率
- 潜在汽车用户概率
- 使用多少种不同的手机
- 用户忠诚度
- 是否孕妇
- 孩子年龄概率
- 使用手机品牌
- 更换手机频率(月份)
- 用户购物类型
- 是否有小孩
- 是否有车
- 使用手机品牌档次
- 疑似马甲标志
- 疑似马甲账号数
- 身高
- 身材

客户营销信息模型

模型 数据来源表 用户画像
客户营销信息 订单表 用户首单详情?
- 第一个有效订单时间
- 第一个有效订单来源
- 第一个有效订单地址
- 第一个有效订单城市
- 第一个有效订单省份
- 第一个有效订单城市等级
用户最近购买的详情?
- 最近一次使用的收获地址省份
- 最近一次使用的收获地址城市
- 最近一次使用的手机号
纠结商品营销

- 是否有纠结商品
- 纠结小时
- 纠结商品
客户营销信息 订单表
用户表
用户常用联系信息?- 最常用手机号码
- 最常用手机号码的运营商
- 使用不同手机号数
- 不同收获地址数量
- 最近一次使用的邮箱
- 最常用邮箱
- 最常用邮箱运营商
- 使用不同的邮箱数
- 最常用收获地址
- 最近一次使用的收获地址
- 最近一次收货人姓名
- 最常用收获人姓名

客户活动信息模型

模型 数据来源表 用户画像
客户活动信息 订单表
订单活动表
**用户喜欢那种活动类型?**
- 用户促销敏感度
- 满减促销敏感度
- 满赠促销敏感度
- 打折促销敏感度
- 换购促销敏感度
- 团购类型促销敏感度
客户活动信息 订单表
店铺表
用户有什么偏好
店铺偏好
品牌偏好
品类偏好
颜色偏好
客户活动信息 订单表 **用户指数如何?**
- 购买力分段
- 败家指数
冲动指数
客户活动信息 用户表 用户的积分及积分使用习惯?
- 累计积分
- 可用积分
- 已用积分
用户代金券的使用习惯

- 累计代金券数量
- 已用代金券数量
- 过期代金券数量
- 可用代金券数量
- 累计代金券金额
- 已用代金券金额
- 过期代金券金额
- 可用代金券金额

客户访问信息模型

模型 数据来源表 用户画像
客户访问信息 PV表 **用户最近一次访问情况?
- 最近一次PC端访问日期
- 最近一次APP端访问日期
- 最近一次PC端访问信息
- 最近一次PC端访问使用操作系统
- 最近一次PC端访问Session
- 最近一次PC端访问Cookies
- 最近一次PC端访问使用浏览器
最近一次APP端访问使用浏览器
- 最近一次访问IP(不分PC与APP)
- 最近一次访问城市(不分PC与APP)
- 最近一次访问省份(不分PC与APP)
- 最近一次APP端访问使用操作系统
用户首次访问情况?**
- 第一次PC端访问日期
- 第一次APP端访问日期
- 第一次PC端访问信息
- 第一次PC端访问使用操作系统
- 第一次PC端访问Session
- 第一次PC端访问Cookies
- 第一次PC端访问使用浏览器
第一次APP端访问使用浏览器
- 第一次访问IP(不分PC与APP)
- 第一次访问城市(不分PC与APP)
- 第一次访问省份(不分PC与APP)
- 第一次APP端访问使用操作系统
客户访问信息 APP端view表 **用户APP端访问次数情况?**
- 近7天APP端访问次数
- 近15天APP端访问次数
- 近30天APP端访问次数
- 近60天APP端访问次数
- 近90天APP端访问次数
- 近180天APP端访问次数
- 近365天APP端访问次数
客户访问信息 PC端view表 **用户PC端访问次数情况?
- 近7天PC端访问次数
- 近15天PC端访问次数
- 近30天PC端访问次数
- 近60天PC端访问次数
- 近90天PC端访问次数
- 近180天PC端访问次数
- 近365天PC端访问次数
用户PC访问详情?**
- 近30天PC端访问天数
- 近30天PC端访问并购买次数
- 近30天PC端访问PV
- 近30天PC端访问平均PV
- 近30天PC端最常用的浏览器
- 近30天PC端不同IP数
- 近30天PC端最常用IP
- 近30天PC端不同Cookie数
- 近30天PC端最常用Cookie
- 近30天PC端最常用的操作系统
客户访问信息 view表 用户喜欢哪个时间段上网?
- 近30天0-5点访问的次数(不分PC与APP)- 近30天6-7点访问的次数(不分PC与APP)- 近30天8-9点访问的次数(不分PC与APP)
- 近30天10-12点访问的次数(不分PC与APP)
- 近30天13-14点访问的次数(不分PC与APP)
- 近30天15-17点访问的次数(不分PC与APP)
- 近30天18-19点访问的次数(不分PC与APP)
- 近30天20-21点访问的次数(不分PC与APP)
- 近30天22-23点访问的次数(不分PC与APP)

算法模型

性别模型

模型介绍

模型 参数 说明
用户性别 1:男
0:女
-1:未识别
1. 商品性别得分
2. 用户购买上述商品计算用户性别得分
3. 最优化算法训练阀值,根据阀值判断
孩子性别 0:仅有男孩
1:仅有女孩
2:男女均有
3:无法识别
-1:未识别
1. 选择男童女童商品,从品类和商品名称筛选
2. 确定用户购买商品的男女性别比例
3. 训练阀值,判断孩子性别,方法同用户性别

模型验证

  • 随机抽样几千条让客服电话确认
  • 与用户自己填的性别做对比,确认百分比

用户汽车模型

模型 参数 说明
用户是否有车 1:有
-1:未识别
根据用户购买车相关产品判断用户是否有车
潜在汽车用户 1:有
-1:未识别
- 用户浏览或者搜索汽车
- 用户数据判断

用户忠诚度模型

模型 参数 说明
用户忠诚度 1:忠诚型用户
2:偶尔型用户
3:投资型用户
4:浏览型用户
-1:未识别
总体规则是判断+聚类算法
1. 浏览型用户:只浏览没购买的
2. 购买天数大于一定天数的直接判断为忠诚用户
3. 购买天数小于一定天数,大部分都是有优惠才购买的
4. 其它类型根据购买天数,购买最后一次距今时间,购买金额进行聚类

用户购物类型模型

模型 参数 说明
用户购物类型模型一 1:购物冲动型
2. 海淘犹豫型
3. 理性目标型
4. 目标明确型
-1:未识别
1. 计算用户在对三级品类混凝购物前浏览时间和浏览SKU数量
2. kmeans聚类
用户购物类型模型二 1:乐于尝试型
2:价格敏感型
3. 消费冲动型
4. 昙花一现型
5. 重度消费型
-1:未识别
1. 计算用户对不同类型(新产品、价格贵的产品等)的商品的购买频次与购买数量
2. kmeans聚类

用户身高尺码模型

模型 参数 说明
男性用户身高尺码 xxx-xxx身高段
-1:未识别
用户购买服装鞋帽等用品判断
男性身材 1:偏瘦
2:标准
3:偏旁
4:肥胖
-1:未识别
用户购买服装鞋帽等用品判断
女性用户身高尺码 xxx-xxx身高段
-1:未识别
用户购买服装鞋帽等用品判断
女性身材 1:偏瘦
2:标准
3:偏旁
4:肥胖
-1:未识别
用户购买服装鞋帽等用品判断

疑似马甲标志模型

模型 参数 说明
疑似马甲标志 1:马甲
0:非马甲
-1:未识别
一个用户注册多个账号
- 多次访问ip地址相同的用户账号是同一个人所有
- 同一台手机登陆多次的用户账号是同一个人所有
- 收货手机号相同的账号是同一个人所有

手机相关模型

模型 参数 说明
手机相关模型 对于手机营销参考意义比较大
- 使用手机品牌:最常用手机直接得到
- 使用手机品牌档次:根据档次维表
- 使用多少种不同的手机:手机登陆情况
- 更换手机频率(月份):按时间段看手机登陆情况

客户品类分群模型

模型 参数 说明
客户品类分群模型 1:电脑婚庆群
2:全品类群
3:手机数码群
4:家电群
5:居家有孩一组
6:IT数码群7:服饰鞋帽群
8:母音图书群
9:单次购买用户
10:超级用户
-1:未识别
**客户品类分群的方式多种多样,基本都是用聚类算法实现,比如kmeans。品类分群对于品类的营销比较有用,比如单反相机营销。**

- 1. 计算用户在各一级品类的购买金额
2. kmeans聚类

客户活跃度模型

模型 参数 说明
客户活跃度模型一 - 注册未购买(只注册未购买,多是第三方登陆)
活跃(近60天有购买)
- 沉睡(近90天的购买、近60天无购买)
流失(近90天无购买,曾经购买过)
客户活跃度模型二 A = 用户近60天的购买数/(60天内的最早购买日期 - 60天内的最早购买日期)天数
- 高频:A>0.7
- 中频:0.4 ≤ A ≤0.7
低频:A ≤ 0.4

用户价值模型

模型 参数 说明
用户价值模型 用户价值分类方法一
- 高价值用户
- 中价值用户-
低价值用户
- 无价值
用户价值分类方法二
- 重要价值客户
- 重要保持客户
- 重要发展客户
- 重要挽留客户
- 一般价值客户
- 一般保持客户
- 一般发展客户
- 一般挽留客户
- 无价值客户
体现用户对于网站的价值,对于提高用户留存率非常有用
使用RFM实现用户价值模型参考指标

- 最近一次消费时间(Recency)或者最后一次消费至今时间
- 消费频率(Frequency)
- 消费金额(Monetary)
RFM实现用户价值模型计算方法
- 使用指标:最近一次购买时间、近180天购买订单量、近180天购买金额、分5段(可自定义)进行RFM分数计算
- 分别算出Recency_Score、Frequency_Score、Monetary_Score
- 没有分数是最近半年没有消费的用户,属于流失用户,即无价值用户,基本不会再回来
RFM实现用户价值模型的分类方法一
- 使用Recency_Score、Frequency_Score、Monetary_Score的中位数取,算不到取无价值客户
用户价值的实现方法二
- 使用RFM_Score的算法:采用100、10、1加权得到分数分段
用户用户价值的实现方法三
- 采用聚类分析,主要采用K-means(建议)、Two-step和Kohonen算法

促销敏感度模型

模型 参数 说明
单品类型促销敏感度 1:单品促销高度敏感
2:单品促销重度敏感
单品促销低度敏感
-1:未识别
1. 计算各类促销优惠的订单和金额占比
2. 利用上述比例聚类
套装类型促销敏感度 1:套装促销高度敏感
2:套装促销重度敏感
套装促销低度敏感
-1:未识别
1. 计算各类促销优惠的订单和金额占比
2. 利用上述比例聚类
团购类型促销敏感度 1:团购促销高度敏感
2:团购促销重度敏感
团购促销低度敏感
-1:未识别
1. 计算各类促销优惠的订单和金额占比
2. 利用上述比例聚类
满返类型促销敏感度 1:满返促销高度敏感
2:满返促销重度敏感
满返促销低度敏感
-1:未识别
1. 计算各类促销优惠的订单和金额占比
2. 利用上述比例聚类

用户购买力模型

模型 参数 说明
用户购买力模型一 1:高
2:中
3:低
-1:未识别
从购物车来判断
1. 商品购物车得分打标签
2. 用户购买上述商品比例
3. 聚类
用户购买力模型二 1:高
2:中
3:低
-1:未识别
从客单价来判断
用户客单价聚类

败家指数模型

模型 参数 说明
败家指数模型 1:1星
2:2星
3:3星
4:4星
5:5星
- 使用购买特征商品数量来识别(比如刚出来的苹果产品,奢侈品)
结合用户的订单金额,比如超过3万打5星

冲动指数模型

冲动指数模型 参数 说明
冲动指数模型 1:1星
2:2星
3:3星
4:4星
5:5星
- 使用特征商品(同品类价格较高商品)平均购物车停留时间
- 结合特征商品(同品类价格较高商品)的购买数量

算法

K-means聚类算法


Wanglibing
Wanglibing
Engineer,Lifelong learner