数据分析之道-第5章 数据标签体系
数据标签体系的构建是原始数据处理中的重要一环,依据用户历史行为数据对每个用户的社会属性、商业属性、内容属性、行为属性等打上相应的标签,以实现用户分层精准运营5.1 数据标签体系与用户画像数据中心通过对采集到的数据进行加工处理可以形成一系列的用户数据标签,同一用户多个标签的集合就组成了用户画像数据标签和用户画像可以帮助企业实现精细化运营和精准营销5.1.1 什么是数据标签体系用户的数据标签是通过对用
·
- 数据标签体系的构建是原始数据处理中的重要一环,依据用户历史行为数据对每个用户的社会属性、商业属性、内容属性、行为属性等打上相应的标签,以实现用户分层精准运营
- 5.1 数据标签体系与用户画像
- 数据中心通过对采集到的数据进行加工处理可以形成一系列的用户数据标签,同一用户多个标签的集合就组成了用户画像
- 数据标签和用户画像可以帮助企业实现精细化运营和精准营销
- 5.1.1 什么是数据标签体系
- 用户的数据标签是通过对用户行为数据进行加工处理得到的,它是用来描述实体业务特征的数据形式
- 挖掘用户的数据标签是企业实现广告定向投放、精准推送的先决条件
- 数据标签体系

- 用户的数据标签是指通过对用户的社会属性、消费习惯、偏好特征等多个维度的数据进行采集和处理,实现对用户或产品属性特征的刻画,并对这些特征进行分析、统计,挖掘潜在价值,从而抽象出用户的信息全貌
- 5.1.2 数据标签体系的作用
- 在不同的领域,数据标签有不同的应用场景。对于广告投放场景来说,数据标签体系能够实现人群的精准圈选,以实现广告投入产出比最高;对于电商来说,数据标签体系能够实现用户分层运营、商品精准推荐,从而实现GMV最大化;对于内容服务平台来说,数据标签体系能够实现内容精准推送,提升流量变现能力
- 总结起来,数据标签体系的作用可以归纳为用户洞察、个性推荐、渠道优化、营销增强等几个方面
- 5.1.3 数据标签的分类
- 标签的分类

- 统计类标签和规则类标签主要由数据分析师负责构建和维护,模型类标签则通常由算法工程师维护
- 从标签更新时间层面一般可以分为两类,即离线标签和实时标签。离线标签大多数情况下是隔天更新的,即以T+1的方式进行更新;很多场景下,按分钟级别、秒级别进行数据响应的就需要实时标签。通常情况下,数据分析师负责处理的数据标签都是离线标签
- 1. 统计类标签
- 例如,对于某个用户来说,其性别、地区、年龄、近7日活跃天数、近7日平均活跃时长等标签都可以从用户注册表、登录表中统计得出
- 2. 规则类标签
- 规则类标签是数据分析师基于用户行为数据及运营人员的经验共同制定的数据标签
- 基于数据特征的分布及运营人员的意见,定义统一的计算口径,实现用户数据标签化
- 如,根据用户付费金额的数据分布,同时参考运营人员的经验值,将月累计付费金额≥2000元的用户定义为高付费用户
- 3. 模型类标签
- 对于用户流失场景、用户转化场景,统计类标签和规则类标签可能满足不了业务需求,此时就需要基于用户历史行为数据通过机器学习的方法预测用户流失或转化的倾向
- 模型类标签的开发通常由算法工程师或者数据工程师开发,但是这类标签开发成本较高,时间周期较长,因此其所占比例较小
- 标签的分类
- 5.1.4 用户数据标签的层级分类
- 在进行数据标签层级分类的时候尽量参照MECE(Mutually Exclusive Collectively Exhaustive)原则:即相互独立,完全穷尽
- 可以根据不同的业务需求和业务形态进行层级分类,第一层可以分为社会属性标签、商业属性标签、内容属性标签、行为属性标签;确定标签的大类之后,可以继续对大类进行细分,形成二级分类,例如,社会属性标签可以细分为基础信息、位置信息、人群属性等;同样地,二级标签可以根据需要继续进行细分,形成三级标签,例如,基础信息标签可以继续细分为性别、年龄、职业等。最后,罗列三级标签的具体信息就形成四级标签
- 数据标签的层级分类

- 5.1.5 数据标签体系与用户画像的关系
- 用户的数据标签是用户画像的基础和前提,用户画像是数据标签的应用场景之一
- 数据中心通过采集用户人口属性数据、行为数据、内容偏好数据生成用户的数据标签,并将多个标签整合以及可视化最终生成用户画像
- 数据标签体系与用户画像之间的关系

- 数据标签体系是实现对用户的细分、实现用户分层运营的前提
- 5.2 如何构建数据标签体系
- 5.2.1 数据标签体系构建的流程
- 数据标签体系构建流程

- 1. 明确业务需求
- 需要与业务方沟通数据标签体系的运用场景,是运用于智能触达、用户分层还是个性推荐或其他场景
- 如果有明确的使用场景,数据分析师还需要沟通数据标签体系的开发周期等问题
- 因为数据标签体系的开发是一个工作量大、周期长的工作。如果业务方需求较为紧急,可以考虑其他代替方案
- 2. 制定基础框架
- 这个框架是数据标签体系开发的基础,框架层级可多可少,但至少包括一级标签和二级标签
- 3. 确定统一的计算口径
- 最好的解决办法是,数据部门开发一份全公司统一的数据指标字典,各个指标以统计口径进行计算,以防止统计口径不一致而造成的数据问题
- 4. 数据标签开发
- 需要数据分析师/数据工程师与算法工程师配合完成
- 数据分析师主要完成统计类标签和规则类标签的开发,算法工程师主要完成模型类标签的开发,而数据工程师会协助数据分析师完成标签的部署与调度
- 5. 标签上线及维护
- 数据标签开发完之后,标签上线与迭代是后续的重点工作。数据部门需要不断地调整/新增数据标签以满足不同的业务需求
- 数据标签体系构建流程
- 5.2.2 数据分析师在标签体系构建过程中承担的角色
- 在需求沟通阶段,数据分析师需要从宏观层面解读目标,明确业务场景及业务方的最终目标
- 明确需求之后,在数据标签开发阶段,数据分析师主要承担统计类标签和规则类标签的开发和维护工作
- 在标签开发阶段,需要统计哪些信息,规则如何制定,都是需要数据分析师和业务方共同讨论确定的
- 待数据标签开发完成后,就可以交给数据工程师完成线上部署及定时调度等配置
- 在数据标签开发完后,数据分析师的工作并未结束,后期对于数据标签的维护也是其重要工作之一。在数据标签维护过程中,数据分析师可能会需要根据业务需求和业务逻辑的变更及时地对数据标签体系进行调整
- 5.2.3 以某App付费用户的数据标签体系的构建为例,浅析数据标签体系构建过程
- 1. 明确业务需求
- 首先明确整体的需求:业务方想要通过用户标签识别潜在付费用户,通过个性化课程推荐来提高用户的付费率
- 明确需求之后,数据分析师可以利用5W2H分析框架拆解需求以明确构建用户标签体系的思路
- 通过5W2H模型拆解业务需求

- 2. 制定用户标签基础框架
- 根据需求解析结果,整理用户标签体系整体框架,以指导后续的标签开发
- 这一阶段需要业务方、数据分析师及算法工程师共同协商确定
- 某App付费用户标签体系的基础框架

- Who-社会属性和设备属性
- What/Where-内容属性
- When/Why-商业属性和行为属性
- 3. 确定标签维度及统一计算口径
- 标签的数据大多数情况下是通过数据埋点获取的;当然,对于用户的社会属性等标签信息往往是基于用户行为使用一定的算法推断出来的,也有基于第三方数据获取的
- 对于各个数据标签的计算口径,数据部门可以制定出一份统一的数据字典,以防止不必要的解释成本
- 4. 数据标签开发
- 1)数据分析师如何构建统计类标签
- 可通过SQL实现相关标签的统计并通过定时调度任务定期更新数据标签
- 数据分析师开发每月活跃用户在当月活跃情况的数据标签,则可以通过如下SQL代码实现,即从用户登录信息表中统计用户当月累计活跃天数及累计在线时长等标签

- 数据分析师也可以根据企业的业务属性,与业务方共同商定数据标签维度及相关统计口径
- 2)数据分析师如何构建规则类标签
- 数据分析师和运营人员确定的用户付费标签规则为:将当月累计付费金额(单元:元)大于0且小于或等于200的用户定义为初级付费用户(small_r);大于200且小于或等于400的用户定义为中级付费用户(medium_r);大于400且小于或等于600的用户定义为高级付费用户(big_r);大于600的用户定义为超级付费用户(super_r)。根据以上的定义规则,我们通过对用户的月累计消费金额进行数据分箱获得用户付费标签,实现的SQL代码如下

- 数据分析师和运营人员确定的用户付费标签规则为:将当月累计付费金额(单元:元)大于0且小于或等于200的用户定义为初级付费用户(small_r);大于200且小于或等于400的用户定义为中级付费用户(medium_r);大于400且小于或等于600的用户定义为高级付费用户(big_r);大于600的用户定义为超级付费用户(super_r)。根据以上的定义规则,我们通过对用户的月累计消费金额进行数据分箱获得用户付费标签,实现的SQL代码如下
- 3)模型类标签的开发
- 模型类标签主要由算法工程师负责开发,即对用户的社会属性进行预估,或者对用户的付费倾向、流失倾向等标签进行预测
- 5. 标签上线与版本迭代
- 部署上线一般由数据工程师来完成。数据分析师和算法工程师需要在上线后,对数据标签进行维护以及根据业务需求调整数据标签,以实现版本的迭代
- 1)数据分析师如何构建统计类标签
- 1. 明确业务需求
- 5.2.1 数据标签体系构建的流程
- 5.3 数据标签体系的应用场景
- 数据标签体系的应用场景

- 数据标签体系通常服务于数据产品,通过标签查询、人群圈选及自动化触达等功能辅助运营人员进行决策分析;同时,数据分析师可以直接通过数据标签体系提取相应数据,高效地完成日常取数工作以及数据指标体系的构建
- 5.3.1 数据标签体系辅助运营人员进行决策分析
- 1. 标签查询及人群圈选
- 业务方可以通过用户标签查询所需的用户群体,对不同类型的用户群体实现精细化运营
- 例如,可以将过去30天付费金额大于800元,活跃天数大于15天以及活跃间隔小于3天的用户定义为优质付费用户,进而对这部分用户进行精细化运营以提升付费金额;同样地,也可以圈选出近15天内没有活跃过且最近30天内活跃天数小于2天的用户,对这部分用户进行一定的干预以提升用户活跃度
- 2. 自动化触达
- 对于业务方来说,数据标签体系的第二个应用场景是自动化触达,以实现对特定用户的干预
- 例如,在标签查询及人群圈选功能中圈出优质付费用户或潜在流失用户,将这两类用户分别建立不同的群组,然后通过消息触达这两类人群。对于优质付费用户,可以提供“满减优惠券”以刺激用户付费;对于潜在流失用户,则可以通过发送“回归奖励”等消息来触达用户,提升用户活跃度
- 1. 标签查询及人群圈选
- 5.3.2 数据标签体系可提升数据分析师的分析效率
- 无论是面对用户分群的分析需求,还是指标体系的搭建相关需求,数据分析师基本都可以从数据标签体系底层表中直接取数,而不需要通过SQL再写几十行代码对数据进行分箱(分类),进而生成相应的标签,所以能够节省一定的时间成本,提升分析效率
- 数据标签体系的应用场景
更多推荐
所有评论(0)