数据分析笔记

认识常见的数据指标DAU & MAU数据统计系统的定义DAU & MAUDAU(Daily Active User)，日活跃用户数量；MAU（Monthly Active User），月活跃用户人数。DAU结合MAU一起使用，用来衡量服务的用户粘性以及服务的衰退周期。数据统计系统的定义预制报表的统计系统（友盟、百度统计、GA…）都是基于事件上报进行统计。（1）今天上报事件 →

昵称都给注册了

5399人浏览 · 2021-05-29 10:02:52

昵称都给注册了 · 2021-05-29 10:02:52 发布

数据分析

一、认识常见的数据指标
二、选好数据指标的通用理论（具体问题具体分析）
三、数据工具
四、数据分析
五、数据采集

写在前面：这些笔记是我在网络上看视频而记下的。

一、认识常见的数据指标

1.DAU & MAU

DAU(Daily Active User)，日活跃用户数量；
MAU（Monthly Active User），月活跃用户人数。
DAU结合MAU一起使用，用来衡量服务的用户粘性以及服务的衰退周期。

数据统计系统的定义

预制报表的统计系统（友盟、百度统计、GA…）都是基于 事件上报 进行统计。
（1）今天上报事件 → 这个用户是活跃的
例如：1.用户访问页面，页面加载成功后会向统计系统上报Page View事件；
2 . 用户点击app按钮，按钮被点击，上报onclick事件。
（2）注意事件不一定来自用户主动操作，可能存在其他影响
业务上的定义
（1）用户执行了关键事件 → 这个用户是活跃的
（2）存在***维护成本***（需不断维护日活事件列表）和***沟通成本***（团队内外对【活跃】的认识需统一）

2.如何定义新增

2.1选择合适的节点，定义【增】

定义【增】

2.2用适当的方法，判别【新】

判别【新】

3.用户留存

3.1 为什么要看留存

了解某一个渠道的质量——日留存
（1）以日为单位，衡量这个渠道来的用户当下&接下来的表现。
（2）以【x日日留存】作为比标准时，可以避免其他日数据的干扰。
2.观察整个大盘——周留存/月留存
（1）以周/月为单位，衡量产品的健康情况，观察用户在平台上的黏性。

4.PV、UV、转化率、访问深度

4.1Page View：页面浏览量（次数）

4.2Unique Visitors：独立访问数（人数）

4.3转化率

4.4访问深度：用户对产品的了解程度

4.4.1算法一：用户对某些关键行为的访问次数

4.4.2算法二：将网站内容/功能分成几个层级，以用户本次访问过最深的一级计算

在这里插入图片描述

5.访问时长

5.1为何统计访问时长

5.1.1 通过统计特殊事件，支持业务需求

1.统计视频被消费程度，评价内容质量（记录暂停/关闭页面后、播放器中视频进度条当前的位置）

5.2如何统计访问时长

在这里插入图片描述

6.弹出率

基于单次会话，定义用户来了立马就离开，没有进行任何操作。
在这里插入图片描述
如图所示：用户1、用户4、用户6是被弹出的

7.业务相关的数据指标

在这里插入图片描述

二、选好数据指标的通用理论（具体问题具体分析）

1.从业务的最终目的出发——梳理业务模块

1.1常见的拆解角度

（1）如何搞大/搞频繁（手段）
（2）往往有什么困难，我们通过什么特色方式解决的（工具）
在这里插入图片描述

在这里插入图片描述

2.判断业务模块所属类型

在这里插入图片描述

3.根据业务模块所属类型——选择数据指标

3.1 工具类模块关心的指标

在这里插入图片描述

3.2 交易类模块关心的指标

在这里插入图片描述

3.3 内容浏览类模块关心的指标

在这里插入图片描述

3.4 社区/社交类模块关心的指标

在这里插入图片描述

4.iMoney 数据指标选取

在这里插入图片描述

5.咸鱼关注的数据指标

在这里插入图片描述

C2C是电子商务的专业用语，意思是个人与个人之间的电子商务，其中C指的是消费者，因为消费者的英文单词是Customer（Consumer），所以简写为C，又因为英文中的2的发音同to，所以C to C简写为C2C，C2C即 Customer（Consumer） to Customer（Consumer）。比如一个消费者有一台电脑，通过网络进行交易，把它出售给另外一个消费者，此种交易类型就称为C2C电子商务。

6.土巴兔关注的数据指标（早年）

在这里插入图片描述

7.小结

在这里插入图片描述

三、数据工具

1.选择数据工具的核心逻辑

在这里插入图片描述

2.如何选择合适的数据工具

（1）数据工具能解决什么问题？
计数、流量、内容、用户、业务

2.1根据业务核心划分——公司缺了啥，最要命？

（1）案例1：社区类产品

懂球帝：用户导向 ——球迷长期留存

百度贴吧：内容导向——创作的文章成为百度搜索的内容来源

（2）案例：电商类产品

天猫、PDD、JD：规模化电商——流量快速变现

寺库：奢侈品电商——用户导向

（3）案例：视频类产品

优酷、爱奇艺：内容/流量导向

a站、b站：用户导向

2.2根据公司阶段划分

公司不同阶段关注的业务重点不同，需不同的数据工具
在这里插入图片描述

3.计数统计：快速验证

3.1解决的问题

计数，特别基本的一些分析功能

3.2优势

快，计算逻辑简单

4.流量导向：渠道依赖

4.1解决的问题

（1）谁来了？
（2）从哪来的？
（3）来了干什么？
（4）有没有达成目标？

4.2Google Analytics

自动化数据邮件日报、周报等
分享电子邮件发送
定时
预警功能
设置自定义提醒、备注功能

5.内容导向：质量第一

5.1解决的问题

以内容为核心资源的，如媒体、视频网站

5.2优势

能从内容的视角描述其表现

6.用户导向：用户为王

6.1解决的问题

（1）用户来了干什么？
（2）用户还会不会再来？
（3）用户在哪流失了？
（4）用户都是啥样的？

6.2优势

从用户视角描述单个用户的行为轨迹

7.业务导向：商业本质

6.1解决的问题

业务逻辑复杂，需要跟踪周期长

6.2优势

从商业逻辑上去还原整个业务流程，可接入线上-线下

四、数据分析

1.数据分析的价值

问题：

新购的这批视频到底有没有产生价值？
浏览到消费的转化率一直不超过1%，产品到底该优化哪儿？

2.如何进行对比分析

2.1比什么

（1）绝对值——本身具备【价值】的数字

销售金额
阅读数
不易得知问题的严重程度

（2）比例值——在具体环境中看比例才具备对比价值

活跃占比
注册转化率
易受到极端值影响

2.2怎么比

（1）环比：与当前时间范围相邻的上一个时间范围对比。

对短期内具备连续性的数据进行分析
需要根据相邻时间范围的数字对当前时间范围的指标进行设定

（2）同比：与当前时间范围上层时间范围的前一范围中同样位置数据对比。（当前时间：9月7日，上层时间：8月7日）。

观察更为长期的数据集
观察的时间周期里有较多干扰，希望某种程度上消除这些干扰

2.3和谁比

（1）和自己比：

从时间维度（连续数值：日活，月活…）
从不同业务线
从过往经验估计

（2）和行业比

是自身因素，还是行业趋势
都涨——能否比同行涨的多？
都跌——能否比同行跌的少？

3.如何进行多维度分析——数分的本质：用不同的视角去拆分、观察同一个数据指标

3.1案例：对【APP启动事件】的分析

在这里插入图片描述

3.2对业务流程，拆解维度

在这里插入图片描述

3.3多维度拆解的适用场景

在这里插入图片描述

4.数据涨跌异动如何处理

4.1案例1：对【收入跌10%】的应对

在这里插入图片描述

4.2常见的假设

活动的影响：查对应活动页面及对应动作的数据波动，关注活动是否有地域属性
版本发布：将版本号作为维度，区分查看
渠道投放：查看渠道来源变化
策略调整：策略上线时间节点，区分前后关键指标波动
服务故障：明确故障时间，按时间为维度进行小时或者分钟级别的拆分

4.3维度拆解分析是可以叠加的

案例：Web网页浏览量狂涨

按照浏览量来源拆分，发现未知来源；

异常用户按照地域划分，全来自北京；

按照浏览器拆分，大部分来自safari；

按浏览器版本拆解，safari用户无版本信息

4.4小结

发现异常——确定问题——确定原因——针对性解决问题——执行

5.漏斗观察的分析方法

5.1漏斗 = 一连串向后影响的用户行为

在这里插入图片描述

5.2 建立漏斗时容易掉的坑

漏斗一定是有时间窗口的

极端情况：

23：59分执行第一步，次日0：01执行第二步
用户在1月搜索商品，同年12月浏览了商品详情页

根据业务实际情况，选择对应的时间窗口

按天：对用户心智的影响只在短期内有效（如短期活动）
按周：业务本身复杂/决策成本高/多日才能完成（如理财/美股开户）
按月：决策周期更长（r如装修买房）

漏斗一定是有严格顺序的

3.漏斗的计数单位可以基于【用户】、也可以基于【事件】

往往基于【用户】

三节课：
* 关心整个业务流程的推动

也可以基于【事件】

关心某一步具体的转化率
无法获知事件流转的真实情况

结果指标的数据不符合预测

自查：是否只有一个漏斗能够到达最终目标

6.如何评估渠道质量，确定投放优先级

6.1常见的渠道划分方式

在这里插入图片描述

搜索引擎营销：英文Search Engine Marketing ，我们通常简称为“SEM”。简单来说，搜索引擎营销就是基于搜索引擎平台的网络营销，利用人们对搜索引擎的依赖和使用习惯，在人们检索信息的时候将信息传递给目标用户。搜索引擎营销的基本思想是让用户发现信息，并通过点击进入网页，进一步了解所需要的信息。企业通过搜索引擎付费推广，让用户可以直接与公司客服进行交流、了解，实现交易。

6.2渠道质量跟踪

1.选择关键事件

选取反映你产品目标人群会做的行为的数据

✔（电商）购买、（社区）发帖（可衡量各渠道来的用户是否为目标用户）
❌完成为期三个月的课程（门槛太高/流程太深，转化率极低，无区分度）
❌打开APP/访问首页（门槛太低，同样缺乏区分度）

2.查看产生关键事件的用户来源是哪

7.分布分析的方法

7.1分布情况

一个事件不仅只有累计数量这么一个可以观察的指标。
还可以从该事件在不同维度中的分布来观察。
在这里插入图片描述

7.2常见的群体划分

事件频率
一天内的时间分布
消费金额的区间

7.3运作原理

从事件在不同维度中的分布来观察，以便理解该事件除了累计数量和频次外，更多维度的信息。

7.4适用场景

已知一群用户完成了指定事件，但需要对用户群体进行细分，按不同的维度和价值将他们划分为不同群体，分别进行后续的维护或分析。
已知单个事件的完成次数，希望知道这些次数拆分到不同维度上后的分布情况，以便更清晰地了解该事件的完成情况。

8.用户留存的分析方法

8.1适用场景

验证产品长期价值
评估产品功能粘性

8.2留存

1.一般的计算方式

将某一段时间段的用户ID与另一段时间段的用户ID做交叉去重
产品、运营、技术、市场每个环节都会对留存造成影响

2.精准留存

过滤进行过指定行为的用户ID，再计算
将用户分为不同的群体后，观察其之间留存的区别

9.功能内容上线后，如何评估？

9.1某批漫画对付费会员转化的效果评估

在这里插入图片描述

上线后的目标与价值清晰明确

1.借助漏斗对比（转化关系明确时）
在这里插入图片描述

2.借助用户分群对比（转化关系较复杂时）

9.2某一主播对产品价值的影响（以用户留存衡量）

难点：

某些功能不能带来直接的商业价值，但希望它能长期留住用户
留存是一个特别复杂的构成，谁都可能影响它
因此需要看精准留存——上线后关注其对产品价值的提升

在这里插入图片描述

9.3一个功能/内容上线后，如何评估其对产品长期潜力的价值？

从对使用情况的促进作用来观察
- 某社交APP：本来一天只用一次，好友推荐功能发布后，一天用2~3天。
从占据用户一日时间段的角度来看观察
- 某播客产品：本来只在上下班通勤时使用，情感内容上线后，深夜段使用用户数提升。
上线以探索更长期的产品潜力
- 借助分布情况分析，对比其是否优化了使用频次/场景的分布

10.用户画像的分析方法

10.1用户画像

通过对用户各类特质进行标识，给用户贴上各类标签
通过这些标签将用户分为不同的群体，以便对不同的群体分别进行产品/运营动作

10.2标签

在这里插入图片描述

10.3标签从哪来

1.直接填写（注册时、兴趣标签、外卖快递地址、装修计算器）
2.通过用户自己的已有特质推得

何时需要？
- 做活动
- 简单的个性化运营
- 业务分析
- 用户研究（准备）

3.通过用户身边的人推断

距离相近
某些属性，周围的人都具备，用户大概率也具备
行为相似
通过协同过滤，找到行为相似的目标用户

10.4适用场景

市场营销、个性化运营、业务分析、用户研究

11.如何高质量拉新

11.1思路

在这里插入图片描述

11.2从现有用户中找到我们【真正的用户】

高留存
核心行为频次、完成率高

11.3找到【真正的用户】的特征

是谁
- 例：通过他们买卖的书籍，倒推他们的年龄、受教育程度、地域、消费能力。
从哪儿来
- 例：通过电话访谈等方式，发现很多来自朋友推荐。

1.4按此特征，找到类似的用户

用户画像
- 高校、科研院所、知识密集型工作区域
- 消费倾向社科类书籍
渠道来源
- 用【人拉人】而非【广撒网】地投放

12.如何进行归因查找

12.1归因查找

找出事件发生的【主要原因】

12.1归因查找的适用场景

对业务中明确的业务目标（购买、留资料、冲资料）归因，便可…

将目标的达成拆分到各个模块，方便统计各模块的贡献
获悉当前指标达成的主要因素，获得如何提升业务指标的洞见

12.3方法

末次归因转化路径短，且事件间关联性强的场景
递减归因转化路径长，非目标事件差异不大，没有完全主导的
首次归因强流量依赖的业务场景，拉人比后续所有事都重要

13.如何精准运营推送

13.1精准运营

运营资源盘活
- 不同人在同一个运营资源位上得到不同的信息
- 需要在【千人千面】和【千人千面】之间找到ROI的平衡
推送内容与用户【有关】
- 基于用户真实的动作，调整推送内容；
  使其感到推送是【因我而来】（而非自己是被批量推送的分母之一）

13.2运营资源盘活

常规做法 出台一套运营资源使用规则
推荐做法 精细化的用户分群运营
- 既能提升整个公司的可用资源，也能提升收到推送的用户自己的体验

13.3【千人？面】

理想：每个标签都去做不同的推送内容
- 【千人一面】运营力量有限：哪怕将用户精确地分成一千个群体，运营团队也很难每天都去编一千条不同的推送文案和页面
现实：在ROI找到一个平衡点，先选择容易出成绩的
- 容易出成绩的标签：如电商的性别标签
- 容易出成绩的运营位：如首页/每日推送
  【千人十面】往往就已经解决了80%的问题，7~8个标签往往足矣

13.4如何选择最初的七八个标签

人口统计学意义上的标签，如性别、年龄或者地域
- 【电商】性别影响商品偏好
- 【k12教育】地域影响教育水平、教材的选择、考察的侧重点
业务相关的标签
- 【k12教育】年级影响所学的内容、关注的信息
- 【健身】BMI影响用户对功能和内容上的诉求
推送内容与用户

14.路径挖掘的分析方法

14.1原理

1.逐级展开某一事件的前一级（后一级）事件，观察其流向

14.2适用场景

有明确的起始场景
有明确的结果目标

3.局限：无法观察具体的个体的行为

15.行为序列的分析方法

15.1原理

将单一用户的所有行为以时间线形式排列

15.2适用场景

观察具体的行为特征

16.如何辅助产品设计

16.1辅助产品设计决策

谁
- 用户画像
在什么情况下
- 行为序列的属性
干什么&遇到什么问题
- 行为序列 or 屏幕录像

17.羊毛党盛行——如何快速查出是谁在薅

17.1抓作弊的方法

在这里插入图片描述

找到【1】位
- 发现数据异常
  - 异常且无理由的流量
  - 工作人员观察
  - 人工举报
找到模式
- 明确其目的
  - 刷量
  - 薅羊毛
  - spam
- 观察其特质
  - 机刷
  - 人肉刷
  - 多：显著与普通用户相异的的动作，如通过商家变现、发布特定内容等。
  - 少：留存低、非核心业务（如帮助界面）几乎不访问
找到【N】
- RD爬取并人工审核
一网打尽
- 封
  - 封禁/封禁权限/屏蔽/定向屏蔽
- 提高关键成本
  - 前：注册7日后方可发帖
  - 中：减少存在bug的商品的库存
  - 后：提高提现的审核力度/周期
- 不做处理

五、数据采集

1.数据埋点与数据需求文档

1.1数据埋点：线上数据采集

困境一：自己理不清
- 要啥数据
- 有啥属性
困境二：RD听不懂
- 前端采集 or 后端采集？
- 跨越前 —— 后端取值？

1.2数据需求文档（DRD）

1.埋点需求
2.埋点实施过程中的细节

2.明确埋点需求

2.1 归纳需求

在这里插入图片描述

2.2选择适当的埋点属性

依据经验，预先按分析维度设计属性
- 较为依赖分析经验
- 频繁添加埋点，则需要RD密切配合
根据套路，预先设计埋点属性

在这里插入图片描述
1.Who

认设备
- web:cookie
- ios:UUID、IDFV、IDFA
- Androdi:UUID、Android ID
认人
- 线上：UID、微信等第三方 Union ID / Open ID、手机号、身份证
- 线下：手机号、身份证

2.When

问题一：哪个节点的时间
问题二：哪个时区的时间
- 上报时间时，带时区
- 使用Unix时间戳

3.Where

GPS:往往还需通过API取得详细地址信息（国家/省/市/街道）
IP：统一分配给运营商，相对比较粗略，可通过三方反查所属地
自主填写：相比用户真实位置，更关心用户希望在哪儿（如：装修买房）

4.How

在这里插入图片描述
5.What

2.3公共属性

公共属性部分统一取值、维护

2.4事件聚类

3.形成需求文档

3.1埋点位置选择

除非某个行为只在前端发生
否则，建议永远在后端采集

在这里插入图片描述

3.1.1前端埋点的弊端

某些属性前端没有
- （where/）what/how的许多信息，往往只存在于后端
改动依赖产品发版
- AppStore需审核、web发版也有排期，响应速度不如后端
事件上报时机略尴尬
- 需要在省流量/省电和及时性之间取舍

3.2埋点属性的来源

在这里插入图片描述

3.3埋点有效性的检验

在这里插入图片描述

3.4埋点文档的维护

是否在线
上线时间
下线时间
修改备注

4.数据采集实战

在这里插入图片描述

5.其他类型的数据采集方法

5.1全埋点/无埋点 = 把所有的浏览和点击行为都记录下来

适用场景
- 分析需求简单（只需要统计PV和点击）
- 开发限制因素多（临时活动，没有时间/资源部署埋点）
- 业务流程简单（不涉及更多信息，只需要点击、跳转）
  技巧：可通过将本来能在一页完成的流程拆分为多页，实现采集
限制
- 非浏览和点击事件无法采集，无法采集到what/how类的信息

5.1.1案例

在这里插入图片描述

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git

腾讯云开发者社区

所有评论(0)

查看更多评论

昵称都给注册了

@weixin_47661047

已为社区贡献1条内容

数据分析笔记

昵称都给注册了

数据分析

一、认识常见的数据指标

1.DAU & MAU

数据统计系统的定义

2.如何定义新增

2.1选择合适的节点，定义【增】

2.2用适当的方法，判别【新】

3.用户留存

3.1 为什么要看留存

4.PV、UV、转化率、访问深度

4.1Page View：页面浏览量（次数）

4.2Unique Visitors：独立访问数（人数）

4.3转化率

4.4访问深度：用户对产品的了解程度

4.4.1算法一：用户对某些关键行为的访问次数

4.4.2算法二：将网站内容/功能分成几个层级，以用户本次访问过最深的一级计算

5.访问时长

5.1为何统计访问时长

5.1.1 通过统计特殊事件，支持业务需求

5.2如何统计访问时长

6.弹出率

7.业务相关的数据指标

二、选好数据指标的通用理论（具体问题具体分析）

1.从业务的最终目的出发——梳理业务模块

1.1常见的拆解角度

2.判断业务模块所属类型

3.根据业务模块所属类型——选择数据指标

3.1 工具类模块 关心的指标

3.2 交易类模块 关心的指标

3.3 内容浏览类模块 关心的指标

3.4 社区/社交类模块 关心的指标

4.iMoney 数据指标选取

5.咸鱼关注的数据指标

6.土巴兔关注的数据指标（早年）

7.小结

三、数据工具

1.选择数据工具的核心逻辑

2.如何选择合适的数据工具

2.1根据业务核心划分——公司缺了啥，最要命？

2.2根据公司阶段划分

3.计数统计：快速验证

3.1解决的问题

3.2优势

4.流量导向：渠道依赖

4.1解决的问题

4.2Google Analytics

5.内容导向：质量第一

5.1解决的问题

5.2优势

6.用户导向：用户为王

6.1解决的问题

6.2优势

7.业务导向：商业本质

6.1解决的问题

6.2优势

四、数据分析

1.数据分析的价值

2.如何进行对比分析

2.1比什么

2.2怎么比

2.3和谁比

3.如何进行多维度分析——数分的本质：用不同的视角去拆分、观察同一个数据指标

3.1案例：对【APP启动事件】的分析

3.2对业务流程，拆解维度

3.3多维度拆解的适用场景

4.数据涨跌异动如何处理

4.1案例1：对【收入跌10%】的应对

4.2常见的假设

4.3维度拆解分析是可以叠加的

4.4小结

5.漏斗观察的分析方法

5.1漏斗 = 一连串向后影响的用户行为

5.2 建立漏斗时容易掉的坑

6.如何评估渠道质量，确定投放优先级

6.1常见的渠道划分方式

6.2渠道质量跟踪

7.分布分析的方法

7.1分布情况

3.1 工具类模块关心的指标

3.2 交易类模块关心的指标

3.3 内容浏览类模块关心的指标

3.4 社区/社交类模块关心的指标