
1. 分布关系
1.1. 分布是将一个类别按照类别内项目的数值进行分解
1.2. 分布关系常常与总分关系混淆
1.2.1. 分布是将一个类别细分成若干值域,划分标准是该类别测量的数值
1.2.2. 总分关系是按照类别来划分数据,而非一个类别内的定量指标
1.3. 表示分布关系的词语
1.3.1. 频率
1.3.2. 集中度
1.3.3. 分布
1.3.4. 值域
1.3.5. 正态曲线、正态分布、钟形曲线
1.4. 场景示例
1.4.1. 订单金额分布
1.4.2. 响应时间分析
1.4.3. 耗电量范围
1.5. 分布关系的常用数据图
1.5.1. 直方图
1.5.1.1. 最常见的分布数据图是直方图
1.5.1.2. 直方图将数据分成多个不同的值域,称为“区间”(bin)
1.5.1.3. 按照惯例,直方图的柱子之间是没有间隔的
1.5.1.4. 除非受众用过统计分析软件,否则未必能通过这个惯例认出直方图
1.5.1.5. 要认真做好标签,准备好向受众解释这种数据图
1.5.1.6. 直方图的适用场景
1.5.1.6.1. 表示单个变量的分布
1.5.1.6.2. 受众熟悉直方图
1.5.2. 频率多边形
1.5.2.1. 它不表示数值随时间的变化,而是表示分布情况
1.5.2.2. 与所有折线图一样,如果类别数目过多,或者频繁交叉的话,频率多边形就不容易看清了—所以要限制类别的数目
1.5.2.3. 频率多边形的适用场景
1.5.2.3.1. 比较多个变量的分布
1.5.2.3.2. 变量的量纲具有可比性,或者可以转化为百分比
1.5.2.3.3. 标签和语境因素能降低频率多边形被误认为时间序列的可能性
1.5.3. 箱形图
1.5.3.1. 箱形图发明于20世纪60年代末,是一种比较新的数据可视化工具
1.5.3.2. 商业领域的受众往往需要沟通者做大量讲解,因为箱形图种类很多,而且需要受众对抽象统计概念有直观认识
1.5.3.3. 箱形图可以对有学术研究背景的受众使用—箱形图在学术界常用得多
1.5.3.4. 箱形图最适合需要比较多个分布的场合
1.5.3.4.1. 在这种情况下,频率多边形会把人看糊涂,而平均数等概括统计量又不足以描述数据
1.5.3.5. 使用箱形图应该注意的一点是,底层数据必须具有统计学上的单峰性
1.5.3.5.1. 单峰分布体现在直方图上,就是只有一个最高点
1.5.3.5.2. 有一个值或值域明显占据制高点
1.5.3.5.3. 箱形图不适合表现双峰分布,因为箱子不能体现出两个高点
1.5.3.6. 箱形图的适用场景
1.5.3.6.1. 比较多个类别的分布
1.5.3.6.2. 数据满足单峰性
1.5.3.6.3. 每个分布只需要少数区间即可描述
1.5.3.6.4. 类别的相对大小不是统计图要表达的重点
1.5.3.6.5. 时间充裕,可以向不熟悉箱形图的受众进行讲解
1.5.3.6.6. 受众熟悉四分位等抽象统计概念
1.6. 呈现分布关系的最佳实践
1.6.1. 用心选择区间
1.6.1.1. 在直方图中,等距区间对受众来说是最直观的
2. 相关关系
2.1. 相关关系指的是两个定量变量之间的关系,最常用散点图表示
2.2. 表示相关关系的词语
2.2.1. 随着……增加
2.2.2. 随着……减少
2.2.3. 随着……变化
2.2.4. 随着……变动
2.2.5. 与……相关
2.2.6. ……跟随……
2.3. 场景示例
2.3.1. 订单均价对下单频率的影响
2.3.2. 不同地区的盈利能力与增长率
2.3.3. 销售人员供职时长与销量
2.3.4. 通话时长与服务质量评分
2.3.5. 由降雪预测带动的铁锹销量
2.4. 表示因果关系的词语要慎用
2.4.1. 商业分析的一个常见目标,就是进一步理解因果关系,希望借此做出能达到预期效果的选择
2.4.2. 相关关系是理解因果关系的一个关键工具,因为它反映了一个指标的变化与另一个指标的关联
2.4.3. 相关性不等于因果性,而因果性才是大多数管理者追求的东西
2.4.4. 要留意以下表述
2.4.4.1. 由……导致
2.4.4.2. 由……造成
2.4.4.3. 在……的驱动下
2.4.4.4. 对……的影响
2.5. 相关关系的常用数据图
2.5.1. 散点图
2.5.1.1. 散点图是最常用来表示相关关系的数据图,体现了两个定量变量之间的关系
2.5.1.2. 好处是,受众可以看到各个数据点,而不是平均数等概括统计量
2.5.1.3. 在标签注释得当的情况下,散点图会成为一种解释数据的强大工具
2.5.1.4. 散点图的适用场景
2.5.1.4.1. 呈现每一个数据点是有价值的
2.5.1.4.2. 平均值等概括统计量可能会模糊关键信息
2.5.1.4.3. 两个变量之间存在有意义的关系
2.5.1.4.4. 离群值要么是有意义的,要么数量很少
2.5.1.4.5. 你有时间进行规范标注和注释
2.5.2. 气泡图
2.5.2.1. 散点图体现两个定量变量之间的关联,气泡图则可以通过数据点的大小来编码第三个定量变量
2.5.2.2. 气泡图能体现的点比散点图少得多,但适用于重点强调点的聚集关系,而非变量相关关系的情况
2.5.2.3. 除非气泡面积编码的信息对数据图支持的决策至关重要,否则就要选择散点图
2.5.2.4. 气泡图的适用场景
2.5.2.4.1. 数据点的数量有限
2.5.2.4.2. 气泡大小有显著差别,且易于区分
2.5.2.4.3. 气泡大小所编码的信息对数据图支持的决策至关重要
2.5.2.4.4. 时间充裕,足够添加适当的标签和注释
2.5.2.4.5. 受众熟悉气泡图,或者你有时间进行讲解
2.5.3. 矩阵图不强调市场份额与市场增长的关系,而是为了帮助受众建立各分部的心理分类模型,以便更好地分配资源
2.5.4. 表格透镜
2.5.4.1. 散点图的一个替代品是表格透镜(table lens)
2.5.4.2. 表格透镜通过配对的柱形图来表现相关关系
2.5.4.3. 用两幅柱形图来呈现相关关系—所有受众大概都熟悉柱形图
2.5.4.4. 表格透镜也适用于散点图识读困难的环境
2.5.4.5. 表格透镜的主要缺点是,它只能表达非常粗略的相关关系
2.5.4.5.1. 点与点之间的关系丢失了
2.5.4.6. 表格透镜不能有效体现点的聚集,而且能够支持的数据点远远少于散点图,稍微多一点儿就难以识读了
2.5.4.7. 表格透镜的适用场景
2.5.4.7.1. 数据点数量有限
2.5.4.7.2. 平均值等概括统计量可能会模糊关键信息
2.5.4.7.3. 受众不熟悉散点图
2.5.4.7.4. 变量间有清晰的相关关系
2.6. 呈现相关关系的最佳实践
2.6.1. 加入拟合线并说明离群值,以便受众聚焦
2.6.1.1. 散点图的一个长处,就是能承载的数据密度大
2.6.1.2. 散点图将大量信息塞进了一个小空间内
2.6.1.3. 如果观看者不确定往哪里看,认知负荷就会很大
2.6.1.3.1. 应该加入拟合线,将受众的注意力聚焦到核心关系上
2.6.1.4. 拟合线是一种非常有力的工具,使用的前提条件是,你有可靠证据表明x轴变量的变化会造成y轴变量的变化
2.6.1.5. 人类既容易发现模式,也能迅速注意到离群值
2.6.2. 强调相关性,淡化不相关
2.6.2.1. 解释性报告要聚焦于哪些变量是相关的,而非哪些变量互不相关
2.6.2.2. 人类有寻找模式的倾向,因此,哪怕两个变量没有统计意义上的相关性,受众也可能会从中看出相关性
2.6.2.3. 一般来说,除非不相关是沟通的要点,否则不要呈现出来
2.6.2.4. 如果变量之间不相关,那就不要展示拟合线或其他表示相关性的符号
3. 运用分类体系扩展数据图类型库
3.1. 要尽量使用常见的数据图类型,以便减轻受众的认知负荷
3.2. 要让受众聚焦于数据,而非数据图本身