散点图

散点图的简介

散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。

通过观察散点图上数据点的分布情况,我们可以推断出变量间的相关性。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。数据的相关关系主要分为:正相关(两个变量值同时增长)、负相关(一个变量值增加另一个变量值下降)、不相关、线性相关、指数相关等,表现在散点图上的大致分布如下图所示。那些离点集群较远的点我们称为离群点或者异常点。

散点图经常与回归线(就是最准确地贯穿所有点的线)结合使用,归纳分析现有数据以进行预测分析。

对于那些变量之间存在密切关系,但是这些关系又不像数学公式和物理公式那样能够精确表达的,散点图是一种很好的图形工具。但是在分析过程中需要注意,这两个变量之间的相关性并不等同于确定的因果关系,也可能需要考虑其他的影响因素。

英文名:Scatter graph, Point graph, X-Y plot, Scatter chart or Scattergram

散点图的构成

图表类型 | 散点图
-------- | ------------------------------------------- 适合的数据 | 两个连续数据字段
功能 | 观察数据的分布情况
数据与图形的映射 | 两个连续字段分别映射到横轴和纵轴。
适合的数据条数 | 暂无限制
备注 | 可更具实际情况对点的形状进行分类字段的映射。点的颜色进行分类或连续字段的映射。

散点图的应用场景

散点图通常用于显示和比较数值,不光可以显示趋势,还能显示数据集群的形状,以及在数据云团中各数据点的关系。

例1:两组比较

  • 数据源:男女身高和体重

  • 步骤:

    1. 加载 scatter-01.json
    2. 设置字段名称和类型:性别(文本),身高(小数),体重(小数)
    3. 添加散点图
    4. 设置图例(性别)、X轴(体重)、Y轴(身高)
    5. 添加2个卡片图,展示平均身高平均体重
  • 效果:
    1. 首先对身高和体重两个维度进行比较,可以看到所有的数据点比较集中,呈正相关关系,即身高越高,相应的体重会越大。
    2. 通过格式面板中的形状调整散点图形状
    3. 根据表平均身高和平均体重,在分析面板添加辅助线,将散点图的平面坐标分为四个象限,可以更好得看出数据的分布情况。
    4. 分析面板添加趋势线,根据样本数据特征计算出回归方程。

例2:多维关联性分析

统计学中经典的鸢尾花案例,其数据集包含了50个样本,都属于鸢尾属下的三个亚属,分别是山鸢尾、变色鸢尾和维吉尼亚鸢尾。四个特征被用作样本的定量分析,它们分别是花萼和花瓣的长度和宽度。基于这四个特征的集合,费雪建立了一种线性判别分析法以确定其属种。

  • 数据源:鸢尾花特征分析

  • 步骤:

    1. 下载 scatter-02.json
    2. 加载数据,设置字段名称和类型:花萼长度(SepalLength - 小数),花萼宽度(SepalWidth - 小数),花瓣长度(PetalLength - 小数),花瓣宽度(PetalWidth - 小数),属种(Species - 文本)
    3. 将几个小数的摘要设置为不汇总
  • 效果:

  • 归类模型:

    1. 修改scatter-02.json文件,随机将其中5个记录的属种改为未知
    2. 刷新数据
    3. 查看未知属种在图形中的位置,简单判断他们的属种

散点图与其他图表的对比

散点图和折线图

这里我们从适用场景和可视化表现两个角度进行对比。

适用场景

  1. 折线图可以显示随单位(如:单位时间)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。
  2. 散点图显示若干数据系列中各数值之间的关系,或者将两组数绘制为 xy 坐标的一个系列。

可视化表现

  1. 在折线图中,类别数据沿水平轴均匀分布,所有值数据沿垂直轴均匀分布,即折线图只有一个数据轴(即垂直轴)。
  2. 散点图有两个数值轴,沿水平轴(x 轴)方向显示一组数值数据,沿垂直轴(y 轴)方向显示另一组数值数据。散点图将这些数值合并到单一数据点并以不均匀间隔或簇显示它们。散点图通常用于显示和比较数值,例如科学数据、统计数据和工程数据。

散点图和气泡图

  • 散点图和气泡图都是将两个字段映射到x,y轴的位置上。散点图侧重于展示点之间的分布规律,而气泡图将数值映射到气泡的大小上,增加了一个维度的数据展示。
  • 散点图可以展示成千上万个点的数据,而气泡图为了防止气泡的互相遮挡,需要根据画布的大小控制数据的规模。

散点图的扩展阅读

results matching ""

    No results matching ""