图形介绍
①直方图(distplot)
直方图一般是用来描述连续变量的分布情况,其横轴是变量的取值,纵轴是在该取值间隔内的频数。一般构建直方图时,先将值分成一系列连续的不重叠变量间隔,在计算每个间隔有多少值,来作为直方图的高度。
通过直方图能了解变量的分布,在机器学习的回归问题中可以用来观察训练集中输出Y的分布情况(比如是符合正态分布,或者其取log后服从正态分布)
distplot中集合了核函数估计kdeplot的功能,默认也会画出核密度估计图
②条形图(barplot)
条形图是用来展示分类数据的分布情况,它使用多个宽度相同的条形来显示数据,每个条形表示特定种类,高度是各类别数据的频数。条形图可以是并列的多个,进行比较。
在机器学习的分类问题中用来观察各个特征与输出种类之间的关系,见上面的例子。
直方图的各矩形是连续排列,而条形图是分开排列。
③箱形图(boxplot)
箱形图是用来观察数据整体的分布情况,可以用来识别异常点。
箱体内包含了大部分的正常数据,而在箱体上边界和下边界之外的,就是异常数据。
其中上下边界的计算公式如下:
UpperLimit=Q3+k*(Q3-Q1)
LowerLimit=Q1-k*(Q3-Q1)
K=1.5 中度异常
K=3 极度异常
④小提琴图
小提琴图 (Violin Plot) 用于显示数据分布及其概率密度。
这种图表结合了箱形图和密度图的特征,主要用来显示数据的分布形状。中间的黑色粗条表示四分位数范围,从其延伸的幼细黑线代表 95% 置信区间,而白点则为中位数。