用统计指标对定量数据进行统计描述,常从集中趋势和离散趋势两个方面进行分析。
平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数;反映变异程度的指标则是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位数间距。
集中趋势度量(1)均值
均值是所有数据的平均值。如果求n个原始观察数据的平均数,计算公式为:
有时,为了反映在均值中不同成分所占的不同重要程度,为数据集中的每一个Xi赋予Wi,这就得到了加权均值的计算公式:
作为一个统计量,均值的主要问题是对极端值很敏感。如果数据中存在极端值或者数据时偏态分布的,那么均值就不能很好地度量数据的集中趋势。为了小数少数极端值的影响,可以使用截断均值或者中位数来度量数据的集中趋势。阶段均值是去掉高、低极端值之后的平均数。
(2)中位数
中位数是将一组观察值从小到大按顺序排列,位于中间的那个数据。即在全部数据中,小于和大于中位数的数据个数相等。
将某一数据集X:{X1,X2,...,Xn}从小到大排序:{X(1),X(2),...,X(n)}。
当n为奇数时
当n为偶数时
(3)众数
众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更适用于定性变量。众数不具有唯一性。
离散趋势度量(1)极差
极差=最大值-最小值。极差对数据集的极端值非常敏感,并且忽略了位于最大值与最小值之间的数据是如何分布的。
(2)标准差
标准差度量数据偏离均值的程度,计算公式为:
(3)变异系数
变异系数度量标准差相对于均值的离散趋势,计算公式为:
变异系数主要用来比较两个或多个具有不同单位或不同波动幅度的数据集的离散趋势。
(4)四分位数间距
四分位数包括上四分位数和下四分位数。将所有数值由小到大排列并分成四等份,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置(中间位置)的数值是中位数,处于第三个分割点位置的数值是上四分位数。
四分位数间距是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。其值越大,说明数据的变异程度越大,反之说明变异程度越小。
下面以餐饮销量数据进行统计量分析,演示代码如下:
> # 读入数据
> saledata <- read.table(file = "../data/catering_sale.csv", sep=",", header = TRUE)
> sales <- saledata[, 2]
>
> # 统计量分析
> # 均值
> mean_ <- mean(sales, na.rm = T)
> # 中位数
> median_ <- median(sales, na.rm = T)
> # 极差
> range_ <- max(sales, na.rm = T) - min(sales, na.rm = T)
> # 标准差
> std_ <- sqrt(var(sales, na.rm = T))
> # 变异系数
> variation_ <- std_ / mean_
> # 四分位数间距
> q1 <- quantile(sales, 0.25, na.rm = T)
> q3 <- quantile(sales, 0.75, na.rm = T)
> distance <- q3 - q1
> a <- matrix(c(mean_, median_, range_, std_, variation_, q1, q3, distance),
1, byrow = T)
> colnames(a) <- c("均值", "中位数", "极差", "标准差", "变异系数",
"1/4分位数", "3/4分位数", "四分位间距")
> print(a)
均值 中位数 极差 标准差 变异系数 1/4分位数 3/4分位数 四分位间距
[1,] 2755.215 2655.85 9084.44 751.0298 0.2725848 2451.975 3026.125 574.15
通过上面代码的运行结果,我们已经得到了餐饮销量数的统计量情况。
相关阅读:
《R语言数据质量分析》
《每天一点统计学——数据集中趋势的量度》
《每天一点统计学——数据分散性的量度》
《每天一点统计学——数据变异性的量度》