r语言分析数据实例,R语言数据特征分析
r语言分析数据实例,R语言数据特征分析
2024-11-22 12:02:29  作者:循環式溞  网址:https://m.xinb2b.cn/know/lzi254608.html


用统计指标对定量数据进行统计描述,常从集中趋势和离散趋势两个方面进行分析。

平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数;反映变异程度的指标则是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位数间距。

集中趋势度量

(1)均值

均值是所有数据的平均值。如果求n个原始观察数据的平均数,计算公式为:


有时,为了反映在均值中不同成分所占的不同重要程度,为数据集中的每一个Xi赋予Wi,这就得到了加权均值的计算公式:

作为一个统计量,均值的主要问题是对极端值很敏感。如果数据中存在极端值或者数据时偏态分布的,那么均值就不能很好地度量数据的集中趋势。为了小数少数极端值的影响,可以使用截断均值或者中位数来度量数据的集中趋势。阶段均值是去掉高、低极端值之后的平均数。

(2)中位数

中位数是将一组观察值从小到大按顺序排列,位于中间的那个数据。即在全部数据中,小于和大于中位数的数据个数相等。

将某一数据集X:{X1,X2,...,Xn}从小到大排序:{X(1),X(2),...,X(n)}。

当n为奇数时


当n为偶数时


(3)众数

众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更适用于定性变量。众数不具有唯一性。

离散趋势度量

(1)极差

极差=最大值-最小值。极差对数据集的极端值非常敏感,并且忽略了位于最大值与最小值之间的数据是如何分布的。

(2)标准差

标准差度量数据偏离均值的程度,计算公式为:


(3)变异系数

变异系数度量标准差相对于均值的离散趋势,计算公式为:


变异系数主要用来比较两个或多个具有不同单位或不同波动幅度的数据集的离散趋势。

(4)四分位数间距

四分位数包括上四分位数和下四分位数。将所有数值由小到大排列并分成四等份,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置(中间位置)的数值是中位数,处于第三个分割点位置的数值是上四分位数。

四分位数间距是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。其值越大,说明数据的变异程度越大,反之说明变异程度越小。

下面以餐饮销量数据进行统计量分析,演示代码如下:

> # 读入数据

> saledata <- read.table(file = "../data/catering_sale.csv", sep=",", header = TRUE)

> sales <- saledata[, 2]

>

> # 统计量分析

> # 均值

> mean_ <- mean(sales, na.rm = T)

> # 中位数

> median_ <- median(sales, na.rm = T)

> # 极差

> range_ <- max(sales, na.rm = T) - min(sales, na.rm = T)

> # 标准差

> std_ <- sqrt(var(sales, na.rm = T))

> # 变异系数

> variation_ <- std_ / mean_

> # 四分位数间距

> q1 <- quantile(sales, 0.25, na.rm = T)

> q3 <- quantile(sales, 0.75, na.rm = T)

> distance <- q3 - q1

> a <- matrix(c(mean_, median_, range_, std_, variation_, q1, q3, distance),

1, byrow = T)

> colnames(a) <- c("均值", "中位数", "极差", "标准差", "变异系数",

"1/4分位数", "3/4分位数", "四分位间距")

> print(a)

均值 中位数 极差 标准差 变异系数 1/4分位数 3/4分位数 四分位间距

[1,] 2755.215 2655.85 9084.44 751.0298 0.2725848 2451.975 3026.125 574.15

通过上面代码的运行结果,我们已经得到了餐饮销量数的统计量情况。

相关阅读:

《R语言数据质量分析》

《每天一点统计学——数据集中趋势的量度》

《每天一点统计学——数据分散性的量度》

《每天一点统计学——数据变异性的量度》

  • 1MORE头戴耳机怎么样(1MORE好声音入耳评测)
  • 2024-11-221MORE好声音入耳评测1more好声音入耳评测:做工最好配件精良的百元入耳!作为国内耳机行业的知名品牌1MORE一直都有跟各大音乐节目平台合作,包括吴莫愁等艺人和好声音节目都有各种定制的产品,而好声音入耳作为百元级别亲民的。
  • 赵丽颖35岁生日评论区(赵丽颖公布喜讯逼瘫微博服务器)
  • 2024-11-22赵丽颖公布喜讯逼瘫微博服务器作者/津平程梦玲截止10月16日晚9点,赵丽颖“官宣”微博已经达到了73万转发,128万评论之多,由此将微博服务器直逼瘫痪一时间,各大财经媒体把赵丽颖和冯绍峰的身家扒了个底朝天——赵丽颖与冯绍峰之间的。
  • 海阳市的乡村振兴(海阳市打造农村电商)
  • 2024-11-22海阳市打造农村电商“借助直播平台的带动,今年我们家的海蛎子销售非常好,平均一天销量在3万斤左右”山东优供生鲜食品电商有限公司部门负责人韩东介绍,最近他在网上发有特色的海蛎子小视频求“出圈”目前,在韩东的坚持下,该公司通。
  • 广东人过年做的酥角(大街小巷年味浓)
  • 2024-11-22大街小巷年味浓吃着老奶奶做的油角,小朋友乐开花通讯员王松平摄东莞本土小吃品种丰富,特别是油角、糖环等传统的过年小吃,不仅香气逼人,而且吃起来让人回味无穷近日,记者现场体验石碣居民全家动手炸糖环、油角的欢乐场面,感受。
  • 学霸棒棒堂英语五年级下册短语(学霸英语私家课)
  • 2024-11-22学霸英语私家课饿佛德唱歌供钢琴佛德是一个流浪汉,每天他都到我们小区表演唱歌,他从不要钱,只是要一餐饭吃但他特别能吃,好像总是吃不饱,我们都叫他饿佛德有一天,我去附近的另一个小区玩,很神奇的,在那里看到了他饿佛德在表。
  • 青春痘在什么年龄段才会没有(各个年龄均可发生)
  • 2024-11-22各个年龄均可发生原标题:青春期才有“青春痘”?藏在痘痘背后的四大真凶痘痘,又称痤疮,一直困扰着青少年和部分成年人不注意饮食、压力大、妆太重……这些真的是痤疮滋生的原因吗?你对痤疮的了解是正确的吗?下面,就让我们一起来。
  • 消逝的光芒2哪个平台能玩(消逝的光芒2官宣)
  • 2024-11-22消逝的光芒2官宣据Techland官推消息,截止当前,有已经超过300万名玩家将Steam版《消逝的光芒2》加入愿望清单,官方表示了对玩家的感谢2月4日我们在城市相见仅Steam版就有300万玩家将游戏加入愿望清单,。
  • 怎样计算每天的消耗热量(怎样计算我每天需要的热量)
  • 2024-11-22怎样计算我每天需要的热量大家好我是星酱今天咱们就来聊聊卡路里,当你算好你的卡路里,减肥也会更容易哟~卡路里来自于哪里?卡路里是热量单位,人所摄取的热量来自于碳水化合物、蛋白质和脂肪卡路里与减肥当每日摄入的卡路里不足于提供身体。
  • 东营黄河公园广场舞(我的广场舞情结)
  • 2024-11-22我的广场舞情结图丨旅途广饶县的凤铃广饶舞蹈队已经成立多年,是由一群爱好广场舞的“美少女”们自发组成的非正式组织每到夜幕降临时,在广饶县乐安公园的广场上,就会有一群“美少女”们随着优美的音乐翩翩起舞在我们居住的小区,。
  • 古五笔怎么打
  • 2024-11-22古五笔怎么打古是字根字打字顺序:字根报户口,第一笔,第二笔,最后一笔DGHG股:拆分成三个字根,最后一键是捺左右结构EMCY。