r语言分析数据实例,R语言数据特征分析
r语言分析数据实例,R语言数据特征分析
2024-05-29 05:18:55  作者:循環式溞  网址:https://m.xinb2b.cn/know/lzi254608.html

r语言分析数据实例,R语言数据特征分析(1)

用统计指标对定量数据进行统计描述,常从集中趋势和离散趋势两个方面进行分析。

平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数;反映变异程度的指标则是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位数间距。

集中趋势度量

(1)均值

均值是所有数据的平均值。如果求n个原始观察数据的平均数,计算公式为:

r语言分析数据实例,R语言数据特征分析(2)

有时,为了反映在均值中不同成分所占的不同重要程度,为数据集中的每一个Xi赋予Wi,这就得到了加权均值的计算公式:

作为一个统计量,均值的主要问题是对极端值很敏感。如果数据中存在极端值或者数据时偏态分布的,那么均值就不能很好地度量数据的集中趋势。为了小数少数极端值的影响,可以使用截断均值或者中位数来度量数据的集中趋势。阶段均值是去掉高、低极端值之后的平均数。

(2)中位数

中位数是将一组观察值从小到大按顺序排列,位于中间的那个数据。即在全部数据中,小于和大于中位数的数据个数相等。

将某一数据集X:{X1,X2,...,Xn}从小到大排序:{X(1),X(2),...,X(n)}。

当n为奇数时

r语言分析数据实例,R语言数据特征分析(3)

当n为偶数时

r语言分析数据实例,R语言数据特征分析(4)

(3)众数

众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更适用于定性变量。众数不具有唯一性。

离散趋势度量

(1)极差

极差=最大值-最小值。极差对数据集的极端值非常敏感,并且忽略了位于最大值与最小值之间的数据是如何分布的。

(2)标准差

标准差度量数据偏离均值的程度,计算公式为:

r语言分析数据实例,R语言数据特征分析(5)

(3)变异系数

变异系数度量标准差相对于均值的离散趋势,计算公式为:

r语言分析数据实例,R语言数据特征分析(6)

变异系数主要用来比较两个或多个具有不同单位或不同波动幅度的数据集的离散趋势。

(4)四分位数间距

四分位数包括上四分位数和下四分位数。将所有数值由小到大排列并分成四等份,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置(中间位置)的数值是中位数,处于第三个分割点位置的数值是上四分位数。

四分位数间距是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。其值越大,说明数据的变异程度越大,反之说明变异程度越小。

下面以餐饮销量数据进行统计量分析,演示代码如下:

> # 读入数据

> saledata <- read.table(file = "../data/catering_sale.csv", sep=",", header = TRUE)

> sales <- saledata[, 2]

>

> # 统计量分析

> # 均值

> mean_ <- mean(sales, na.rm = T)

> # 中位数

> median_ <- median(sales, na.rm = T)

> # 极差

> range_ <- max(sales, na.rm = T) - min(sales, na.rm = T)

> # 标准差

> std_ <- sqrt(var(sales, na.rm = T))

> # 变异系数

> variation_ <- std_ / mean_

> # 四分位数间距

> q1 <- quantile(sales, 0.25, na.rm = T)

> q3 <- quantile(sales, 0.75, na.rm = T)

> distance <- q3 - q1

> a <- matrix(c(mean_, median_, range_, std_, variation_, q1, q3, distance),

1, byrow = T)

> colnames(a) <- c("均值", "中位数", "极差", "标准差", "变异系数",

"1/4分位数", "3/4分位数", "四分位间距")

> print(a)

均值 中位数 极差 标准差 变异系数 1/4分位数 3/4分位数 四分位间距

[1,] 2755.215 2655.85 9084.44 751.0298 0.2725848 2451.975 3026.125 574.15

通过上面代码的运行结果,我们已经得到了餐饮销量数的统计量情况。

相关阅读:

《R语言数据质量分析》

《每天一点统计学——数据集中趋势的量度》

《每天一点统计学——数据分散性的量度》

《每天一点统计学——数据变异性的量度》

  • 为什么杨紫回应青簪行无法播出(群演称在片场见到杨紫)
  • 2024-05-29群演称在片场见到杨紫3月21日,疑似剧组群演通过社交平台发布《青簪行》重拍的消息自拍视频开头,他对着镜头,捧着一盒方便面说“女主是杨紫啊兄弟们,《青簪行》重拍现场啊!”后面还说“可怜了我的杨紫姐姐每次都要遇到这样的事情,。
  • 如何参加环球自然日(环球自然日如何参赛)
  • 2024-05-29环球自然日如何参赛“环球自然日”活动是由美国环球健康与教育基金会于2012年发起的一项公益性科普教育活动,旨在激发中小学生对于自然科学的学习兴趣,锻炼其学习、研究、表达、交往、社会责任感、自信心、团队合作精神等综合能力。
  • 钢铁侠2重磅归来(钢铁侠2哪怕劲敌环绕)
  • 2024-05-29钢铁侠2哪怕劲敌环绕时隔两年,托尼·斯塔克再次穿着钢铁战衣出现在荧屏之上面对疾病缠身,面对强敌环伺,托尼也曾颓废沮丧、自暴自弃但毋庸置疑的是,他依然是我们的超级英雄,是浴火重生之后崭新的钢铁侠!托尼面对的第一道难题是核反。
  • 泡椒的腌制方法大全(有关泡椒的腌制方法大全)
  • 2024-05-29有关泡椒的腌制方法大全用料:小米椒180克,白醋120毫升,高度白酒50毫升,凉白开160毫升,蒜3瓣,姜10片做法:步骤一:小米椒清洗干净;步骤二:把多余部剪掉;步骤三:铺平,放在阴凉处晾干水分;步骤四:蒜姜切成片,擦干。
  • 封神榜2之妖灭(被狐仙大人看中)
  • 2024-05-29被狐仙大人看中魅小影靠上了全国最好的高中,只身一人来到津城,怎知刚一来就碰上了黑中介,不得已搬到一间破旧的房子,里面还蹦出一个自称是苏妲己的美男狐妖?!《封神录》2作者:TJ动漫堂魔幻爆笑少女漫《封神录》,欢迎订阅。
  • pvc板和kt板哪种好(你还区分不清KT板和PVC板吗)
  • 2024-05-29你还区分不清KT板和PVC板吗在活动现场,KT板和PVC板一直被广泛运用,但是有很多人都分不清KT板和PVC板有什么区别,甚至有人还以为这两种材料属于同一种,这作为活动策划人来说那可就是外行了,让深圳万潮传媒跟你们讲讲这两者的区别。
  • 人心都是一杆秤(人性都是蹬鼻子上脸的)
  • 2024-05-29人性都是蹬鼻子上脸的人性都是蹬鼻子上脸的,如果你的热情啊,得不到回应,要立刻停止不亏待每一份热情不讨好任何的冷漠一味地去忍让啊,换来的是得寸进尺一味地去包容别人只会肆无忌惮人不能怪呀,越惯越混蛋,情不能潘岳,越盼月❤️寒。
  • ps4仙侠类游戏(画风唯美的动作冒险解谜游戏Omno即将发售)
  • 2024-05-29画风唯美的动作冒险解谜游戏Omno即将发售游戏资讯早知道,无忧带你来尬聊,全网资讯东扯西唠,帅气如我请低调!hello小伙伴们大家好!你们的无忧君又来啦!夏促刚刚过去,经历了一堆折扣3A大作的轰炸,今天就来看点儿小清新的游戏吧《Omno》是一。
  • 淮北濉溪县煤化工基地(淮北新型煤化工基地)
  • 2024-05-29淮北新型煤化工基地来源:人民网-安徽频道原创稿高分子材料与精细化工业产业,这一颇为高大上的专业名词,近年来成为淮北市转型发展中屡屡提及的高频热词围绕“生态立市、工业强市、产业行市”理念,淮北正全力构建“五群十链”现代产。
  • 猫王收音机深蓝色 吹起数码英伦风
  • 2024-05-29猫王收音机深蓝色 吹起数码英伦风在我眼中,复古本身就是一种时尚设计元素,而且是永不过时的概念猫王收音机作为国内音箱界中的新锐品牌,复古的外观一直是其产品所推崇的,再加上声音方面的表现也不错,所以赢得不少人的青睐和好评2017年,猫王。