r语言分析数据实例,R语言数据特征分析
r语言分析数据实例,R语言数据特征分析
2024-09-27 07:56:32  作者:循環式溞  网址:https://m.xinb2b.cn/sport/lzi254608.html


用统计指标对定量数据进行统计描述,常从集中趋势和离散趋势两个方面进行分析。

平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数;反映变异程度的指标则是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位数间距。

集中趋势度量

(1)均值

均值是所有数据的平均值。如果求n个原始观察数据的平均数,计算公式为:


有时,为了反映在均值中不同成分所占的不同重要程度,为数据集中的每一个Xi赋予Wi,这就得到了加权均值的计算公式:

作为一个统计量,均值的主要问题是对极端值很敏感。如果数据中存在极端值或者数据时偏态分布的,那么均值就不能很好地度量数据的集中趋势。为了小数少数极端值的影响,可以使用截断均值或者中位数来度量数据的集中趋势。阶段均值是去掉高、低极端值之后的平均数。

(2)中位数

中位数是将一组观察值从小到大按顺序排列,位于中间的那个数据。即在全部数据中,小于和大于中位数的数据个数相等。

将某一数据集X:{X1,X2,...,Xn}从小到大排序:{X(1),X(2),...,X(n)}。

当n为奇数时


当n为偶数时


(3)众数

众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更适用于定性变量。众数不具有唯一性。

离散趋势度量

(1)极差

极差=最大值-最小值。极差对数据集的极端值非常敏感,并且忽略了位于最大值与最小值之间的数据是如何分布的。

(2)标准差

标准差度量数据偏离均值的程度,计算公式为:


(3)变异系数

变异系数度量标准差相对于均值的离散趋势,计算公式为:


变异系数主要用来比较两个或多个具有不同单位或不同波动幅度的数据集的离散趋势。

(4)四分位数间距

四分位数包括上四分位数和下四分位数。将所有数值由小到大排列并分成四等份,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置(中间位置)的数值是中位数,处于第三个分割点位置的数值是上四分位数。

四分位数间距是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。其值越大,说明数据的变异程度越大,反之说明变异程度越小。

下面以餐饮销量数据进行统计量分析,演示代码如下:

> # 读入数据

> saledata <- read.table(file = "../data/catering_sale.csv", sep=",", header = TRUE)

> sales <- saledata[, 2]

>

> # 统计量分析

> # 均值

> mean_ <- mean(sales, na.rm = T)

> # 中位数

> median_ <- median(sales, na.rm = T)

> # 极差

> range_ <- max(sales, na.rm = T) - min(sales, na.rm = T)

> # 标准差

> std_ <- sqrt(var(sales, na.rm = T))

> # 变异系数

> variation_ <- std_ / mean_

> # 四分位数间距

> q1 <- quantile(sales, 0.25, na.rm = T)

> q3 <- quantile(sales, 0.75, na.rm = T)

> distance <- q3 - q1

> a <- matrix(c(mean_, median_, range_, std_, variation_, q1, q3, distance),

1, byrow = T)

> colnames(a) <- c("均值", "中位数", "极差", "标准差", "变异系数",

"1/4分位数", "3/4分位数", "四分位间距")

> print(a)

均值 中位数 极差 标准差 变异系数 1/4分位数 3/4分位数 四分位间距

[1,] 2755.215 2655.85 9084.44 751.0298 0.2725848 2451.975 3026.125 574.15

通过上面代码的运行结果,我们已经得到了餐饮销量数的统计量情况。

相关阅读:

《R语言数据质量分析》

《每天一点统计学——数据集中趋势的量度》

《每天一点统计学——数据分散性的量度》

《每天一点统计学——数据变异性的量度》

  • 1公里多少米(是怎么换算的)
  • 2024-09-27是怎么换算的1千米(公里)=1000米,千米又称公里,是长度单位,通常用于衡量两地之间的距离是一个国际标准长度计量单位,符号km,这源自于kilometre这个英文kilo是千,metre是米,千米自然就是kil。
  • 很不常见的成语(一些不像成语的成语)
  • 2024-09-27一些不像成语的成语1.令人喷饭:形容事情或者说话十分可笑画外音:这个词大家都知道它的意思,可万万没想到,居然是个成语难道现在成语门槛这么低的吗?2.夏日可畏:像夏天那样酷热的太阳令人可怕,比喻为人严厉,令人敬畏画外音:。
  • 专线线路有哪些接入方式(什么叫专线接入)
  • 2024-09-27什么叫专线接入很多朋友对于“专线接入”还不是很了解,对于“专线接入”的类型更加不了解,天下数据小编特对专线接入定义及类型做个详细介绍,对于需求高速、高效网络的企业及朋友是有帮助的专线接入的定义:专线接入是指企业用户。
  • 成毅被导演说不适合做演员(成毅演法官首播引关注)
  • 2024-09-27成毅演法官首播引关注这几个月里出圈的绝大多数剧集都是爱情剧,一定程度上让大家有些审美疲劳,而法制剧《底线》的出现刚好缓解了这一尴尬局面该剧上星湖南卫视播出后,赢得了不少电视机前观众的青睐,首播就成全国卫视收视冠军,之后也。
  • 浠水高铁开通后可以直达汉口吗(40分钟到武汉黄黄高铁)
  • 2024-09-2740分钟到武汉黄黄高铁“黄黄高铁浠水南站开通运营!”4月22日,黄黄高铁正式开通运营,在气势恢宏的浠水南站站前广场,随着一声郑重宣告,标志着湖北省黄冈市浠水县正式迈入“高铁时代”10时57分时,黄黄高铁首趟列车抵达浠水南站。
  • 再次相遇前任开启了花样追妻(前男友分手后不死心纠缠)
  • 2024-09-27前男友分手后不死心纠缠本故事已由作者:林零,授权每天读点故事app独家发布,旗下关联账号“每天读点故事”获得合法转授权发布,侵权必究1宋明晖的嘴巴还在面前一张一合,林宛西已经没心思去辨别他在说些什么,满脑子就只弹幕般地飘荡。
  • 太阳星座详解大全(科学向日葵天文课堂)
  • 2024-09-27科学向日葵天文课堂今天的节目我们来聊一聊春季的另一个代表星座,也是春季星座中较大的星座之一,看一看在这个星座中有什么美丽的神话故事室女座作为黄道星座中最大的星座,面积约为1294平方度,在全天88个星座中,面积排行第二。
  • 龙抬头出生的女孩好吗(龙抬头是什么意思)
  • 2024-09-27龙抬头是什么意思#专家详解“二月二龙抬头”#在民间传说正月不能理头发,到二月才理头发,说的人们半信半疑二月二龙抬头,象征着新的一年焕然一新,老一辈的人喜欢二月去给小孩理发在老一辈人的心中还是很相信传统的民间说法,。
  • ipad2耳机调节音量(如何调节苹果耳机音量大小)
  • 2024-09-27如何调节苹果耳机音量大小如何调节苹果耳机音量大小,具体步骤如下所示:品牌型号:iPhone12系统版本:iOS15.3软件版本:设置12.0方法/步骤1/3分步阅读点击声音与触感苹果手机设置中,点击“声音与触感”2/3滑动小。
  • 公务员打破铁饭碗面临的问题(不好端也不好放)
  • 2024-09-27不好端也不好放能够成为公务员,就意味着以后基本上不用再担心失业的问题了,所以一部分大学生,在毕业之后,都会有考公务员的打算不过公务员的工作,也不是每一个人都能胜任的,因此有的时候,即使大学生费尽九牛二虎之力考上了公。
  • 科颜氏专柜有没有礼盒(科颜氏新加坡黄金周超划算)
  • 2024-09-27科颜氏新加坡黄金周超划算虽说秋高气爽心情好,但是很多妹纸也纷纷反映:入秋以后,天气渐凉,人体出汗减少,皮肤脂质分泌量降低,水分蒸发过多,小仙女们就会有皮肤干燥和紧绷感...你的皮肤还好吗?作为资讯福利达人的小圈儿,第一时间给。
  • 英雄不提当年勇(好汉不提当年勇)
  • 2024-09-27好汉不提当年勇高月林那一年,我十八岁,正是体力旺盛、精力充沛的时候高中刚毕业的我,回到家里,竟一时间无所适从,不知道该干什么好农活不精通,又懒得去干,吃得又多,除了看书就是玩耍,父亲对此颇为反感说我是温室里的花瓶,。