r语言分析数据实例,R语言数据特征分析
r语言分析数据实例,R语言数据特征分析
2024-09-27 10:10:41  作者:循環式溞  网址:https://m.xinb2b.cn/tech/lzi254608.html


用统计指标对定量数据进行统计描述,常从集中趋势和离散趋势两个方面进行分析。

平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数;反映变异程度的指标则是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位数间距。

集中趋势度量

(1)均值

均值是所有数据的平均值。如果求n个原始观察数据的平均数,计算公式为:


有时,为了反映在均值中不同成分所占的不同重要程度,为数据集中的每一个Xi赋予Wi,这就得到了加权均值的计算公式:

作为一个统计量,均值的主要问题是对极端值很敏感。如果数据中存在极端值或者数据时偏态分布的,那么均值就不能很好地度量数据的集中趋势。为了小数少数极端值的影响,可以使用截断均值或者中位数来度量数据的集中趋势。阶段均值是去掉高、低极端值之后的平均数。

(2)中位数

中位数是将一组观察值从小到大按顺序排列,位于中间的那个数据。即在全部数据中,小于和大于中位数的数据个数相等。

将某一数据集X:{X1,X2,...,Xn}从小到大排序:{X(1),X(2),...,X(n)}。

当n为奇数时


当n为偶数时


(3)众数

众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更适用于定性变量。众数不具有唯一性。

离散趋势度量

(1)极差

极差=最大值-最小值。极差对数据集的极端值非常敏感,并且忽略了位于最大值与最小值之间的数据是如何分布的。

(2)标准差

标准差度量数据偏离均值的程度,计算公式为:


(3)变异系数

变异系数度量标准差相对于均值的离散趋势,计算公式为:


变异系数主要用来比较两个或多个具有不同单位或不同波动幅度的数据集的离散趋势。

(4)四分位数间距

四分位数包括上四分位数和下四分位数。将所有数值由小到大排列并分成四等份,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置(中间位置)的数值是中位数,处于第三个分割点位置的数值是上四分位数。

四分位数间距是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。其值越大,说明数据的变异程度越大,反之说明变异程度越小。

下面以餐饮销量数据进行统计量分析,演示代码如下:

> # 读入数据

> saledata <- read.table(file = "../data/catering_sale.csv", sep=",", header = TRUE)

> sales <- saledata[, 2]

>

> # 统计量分析

> # 均值

> mean_ <- mean(sales, na.rm = T)

> # 中位数

> median_ <- median(sales, na.rm = T)

> # 极差

> range_ <- max(sales, na.rm = T) - min(sales, na.rm = T)

> # 标准差

> std_ <- sqrt(var(sales, na.rm = T))

> # 变异系数

> variation_ <- std_ / mean_

> # 四分位数间距

> q1 <- quantile(sales, 0.25, na.rm = T)

> q3 <- quantile(sales, 0.75, na.rm = T)

> distance <- q3 - q1

> a <- matrix(c(mean_, median_, range_, std_, variation_, q1, q3, distance),

1, byrow = T)

> colnames(a) <- c("均值", "中位数", "极差", "标准差", "变异系数",

"1/4分位数", "3/4分位数", "四分位间距")

> print(a)

均值 中位数 极差 标准差 变异系数 1/4分位数 3/4分位数 四分位间距

[1,] 2755.215 2655.85 9084.44 751.0298 0.2725848 2451.975 3026.125 574.15

通过上面代码的运行结果,我们已经得到了餐饮销量数的统计量情况。

相关阅读:

《R语言数据质量分析》

《每天一点统计学——数据集中趋势的量度》

《每天一点统计学——数据分散性的量度》

《每天一点统计学——数据变异性的量度》

  • 有什么事比睡觉重要(睡觉很重要跟谁睡更重要)
  • 2024-09-27睡觉很重要跟谁睡更重要睡觉的时候,是一个人最放松的时候人越是放松,越是容易暴露出自己的真性情男生女生之间的睡觉姿势,可以反映彼此的性格和感情睡觉很重要,身边的人更重要爱一个人,不是用嘴说的,爱一个人,是用行动去证明的!恋爱。
  • 直缝焊管型号规格表(Q690D直缝钢管Q690D直缝焊管)
  • 2024-09-27Q690D直缝钢管Q690D直缝焊管Q690D直缝钢管:用热轧钢带卷焊制成的钢管在焊接设备上进行直缝焊接得到的管子都叫直缝焊管(由于钢管的焊接处成一条直线故而得名)属于高强度焊接结构钢其中Q代表屈服强度,690代表屈服强度值,D代表钢板。
  • 盘点主持界最欠揍的主持人(大牌主持人也有失误的时刻)
  • 2024-09-27大牌主持人也有失误的时刻#头条创作挑战赛#每年春节看春晚,除了有阖家团圆共欢喜之外,观众朋友也特别热衷于“春晚找茬”,什么明星妆容啊,小品失误啊,还有一个是大家喜欢的,主持人嘴瓢年年春晚都得看撒贝宁嘴瓢一次,今年的撒贝宁果然。
  • lol各个英雄真实年龄(LOL全英雄身高大揭秘)
  • 2024-09-27LOL全英雄身高大揭秘小伙伴们心目中的男神女神身高是多少呢?想知道你的信仰英雄本命英雄的具体身高么?快来和本萝一起看联盟中英雄们的身高吧!一.不足一米五的小个子们不出所料,约德尔人撑起了小个子的大片天空!123机械公敌兰博。
  • 俾斯麦号战舰被击沉的(永不沉没的俾斯麦)
  • 2024-09-27永不沉没的俾斯麦俾斯麦号重型战列舰,是德国在第二次世界大战前建造的,以德国“铁血宰相”俾斯麦的名字命名的一艘王牌战列舰该舰建于1936年7月,并于1940年8月建成服役,标准排水量41700吨,满载排水量50900吨。
  • 頞字怎么读(頞出处)
  • 2024-09-27頞出处頞,汉字,读作è,释义为鼻梁、鼻根、眉心頞,鼻茎也从页,安声——东汉·许慎《说文》;则辛頞鼻渊——《素问·气厥论》;举疾首蹙頞而相告曰——《孟子·梁惠王下》;视頞上革肉,已破裂云——《聊斋志异·螳螂捕。
  • 手机连奔图打印机成功无法打印(手机怎么连接打印机)
  • 2024-09-27手机怎么连接打印机手机可以连接打印机,进行文档或照片的打印,只需要打印机支持WIFI或蓝牙的无线打印,而且非常简单手机端安装打印机步骤如下:1、进入打印机官网下载手机端的管理软件,比如我这款打印机的就是Pantum打印。
  • 世界上写的最好的100副对联(世界上最短的一副对联)
  • 2024-09-27世界上最短的一副对联世界上有一副最短的对联,仅仅4个字,却饱含着人生哲理,点透无数世人上联:色难下联:容易“色难”一语,出自《论语·为政》:“子夏问孝,子曰:‘色难’”意思是子女侍奉父母,要经常保持和颜悦色,是件很难的事。
  • 爱尔兰最美的省
  • 2024-09-27爱尔兰最美的省爱尔兰最美的当然是首都都柏林都柏林坐落在爱尔兰岛东海岸,是爱尔兰共和国的首都,盖尔语名意为“芦苇障碍做成的浅滩之城”,利菲河自西向东穿城而过它是爱尔兰的文化中心,拥有大量博物馆、作家故址和酒吧爱尔兰是。
  • 南极洲地下的冰层会变成化石吗(南极洲覆盖森林)
  • 2024-09-27南极洲覆盖森林根据科学家的研究,大约在3500万年前,冰突然在南极洲出现在此之前一亿年,这片大陆之上并没有冰那么,这究竟是为什么?是什么触发了南极冰川以及冰盖的形成?在此之前一亿年,南极洲之上并没有冰即使在南极洲移。
  • 为什么四大文明古国发源于河流(世界四大文明古国简介)
  • 2024-09-27世界四大文明古国简介“四大文明古国”这一说法,最早是由梁启超先生提出梁启超于1900年的《二十世纪太平洋歌》中首次使用这个定义,并自己解释说,地球上古文明有四:中国、印度、埃及、小亚细亚是也梁启超的说法来源于当时世界学术。