r语言分析数据实例，R语言数据特征分析

r语言分析数据实例，R语言数据特征分析

2024-11-08 09:17:20 作者:循環式溞网址:https://m.xinb2b.cn/sport/lzi254608.html

用统计指标对定量数据进行统计描述，常从集中趋势和离散趋势两个方面进行分析。

平均水平的指标是对个体集中趋势的度量，使用最广泛的是均值和中位数；反映变异程度的指标则是对个体离开平均水平的度量，使用较广泛的是标准差（方差）、四分位数间距。

集中趋势度量

（1）均值

均值是所有数据的平均值。如果求n个原始观察数据的平均数，计算公式为：

有时，为了反映在均值中不同成分所占的不同重要程度，为数据集中的每一个Xi赋予Wi，这就得到了加权均值的计算公式：

作为一个统计量，均值的主要问题是对极端值很敏感。如果数据中存在极端值或者数据时偏态分布的，那么均值就不能很好地度量数据的集中趋势。为了小数少数极端值的影响，可以使用截断均值或者中位数来度量数据的集中趋势。阶段均值是去掉高、低极端值之后的平均数。

（2）中位数

中位数是将一组观察值从小到大按顺序排列，位于中间的那个数据。即在全部数据中，小于和大于中位数的数据个数相等。

将某一数据集X：{X1,X2,...,Xn}从小到大排序：{X(1),X(2),...,X(n)}。

当n为奇数时

当n为偶数时

（3）众数

众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置，更适用于定性变量。众数不具有唯一性。

离散趋势度量

（1）极差

极差=最大值-最小值。极差对数据集的极端值非常敏感，并且忽略了位于最大值与最小值之间的数据是如何分布的。

（2）标准差

标准差度量数据偏离均值的程度，计算公式为：

（3）变异系数

变异系数度量标准差相对于均值的离散趋势，计算公式为：

变异系数主要用来比较两个或多个具有不同单位或不同波动幅度的数据集的离散趋势。

（4）四分位数间距

四分位数包括上四分位数和下四分位数。将所有数值由小到大排列并分成四等份，处于第一个分割点位置的数值是下四分位数，处于第二个分割点位置（中间位置）的数值是中位数，处于第三个分割点位置的数值是上四分位数。

四分位数间距是上四分位数QU与下四分位数QL之差，其间包含了全部观察值的一半。其值越大，说明数据的变异程度越大，反之说明变异程度越小。

下面以餐饮销量数据进行统计量分析，演示代码如下：

> # 读入数据

> saledata <- read.table(file = "../data/catering_sale.csv", sep=",", header = TRUE)

> sales <- saledata[, 2]

> # 统计量分析

> # 均值

> mean_ <- mean(sales, na.rm = T)

> # 中位数

> median_ <- median(sales, na.rm = T)

> # 极差

> range_ <- max(sales, na.rm = T) - min(sales, na.rm = T)

> # 标准差

> std_ <- sqrt(var(sales, na.rm = T))

> # 变异系数

> variation_ <- std_ / mean_

> # 四分位数间距

> q1 <- quantile(sales, 0.25, na.rm = T)

> q3 <- quantile(sales, 0.75, na.rm = T)

> distance <- q3 - q1

> a <- matrix(c(mean_, median_, range_, std_, variation_, q1, q3, distance),

1, byrow = T)

> colnames(a) <- c("均值", "中位数", "极差", "标准差", "变异系数",

"1/4分位数", "3/4分位数", "四分位间距")

> print(a)

均值中位数极差标准差变异系数 1/4分位数 3/4分位数四分位间距

[1,] 2755.215 2655.85 9084.44 751.0298 0.2725848 2451.975 3026.125 574.15

通过上面代码的运行结果，我们已经得到了餐饮销量数的统计量情况。

相关阅读：

《R语言数据质量分析》

《每天一点统计学——数据集中趋势的量度》

《每天一点统计学——数据分散性的量度》

《每天一点统计学——数据变异性的量度》

茯苓粉的功效与作用茯苓粉怎么吃效果好
2024-11-09茯苓粉的功效与作用茯苓粉怎么吃效果好茯苓粉是临床上具有利尿、除湿、健脾、宁心的功效临床上主要用于治疗水肿、尿少、脾虚、腹泻、不安、惊悸、失眠等疾病常与泽泻、半夏、白术等配伍使用增强利尿、除湿、化痰的功效此外，现代药理研究表明，本品还具有。

官方承认faker是世界第一中单了吗（Faker被评为季中赛S级）
2024-11-09Faker被评为季中赛S级英雄联盟2022MSI季中赛即将正式开打，来自全球各大赛区11支队伍相遇，将要争夺年中的世界赛冠军宝座，究竟是欧美赛区卷土重来，还是LPL和LCK继续相互较量，而此次RNG和T1他们都将争夺自己的MS。

张智霖袁咏仪陷入感情危机（张智霖袁咏仪翻车）
2024-11-09张智霖袁咏仪翻车《披荆斩棘》第二季自开播以来，无论话题和热度都不及第一季，加之芒果台热衷请大湾区的哥哥，导致很多网友认为内容没有突破，渐渐话题度也降低最新一期倒是有了话题，但却是直接翻车节目中，张智霖表演《无与伦比的。

张艺谋和巩俐什么时候分手的（张艺谋和巩俐当年分手原因）
2024-11-09张艺谋和巩俐当年分手原因【本文主笔：二条】往事并不如烟！娱乐圈很多往事，在当年因为种种原因，让人无法得知真相，而在事情过去多年之后，往往真相会浮出水面我们之后，会陆续固定开设“娱乐圈考古”的专栏，那些你熟悉的娱乐圈往事，或许。

尹恩惠怎么变瘦的从壮士到女神社长
2024-11-09尹恩惠怎么变瘦的从壮士到女神社长至娱系2015-08-1513:30:00《女神新装》最近开播了，明眼人都看得出，这就是去年《女神的新衣》换了个名字继续卖老酒去年的卡司里有位泡菜国女神Nana↓↓↓↓今年，该节目同样进口了一位南韩女。

这两所211很多人看不上怎么办这两所211很多人看不上
2024-11-09这两所211很多人看不上怎么办这两所211很多人看不上封面图今天给大家介绍两所211院校——西藏大学和延边大学虽然地理位置优势不大，但各具特色如果你只想考一个211院校，无论地域，那么这两所院校值得考虑一、西藏大学西藏大学是西藏自治区所属综合性大学，是国。

沉默的真相讲了什么（这部剧的主要内容介绍）
2024-11-09这部剧的主要内容介绍讲述了一位检察官历经十年光阴，付出无数代价查清案件真相的故事，赞美了正义与勇气的力量沉默的真相讲述了侯贵平是苗高乡的教师，支教时发现卡恩集团的犯罪事实，他为了保护自己的女学生，毅然与黑暗势力做对，被冤。

大众连尊严也不要了（大众连尊严也不要了）
2024-11-09大众连尊严也不要了导读：大众连“尊严”也不要了！从10万跌到6.98万，30天狂甩12302辆！下面就让我们一探究竟！今天说的这款车就是上汽大众桑塔纳此前，网传“桑塔纳要停产”，但是目前一直火爆热销，丝毫没有“退出江湖。

肿瘤如果发现复发和转移如何处理（一种容易侵袭转移的肿瘤）
2024-11-09一种容易侵袭转移的肿瘤生活中，常见很多人一感冒、发烧、咽痛，就自行吃点消炎药，症状缓解就过去了今天，说另外一回事如果扁桃体只有一侧发炎肿大时，那可要小心了，有可能是扁桃体恶性肿瘤扁桃体癌是指起源于口咽两侧壁扁桃体窝内的恶性。

菊花大全（菊花）
2024-11-09菊花菊花千姿百态，有的像一个害羞的小姑娘，把整个脸都缩到了房子里；有的争奇斗艳，像一张张灿烂的笑脸；有的好似在和我捉迷藏，叶子底下才能找到它们菊花的花瓣形状也各不相同，有的如节日里盛开的礼花；有的像一个小。

老农挖出9亿国宝（建筑工地挖出一级国宝）
2024-11-09建筑工地挖出一级国宝曾经有媒体人到陕西省历史博物馆采访，问其工作人员：“你们这儿的国宝级文物是哪件？”工作人员愣了两秒，有点为难地说：“太多了呀我们国宝级文物有18件呢，都很珍贵”陕西省历史博物馆中的兵马俑陕西省历史博物。

iphone官方翻新机鉴别（网友买到iPhone翻新机）
2024-11-09网友买到iPhone翻新机都希望自己买的iPhone是原装正品，但iPhone的水很深，买全新机怕遇到后封机、监管机买二手机怕买到翻新机、组装机、炸弹机网友在某平台网购了一台iPhoneXR，卖家号称该机是原装库存机但真的如此。