R语言︱数据集分组、筛选(plit – apply – combine模式
文章推薦指數: 80 %
R语言︱数据集分组大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的 ...
R语言︱数据集分组、筛选(plit–apply–combine模式、dplyr、data.table)
悟乙己
于 2016-02-1821:02:18 发布
110546
收藏
150
分类专栏:
R︱数据操作与清洗
R的数据操作与清洗
文章标签:
R语言
分组
分组汇总
data.table
排序
版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/sinat_26917383/article/details/50688431
版权
R︱数据操作与清洗
同时被2个专栏收录
36篇文章
42订阅
订阅专栏
R的数据操作与清洗
26篇文章
112订阅
订阅专栏
R语言︱数据集分组
大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较。
一、日期分组
1、关于时间的包都有很多很好的日期分组应用。
2、cut()函数
cut(x,n):将连续型变量x分割为有着n个水平的因子
cut(x,breaks,labels=NULL,
include.lowest=FALSE,right=TRUE,dig.lab=3,
ordered_result=FALSE,...)
介绍一种按照日期范围——例如按照周、月、季度或者年——对其进行分组的超简便处理方式:R语言的cut()函数。
假设vector中存在以下示例数据:
vDatescol(m)
[,1][,2]
[1,]12
[2,]12
[3,]12
[4,]12
[5,]12
[6,]12
[7,]12
[8,]12
[9,]12
[10,]12
##后续处理
##计算组的长度和组内均值
>sapply(g,length)
USAnon-USA
4845
>sapply(g,mean)
USAnon-USA
18.5729220.50889
##用lapply也可以,返回值是列表
>lapply(g,mean)
$USA
[1]18.57292
$`non-USA`
[1]20.50889
##分组结果
summary(g)
split还有一个逆函数,unsplit,可以让分组完好如初。
在base包里和split功能接近的函数有cut(对属性数据分划),strsplit(对字符串分划)以及subset(对向量,矩阵或数据框按给定条件取子集)等。
举例:
axrownames(x)=c("one","two","three","four","five")
>colnames(x)=c("a","b","c","d","e","f")
>x
>new=14,select=a:f)
>new##从a到f列选取a>14的行。
5、which定位函数
功能:返回服从条件的观测所在位置(行数),有一定的排序功能在其中。
可见order用法
subset()在数据集中非常好用,which是针对较小的数据筛选,比较低纬度的数据筛选时候可以用的。
subset=which+数据集操作
which=order+多变量运行。
data$V1[which(data$V2<0)]#筛选出V1中,V2小于0的数字,跟order的作用些许相似
#order用法
iris$Sepal.Length[order(iris$setosa)]#按照照setosa的大小,重排Sepal.Length数据列
每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~
——————————————————————————————————————————————————————————————
四、dplyr与data.table
data.table可是比dplyr以及python中的pandas还好用的数据处理方式。
data.table包的语法简洁,并且只需一行代码就可以完成很多事情。
进一步地,data.table在某些情况下执行效率更高。
(参考来源:R高效数据处理包dplyr和data.table,你选哪个?)
在使用data.table时候,需要预先布置一下环境:
datamortgage)),by=.(
data.table比较简洁一步搞定,dplyr花了两步,不过也dplyr也可以通过%>%来实现一步搞定。
%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。
from_dplyr=data%>%group_by(gender,ID)%>%summarize(mean=mean(mortagage))
悟乙己
关注
关注
30
点赞
踩
150
收藏
打赏
2
评论
R语言︱数据集分组、筛选(plit–apply–combine模式、dplyr、data.table)
R语言︱数据集分组大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较。
一、日期分组1、关于时间的包都有很多很好的日期分组应用。
2、cut()函数cut(x,n):将连续型变量x分割为有着n个水平的因子cut(x,breaks,labels=NULL,include.lowest=FALS...
复制链接
扫一扫
专栏目录
R语言使用cut函数进行数据分组(binning):根据指定间隔(breaks)将数据拆分为组、设置labels参数指定分组的标签
statistics+insight+vista+power
08-25
61
R语言使用cut函数进行数据分组(binning):根据指定间隔(breaks)将数据拆分为组、设置labels参数指定分组的标签
抽取数据时groupby_R语言基于dplyr实现数据快捷操作
weixin_39989668的博客
12-08
270
R语言在处理大数据方面一直是被人诟病的地方,那么有人就为R语言打造了一个dplyr包可以实现高效的数据预处理,减少内存的消耗,提升处理效率。
今天就给大家详细看下这个包的具体功能。
首先看下包的安装:install.packages("dplyr")接下来我们看下具体的功能:1.as_tibble将大的数据转化为友好展示的格式。
实例:library(dplyr)mtcars2.arr...
评论 2
您还未登录,请先
登录
后发表或查看评论
SDN中IP欺骗数据分组网络溯源方法研究
01-14
IP数据分组溯源方法是指从目的地址出发,逐跳找到源主机。
该方法在软件定义网络(SDN,softwaredefinednetwork)框架下,通过控制器向网络中相关SDN交换机添加探测流表项,并根据目标数据分组触发的有效溯源Packet-in消息,找到目标数据分组的转发路径及源主机。
所提方案可以为调试网络故障提供方便,使网络管理员可以得到任意一个数据分组的转发路径,应对IP地址欺骗等网络安全问题。
实验证明,该溯源方法能够及时、准确地找到目标数据分组的转发路径,不影响网络中其他数据流转发,且无明显的系统开销。
R语言笔记完整版
acoikw2620的博客
03-14
3570
【R笔记】R语言函数总结
R语言与数据挖掘:公式;数据;方法
R语言特征
对大小写敏感
通常,数字,字母,.和_都是允许的(在一些国家还包括重音字母)。
不过,一个命名必须以.或者字母开头,并且如果以.开头,第二个字符不允许是数字。
基本命令要么是表达式(expressions)要么就是赋值(assignments)。
命令可以被(;)隔开,或...
R语言ETL工程:分组(group_by)
R语言中文社区
03-27
1万+
作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。
希望与大家分享学习经验,推广并加深R语言在业界的应用。
邮箱:huang.tian-yuan...
R语言对各种变量分成多组
ailingbo的博客
06-09
1万+
以下面的数据框dclin为例: IDGENDERWEIGHTGRADE AGE 1 A9GS MALE 92 G2 58 2 A9GT MALE 122 G2 51 3 A9GUFEMALE 78 G2 55 4 A9GVFEMALE ...
R语言读取(加载)txt格式数据为dataframe、基于性别字段(数据列)计算dataframe数据分组指定数据列的基本描述
sdgfbhgfj的博客
04-25
116
R语言读取(加载)txt格式数据为dataframe、基于性别字段(数据列)计算dataframe数据分组指定数据列的基本描述
R语言-分组统计
hongweigg的专栏
10-26
6万+
分组统计
1、假定有一组成绩数据,要求根据性别进行分组统计:
>score
ID score1score2Gender
1 10111.35321 0.9 male
2 10212.58654 0.6 male
3 10319.79380 0.9female
4 10412.01352 0.4female
5
R语言之分组数据处理
J_sir2015的博客
04-26
4万+
在我们日常处理数据过程中,经常需要对分类或者分组数据进行相对应的函数处理,以下是个人觉得比较好用的几个函数。
#分组变量的处理方法#tapply()函数#by()#aggregate()#plyr包#table()第一步:创建数据,常见数据形式为matrix,data.framesex<-c("female","man","female","man","man","man")d
R语言将变量分组的三种方法(含cut函数介绍)
AhaBob的博客
10-07
1万+
在数据处理的过程中,我们有时候需要将连续的数据数据转换为类别数据,比如将收入分成高、中和低三组,将学生成绩分为优、良、中、及格和不及格五组。
本来将基于R语言,采用三种方法来实现;第一种是对变量直接进行重新赋值,第二种是使用within函数对语句进行组织,第三种是cut函数。
首先我们定义一个数据框,这个数据框饭知学生姓名和数学成绩两个变量。
mathScore>>apply函数中可以使用自定义的函数(func);对于func中传递的参数,如果axis=0则应用于每一列上,如果axis=1则应用于每一行上的参数;
func自定义函数,函数应用在每一列或是每一行上
axis:{0or'index',1or'columns'},de
数据分析(numpy--matplotlib--pandas)基础笔记
longgecxl的博客
09-21
941
第1章python数据分析的概述
由于数据量比较大,已经远远超过了人力所能处理的范畴。
那么管理和使用这些数据,就成为一个全新的研究课题
1.1认识数据分析
数据分析技能,成为数据从业人员需要具备的技能之一。
明确数据分析概念、分析流程、和分析方法等相关知识,成为迈出数据分析的第1步
1.1.1数据分析的概念
数据分析:就是用适当的方法,对收集来的数据进行分析,提取有用的信息和形成结论。
以此帮助企业管理层做出决策
广义的数据分析:狭义数据分析...
R语言筛选dataframe分组中值最大的行实战(Selecttherowwiththemaximumvalueineachgroup)
data+scenario+science+insight
10-28
516
R语言筛选dataframe分组中值最大的行实战(Selecttherowwiththemaximumvalueineachgroup)
目录
R语言筛选dataframe分组中值最大的行实战(Selecttherowwiththemaximumvalueineachgroup)
#仿真数据
#data.table筛选dataframe分组中值最大的行(Selecttherowwiththemaximumvalueineachgroup)
用R语言进行筛选数据
ACGTexplorer的博客
06-21
1446
对于大数据,linux和python是很好的处理工具,但是对于这两个语言不熟悉的盆友来说,R语言是非常好的替代工具最近发现了一个很好用的R包tidyr,可以根据符号将文件中的列分割为多列,
比如
还有subset(),也非常实用,可以非常轻松地筛选行与列...
R语言的group
santiagozhang的博客
08-20
2211
Group就是分组,在统计里面经常需要把数据按照某一个属性分组后继续算sum,mean之类的统计值。
我们用R自带的数据CO2作为例子,Type表示植物所生长的地方,uptake表示二氧化碳吸收率。
我们可以按照Type来把数据分组,看看uptake的平均值如何。
这个只是简单的group,复杂的可以写代码用loop解决。
还有就是Rpackagedplyr提供了group_by的方法,比较好...
R对分组的数据进行排序
u014600308的博客
03-26
1万+
朋友要给以月为单位的时间序列数据分组然后按其中一个feature再进行排序。
链家的一个面试题也要求对一个地区的数据进行分组然后排序。
于是研究了一下怎么弄。
数据使用R内建的数据集 ChickWeight>data=ChickWeight>head(data) weightTimeChickDiet1 42 0 1 12 51 2 ...
R语言矩阵的创建、使用和筛选
XIUXIU179的博客
06-20
8511
矩阵是按列储存的,也是说先储存第一列,再按顺序储存第二列,并依此类推。
(当给定的行数和列数之积大于给定的向量中元素的个数时,系统会采取循环补齐方式来对矩阵进行填充),向量的赋值可以表示删除某行或者某个值。
>matrix(c(1,2,3,4,5,6),nrow=2,ncol=3)
[,1][,2][,3]
[1,]135
[2,]2...
R语言:排序、筛选以及分类汇总操作
热门推荐
偷闲阁
02-26
20万+
在Excel中我们可以很方便的对数据进行排序、筛选、分类汇总等基本操作,R语言中没有这种傻瓜式的一键操作,如何才能完成这种操作?一、排序1、单变量序列排序 单变量序列的排序常用到rank、sort和order函数。
给一个例子:>a<-c(3,1,5)
>rank(a)
[1]213
>sort(a)
[1]135
>order(a...
“相关推荐”对你有帮助么?
非常没帮助
没帮助
一般
有帮助
非常有帮助
提交
©️2022CSDN
皮肤主题:博客之星2020
设计师:CSDN官方博客
返回首页
悟乙己
CSDN认证博客专家
CSDN认证企业博客
码龄8年
人工智能领域优质创作者
370
原创
4809
周排名
138
总排名
746万+
访问
等级
3万+
积分
9426
粉丝
3528
获赞
1369
评论
1万+
收藏
私信
关注
热门文章
R语言︱list用法、批量读取、写出数据时的用法
189563
k-means+python︱scikit-learn中的KMeans聚类实现(+MiniBatchKMeans)
176575
R语言数据集合并、数据增减、不等长合并
172644
R语言与格式、日期格式、格式转化
133157
PySpark︱DataFrame操作指南:增/删/改/查/合并/统计与数据处理
130662
分类专栏
付费-智能写作专栏
付费
28篇
营销科学
46篇
联邦学习
3篇
Python︱基础与数据处理
28篇
航拍AI
2篇
streamlit
7篇
NLP︱R+python
61篇
NLP︱相关技术跟踪
23篇
机器学习︱R+python
81篇
个性化推荐
18篇
Tensorflow+Keras
20篇
知识图谱(KG/Neo4j)
16篇
R︱数据操作与清洗
36篇
R的数据操作与清洗
26篇
R语言与自然语言处理
21篇
R︱精准营销
25篇
NVIDIA-RAPID
4篇
机器学习平台Apple.Turicreate
7篇
图像︱相关技术跟踪与商业变现
23篇
图像opencv及图像基础技术
9篇
图像︱caffe
19篇
个性化推荐与检索
8篇
多模态︱相关技术跟踪
1篇
大数据、并行计算&R
15篇
R︱金融风险管控
10篇
R︱可视化
10篇
SPSSModeler&SPSS
1篇
Eviews8.0&9.0
3篇
SAS
5篇
docker/linux/API部署
7篇
python︱爬虫
2篇
八爪鱼采集器
1篇
图像︱质量评估与检索
1篇
最新评论
坑挺多|联邦学习FATE:上传数据(一)
条件漫步:
tablename和namespace路径在服务器什么地方呢?
坑挺多|联邦学习FATE:训练模型(二)
条件漫步:
本地的数据上传,上传到什么地方呢?有路径吗?
因果推断笔记——因果图建模之微软开源的EconML(五)
wangsanjin111:
T里面的p是什么呀
R语言︱文件读入、读出一些方法罗列(批量xlsx文件、数据库、文本txt、文件夹)
周小阮:
请问WPS的excel数据也可以读吗?找不到对象是不是表示读不了呀?
机器学习模型可解释性进行到底——SHAP值理论(一)
陈冠丞_Kevin:
[微观]单样本特征影响图二想请问一下里面的那个红蓝解释是不是写错了?例如6.575这个应该是他的特征值,不是shap值;还有我理解,shap.vlaues里面的就是shap值了,不用在去乘以本来的特征值吧
您愿意向朋友推荐“博客详情页”吗?
强烈不推荐
不推荐
一般般
推荐
强烈推荐
提交
最新文章
到此一游︱2022Google开发者大会
python|prophet的案例实践:趋势检验、突变点检验等
笔记|不规则波动的时间序列数据处理与关联模型小结
2022年22篇
2021年75篇
2020年25篇
2019年15篇
2018年40篇
2017年117篇
2016年139篇
2015年3篇
目录
目录
分类专栏
付费-智能写作专栏
付费
28篇
营销科学
46篇
联邦学习
3篇
Python︱基础与数据处理
28篇
航拍AI
2篇
streamlit
7篇
NLP︱R+python
61篇
NLP︱相关技术跟踪
23篇
机器学习︱R+python
81篇
个性化推荐
18篇
Tensorflow+Keras
20篇
知识图谱(KG/Neo4j)
16篇
R︱数据操作与清洗
36篇
R的数据操作与清洗
26篇
R语言与自然语言处理
21篇
R︱精准营销
25篇
NVIDIA-RAPID
4篇
机器学习平台Apple.Turicreate
7篇
图像︱相关技术跟踪与商业变现
23篇
图像opencv及图像基础技术
9篇
图像︱caffe
19篇
个性化推荐与检索
8篇
多模态︱相关技术跟踪
1篇
大数据、并行计算&R
15篇
R︱金融风险管控
10篇
R︱可视化
10篇
SPSSModeler&SPSS
1篇
Eviews8.0&9.0
3篇
SAS
5篇
docker/linux/API部署
7篇
python︱爬虫
2篇
八爪鱼采集器
1篇
图像︱质量评估与检索
1篇
目录
评论 2
被折叠的 条评论
为什么被折叠?
到【灌水乐园】发言
查看更多评论
打赏作者
悟乙己
你的鼓励将是我创作的最大动力
¥2
¥4
¥6
¥10
¥20
输入1-500的整数
余额支付
(余额:--)
扫码支付
扫码支付:¥2
获取中
扫码支付
您的余额不足,请更换扫码支付或充值
打赏作者
实付元
使用余额支付
点击重新获取
扫码支付
钱包余额
0
抵扣说明:
1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。
余额充值
延伸文章資訊
- 1Chapter 8 資料基本處理| R 資料科學與統計 - Bookdown
函式 group_by() 引數可放入類別變數, 然後分組進行相同資料分析. 以資料在檔案第5 章的survVATrial.csv 為例, 對試驗藥組與安慰劑組分別對 diagtime 計算計算...
- 26 資料處理利器:dplyr - 認識R 的美好
select(), 選擇變數. mutate(), 新增衍生變數. arrange(), 依照變數排序觀測值. summarise(), 聚合變數. group_by(), 依照類別變數分組,常...
- 3第15 天:資料處理技巧(2) · 輕鬆學習R 語言
dplyr 套件 ; mutate(), 新增變數 ; arrange(), 依照變數排序觀測值 ; summarise(), 聚合變數 ; group_by(), 依照類別變數分組,搭配 ...
- 4R語言之分組數據處理 - 台部落
在我們日常處理數據過程中,經常需要對分類或者分組數據進行相對應的函數 ... 分組變量的處理方法#tapply()函數#by()#aggregate()#plyr包#table()第一 ...
- 57 探索式資料分析| 資料科學與R語言 - Yi-Ju Tseng
量化分析方式的測量值大多可用R的內建函數完成計算,但是在探索式分析時,常常需要遇到資料分組的分析情形(如觀察男性和女性的血壓差異、A隊與B隊的三分球命中率 ...