R语言︱数据集分组、筛选(plit – apply – combine模式

文章推薦指數: 80 %
投票人數:10人

R语言︱数据集分组大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的 ... R语言︱数据集分组、筛选(plit–apply–combine模式、dplyr、data.table) 悟乙己 于 2016-02-1821:02:18 发布 110546 收藏 150 分类专栏: R︱数据操作与清洗 R的数据操作与清洗 文章标签: R语言 分组 分组汇总 data.table 排序 版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/sinat_26917383/article/details/50688431 版权 R︱数据操作与清洗 同时被2个专栏收录 36篇文章 42订阅 订阅专栏 R的数据操作与清洗 26篇文章 112订阅 订阅专栏 R语言︱数据集分组 大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较。

一、日期分组 1、关于时间的包都有很多很好的日期分组应用。

2、cut()函数 cut(x,n):将连续型变量x分割为有着n个水平的因子 cut(x,breaks,labels=NULL, include.lowest=FALSE,right=TRUE,dig.lab=3, ordered_result=FALSE,...) 介绍一种按照日期范围——例如按照周、月、季度或者年——对其进行分组的超简便处理方式:R语言的cut()函数。

假设vector中存在以下示例数据: vDatescol(m) [,1][,2] [1,]12 [2,]12 [3,]12 [4,]12 [5,]12 [6,]12 [7,]12 [8,]12 [9,]12 [10,]12 ##后续处理 ##计算组的长度和组内均值 >sapply(g,length) USAnon-USA 4845 >sapply(g,mean) USAnon-USA 18.5729220.50889 ##用lapply也可以,返回值是列表 >lapply(g,mean) $USA [1]18.57292 $`non-USA` [1]20.50889 ##分组结果 summary(g) split还有一个逆函数,unsplit,可以让分组完好如初。

在base包里和split功能接近的函数有cut(对属性数据分划),strsplit(对字符串分划)以及subset(对向量,矩阵或数据框按给定条件取子集)等。

举例: axrownames(x)=c("one","two","three","four","five") >colnames(x)=c("a","b","c","d","e","f") >x >new=14,select=a:f) >new##从a到f列选取a>14的行。

5、which定位函数 功能:返回服从条件的观测所在位置(行数),有一定的排序功能在其中。

可见order用法 subset()在数据集中非常好用,which是针对较小的数据筛选,比较低纬度的数据筛选时候可以用的。

subset=which+数据集操作 which=order+多变量运行。

data$V1[which(data$V2<0)]#筛选出V1中,V2小于0的数字,跟order的作用些许相似 #order用法 iris$Sepal.Length[order(iris$setosa)]#按照照setosa的大小,重排Sepal.Length数据列 每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ —————————————————————————————————————————————————————————————— 四、dplyr与data.table data.table可是比dplyr以及python中的pandas还好用的数据处理方式。

data.table包的语法简洁,并且只需一行代码就可以完成很多事情。

进一步地,data.table在某些情况下执行效率更高。

(参考来源:R高效数据处理包dplyr和data.table,你选哪个?) 在使用data.table时候,需要预先布置一下环境: datamortgage)),by=.(gender,ID)]#data.table用一步 代码的意思是,通过性别gender,以及ID分组,然后分组求资产mortagage的平均数。

data.table比较简洁一步搞定,dplyr花了两步,不过也dplyr也可以通过%>%来实现一步搞定。

%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。

from_dplyr=data%>%group_by(gender,ID)%>%summarize(mean=mean(mortagage)) 悟乙己 关注 关注 30 点赞 踩 150 收藏 打赏 2 评论 R语言︱数据集分组、筛选(plit–apply–combine模式、dplyr、data.table) R语言︱数据集分组大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较。

一、日期分组1、关于时间的包都有很多很好的日期分组应用。

2、cut()函数cut(x,n):将连续型变量x分割为有着n个水平的因子cut(x,breaks,labels=NULL,include.lowest=FALS... 复制链接 扫一扫 专栏目录 R语言使用cut函数进行数据分组(binning):根据指定间隔(breaks)将数据拆分为组、设置labels参数指定分组的标签 statistics+insight+vista+power 08-25 61 R语言使用cut函数进行数据分组(binning):根据指定间隔(breaks)将数据拆分为组、设置labels参数指定分组的标签 抽取数据时groupby_R语言基于dplyr实现数据快捷操作 weixin_39989668的博客 12-08 270 R语言在处理大数据方面一直是被人诟病的地方,那么有人就为R语言打造了一个dplyr包可以实现高效的数据预处理,减少内存的消耗,提升处理效率。

今天就给大家详细看下这个包的具体功能。

首先看下包的安装:install.packages("dplyr")接下来我们看下具体的功能:1.as_tibble将大的数据转化为友好展示的格式。

实例:library(dplyr)mtcars2.arr... 评论 2 您还未登录,请先 登录 后发表或查看评论 SDN中IP欺骗数据分组网络溯源方法研究 01-14 IP数据分组溯源方法是指从目的地址出发,逐跳找到源主机。

该方法在软件定义网络(SDN,softwaredefinednetwork)框架下,通过控制器向网络中相关SDN交换机添加探测流表项,并根据目标数据分组触发的有效溯源Packet-in消息,找到目标数据分组的转发路径及源主机。

所提方案可以为调试网络故障提供方便,使网络管理员可以得到任意一个数据分组的转发路径,应对IP地址欺骗等网络安全问题。

实验证明,该溯源方法能够及时、准确地找到目标数据分组的转发路径,不影响网络中其他数据流转发,且无明显的系统开销。

R语言笔记完整版 acoikw2620的博客 03-14 3570 【R笔记】R语言函数总结 R语言与数据挖掘:公式;数据;方法 R语言特征 对大小写敏感 通常,数字,字母,.和_都是允许的(在一些国家还包括重音字母)。

不过,一个命名必须以.或者字母开头,并且如果以.开头,第二个字符不允许是数字。

基本命令要么是表达式(expressions)要么就是赋值(assignments)。

命令可以被(;)隔开,或... R语言ETL工程:分组(group_by) R语言中文社区 03-27 1万+ 作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。

希望与大家分享学习经验,推广并加深R语言在业界的应用。

邮箱:huang.tian-yuan... R语言对各种变量分成多组 ailingbo的博客 06-09 1万+ 以下面的数据框dclin为例:       IDGENDERWEIGHTGRADE AGE 1 A9GS MALE  92  G2     58 2 A9GT MALE  122  G2     51 3 A9GUFEMALE  78  G2    55 4 A9GVFEMALE ... R语言读取(加载)txt格式数据为dataframe、基于性别字段(数据列)计算dataframe数据分组指定数据列的基本描述 sdgfbhgfj的博客 04-25 116 R语言读取(加载)txt格式数据为dataframe、基于性别字段(数据列)计算dataframe数据分组指定数据列的基本描述 R语言-分组统计 hongweigg的专栏 10-26 6万+ 分组统计 1、假定有一组成绩数据,要求根据性别进行分组统计: >score    ID  score1score2Gender 1 10111.35321   0.9  male 2 10212.58654   0.6  male 3 10319.79380   0.9female 4 10412.01352   0.4female 5  R语言之分组数据处理 J_sir2015的博客 04-26 4万+ 在我们日常处理数据过程中,经常需要对分类或者分组数据进行相对应的函数处理,以下是个人觉得比较好用的几个函数。

#分组变量的处理方法#tapply()函数#by()#aggregate()#plyr包#table()第一步:创建数据,常见数据形式为matrix,data.framesex<-c("female","man","female","man","man","man")d R语言将变量分组的三种方法(含cut函数介绍) AhaBob的博客 10-07 1万+ 在数据处理的过程中,我们有时候需要将连续的数据数据转换为类别数据,比如将收入分成高、中和低三组,将学生成绩分为优、良、中、及格和不及格五组。

本来将基于R语言,采用三种方法来实现;第一种是对变量直接进行重新赋值,第二种是使用within函数对语句进行组织,第三种是cut函数。

首先我们定义一个数据框,这个数据框饭知学生姓名和数学成绩两个变量。

mathScore>>apply函数中可以使用自定义的函数(func);对于func中传递的参数,如果axis=0则应用于每一列上,如果axis=1则应用于每一行上的参数; func自定义函数,函数应用在每一列或是每一行上 axis:{0or'index',1or'columns'},de 数据分析(numpy--matplotlib--pandas)基础笔记 longgecxl的博客 09-21 941 第1章python数据分析的概述 由于数据量比较大,已经远远超过了人力所能处理的范畴。

那么管理和使用这些数据,就成为一个全新的研究课题 1.1认识数据分析 数据分析技能,成为数据从业人员需要具备的技能之一。

明确数据分析概念、分析流程、和分析方法等相关知识,成为迈出数据分析的第1步 1.1.1数据分析的概念 数据分析:就是用适当的方法,对收集来的数据进行分析,提取有用的信息和形成结论。

以此帮助企业管理层做出决策 广义的数据分析:狭义数据分析... R语言筛选dataframe分组中值最大的行实战(Selecttherowwiththemaximumvalueineachgroup) data+scenario+science+insight 10-28 516 R语言筛选dataframe分组中值最大的行实战(Selecttherowwiththemaximumvalueineachgroup) 目录 R语言筛选dataframe分组中值最大的行实战(Selecttherowwiththemaximumvalueineachgroup) #仿真数据 #data.table筛选dataframe分组中值最大的行(Selecttherowwiththemaximumvalueineachgroup) 用R语言进行筛选数据 ACGTexplorer的博客 06-21 1446 对于大数据,linux和python是很好的处理工具,但是对于这两个语言不熟悉的盆友来说,R语言是非常好的替代工具最近发现了一个很好用的R包tidyr,可以根据符号将文件中的列分割为多列, 比如 还有subset(),也非常实用,可以非常轻松地筛选行与列... R语言的group santiagozhang的博客 08-20 2211 Group就是分组,在统计里面经常需要把数据按照某一个属性分组后继续算sum,mean之类的统计值。

我们用R自带的数据CO2作为例子,Type表示植物所生长的地方,uptake表示二氧化碳吸收率。

我们可以按照Type来把数据分组,看看uptake的平均值如何。

这个只是简单的group,复杂的可以写代码用loop解决。

还有就是Rpackagedplyr提供了group_by的方法,比较好... R对分组的数据进行排序 u014600308的博客 03-26 1万+ 朋友要给以月为单位的时间序列数据分组然后按其中一个feature再进行排序。

链家的一个面试题也要求对一个地区的数据进行分组然后排序。

于是研究了一下怎么弄。

数据使用R内建的数据集 ChickWeight>data=ChickWeight>head(data) weightTimeChickDiet1   42  0   1  12   51  2  ... R语言矩阵的创建、使用和筛选 XIUXIU179的博客 06-20 8511 矩阵是按列储存的,也是说先储存第一列,再按顺序储存第二列,并依此类推。

(当给定的行数和列数之积大于给定的向量中元素的个数时,系统会采取循环补齐方式来对矩阵进行填充),向量的赋值可以表示删除某行或者某个值。

>matrix(c(1,2,3,4,5,6),nrow=2,ncol=3) [,1][,2][,3] [1,]135 [2,]2... R语言:排序、筛选以及分类汇总操作 热门推荐 偷闲阁 02-26 20万+   在Excel中我们可以很方便的对数据进行排序、筛选、分类汇总等基本操作,R语言中没有这种傻瓜式的一键操作,如何才能完成这种操作?一、排序1、单变量序列排序  单变量序列的排序常用到rank、sort和order函数。

  给一个例子:>a<-c(3,1,5) >rank(a) [1]213 >sort(a) [1]135 >order(a... “相关推荐”对你有帮助么? 非常没帮助 没帮助 一般 有帮助 非常有帮助 提交 ©️2022CSDN 皮肤主题:博客之星2020 设计师:CSDN官方博客 返回首页 悟乙己 CSDN认证博客专家 CSDN认证企业博客 码龄8年 人工智能领域优质创作者 370 原创 4809 周排名 138 总排名 746万+ 访问 等级 3万+ 积分 9426 粉丝 3528 获赞 1369 评论 1万+ 收藏 私信 关注 热门文章 R语言︱list用法、批量读取、写出数据时的用法 189563 k-means+python︱scikit-learn中的KMeans聚类实现(+MiniBatchKMeans) 176575 R语言数据集合并、数据增减、不等长合并 172644 R语言与格式、日期格式、格式转化 133157 PySpark︱DataFrame操作指南:增/删/改/查/合并/统计与数据处理 130662 分类专栏 付费-智能写作专栏 付费 28篇 营销科学 46篇 联邦学习 3篇 Python︱基础与数据处理 28篇 航拍AI 2篇 streamlit 7篇 NLP︱R+python 61篇 NLP︱相关技术跟踪 23篇 机器学习︱R+python 81篇 个性化推荐 18篇 Tensorflow+Keras 20篇 知识图谱(KG/Neo4j) 16篇 R︱数据操作与清洗 36篇 R的数据操作与清洗 26篇 R语言与自然语言处理 21篇 R︱精准营销 25篇 NVIDIA-RAPID 4篇 机器学习平台Apple.Turicreate 7篇 图像︱相关技术跟踪与商业变现 23篇 图像opencv及图像基础技术 9篇 图像︱caffe 19篇 个性化推荐与检索 8篇 多模态︱相关技术跟踪 1篇 大数据、并行计算&R 15篇 R︱金融风险管控 10篇 R︱可视化 10篇 SPSSModeler&SPSS 1篇 Eviews8.0&9.0 3篇 SAS 5篇 docker/linux/API部署 7篇 python︱爬虫 2篇 八爪鱼采集器 1篇 图像︱质量评估与检索 1篇 最新评论 坑挺多|联邦学习FATE:上传数据(一) 条件漫步: tablename和namespace路径在服务器什么地方呢? 坑挺多|联邦学习FATE:训练模型(二) 条件漫步: 本地的数据上传,上传到什么地方呢?有路径吗? 因果推断笔记——因果图建模之微软开源的EconML(五) wangsanjin111: T里面的p是什么呀 R语言︱文件读入、读出一些方法罗列(批量xlsx文件、数据库、文本txt、文件夹) 周小阮: 请问WPS的excel数据也可以读吗?找不到对象是不是表示读不了呀? 机器学习模型可解释性进行到底——SHAP值理论(一) 陈冠丞_Kevin: [微观]单样本特征影响图二想请问一下里面的那个红蓝解释是不是写错了?例如6.575这个应该是他的特征值,不是shap值;还有我理解,shap.vlaues里面的就是shap值了,不用在去乘以本来的特征值吧 您愿意向朋友推荐“博客详情页”吗? 强烈不推荐 不推荐 一般般 推荐 强烈推荐 提交 最新文章 到此一游︱2022Google开发者大会 python|prophet的案例实践:趋势检验、突变点检验等 笔记|不规则波动的时间序列数据处理与关联模型小结 2022年22篇 2021年75篇 2020年25篇 2019年15篇 2018年40篇 2017年117篇 2016年139篇 2015年3篇 目录 目录 分类专栏 付费-智能写作专栏 付费 28篇 营销科学 46篇 联邦学习 3篇 Python︱基础与数据处理 28篇 航拍AI 2篇 streamlit 7篇 NLP︱R+python 61篇 NLP︱相关技术跟踪 23篇 机器学习︱R+python 81篇 个性化推荐 18篇 Tensorflow+Keras 20篇 知识图谱(KG/Neo4j) 16篇 R︱数据操作与清洗 36篇 R的数据操作与清洗 26篇 R语言与自然语言处理 21篇 R︱精准营销 25篇 NVIDIA-RAPID 4篇 机器学习平台Apple.Turicreate 7篇 图像︱相关技术跟踪与商业变现 23篇 图像opencv及图像基础技术 9篇 图像︱caffe 19篇 个性化推荐与检索 8篇 多模态︱相关技术跟踪 1篇 大数据、并行计算&R 15篇 R︱金融风险管控 10篇 R︱可视化 10篇 SPSSModeler&SPSS 1篇 Eviews8.0&9.0 3篇 SAS 5篇 docker/linux/API部署 7篇 python︱爬虫 2篇 八爪鱼采集器 1篇 图像︱质量评估与检索 1篇 目录 评论 2 被折叠的  条评论 为什么被折叠? 到【灌水乐园】发言 查看更多评论 打赏作者 悟乙己 你的鼓励将是我创作的最大动力 ¥2 ¥4 ¥6 ¥10 ¥20 输入1-500的整数 余额支付 (余额:--) 扫码支付 扫码支付:¥2 获取中 扫码支付 您的余额不足,请更换扫码支付或充值 打赏作者 实付元 使用余额支付 点击重新获取 扫码支付 钱包余额 0 抵扣说明: 1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。

2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值



請為這篇文章評分?