用dplyr包做数据预处理,你会发现……

发布时间:2016-12-27 14:09:02来源:本站原创

dplyr包将原本plyr包中的 ddply等函数进一步分离强化,专注接受dataframe对象,大幅提高了速度,并且提供了更稳健的与其它数据库对象间的接口。下面将介绍强大的dplyr包,其可以非常灵活、快速的实现数据的预处理。

tbl对象

使用dplyr包预处理时建议将原数据转换为tbl对象,因为dplyr包用C语言开发,对处理tbl对象是非常迅速的。 

R1.png

观测筛选

按给定的逻辑判断筛选出符合要求的子数据集,可以使用filter函数。 

R2.png

数据排列

可以使用arrange函数,按给定的列名依次对行进行排序,默认升序。 

R3.jpg

变量选取

可以使用select函数筛选指定的变量,比subset函数更灵活。

R4.png

用":"来连接列名,可以把列名当作数字一样使用。 

R5.png

如果需要剔除某些变量,只需在变量前加上负号“-”。

R6.png

选择变量的同时也可以重新命名变量。 

R7.png

everything():选择所有变量,一般调整数据集中变量顺序时使用。 

R8.png

starts_with(x):选择以字符x开头的变量。 

R9.png

ends_with(x):选择以字符x结尾的变量。 

R10.png

数据关连

我们知道,数据库中经常需要将多个表进行连接操作,如左连接、右连接、内连接等,这里dplyr包也提供了数据集的连接操作,具体如下:

inner_join # 內连

left_join # 左连

right_join # 右连

full_join # 全连

semi_join # 返回x表能够与y表匹配的x表所有记录

anti_join # 返回x表不能够与y表匹配的x表所有记录 

R11.png

连接数据库 

R15.png

如果大家对R感兴趣,可以参加寒假开班的数据分析师培训(第九期),提前交定金是可以享受9折优惠哦!赶紧加入吧,你将会成为大数据时代的大神哦!

评论已有 0

登录之后才能发表评论
公众号
返回
顶部
请关注“官方公众号”
Copyright © 2013-2017   广州泰迪智能科技有限公司   技术支持   粤ICP备14098620号