如何使用dtplyr包

InfoWorld的|2019年11月15日

dtplyr 1.0包允许您编写dplyr代码并访问快速数据。表的性能。找出

版权所有©2019Raybet2

你好。我莎朗马克利斯在IDG,这里做一集37多与R:dplyr语法+ data.table速度与新dtplyr 1.0包。

tidyverse和data的世界。随着本周在CRAN上发布的dtplyr 1.0,这个表又向前移动了一点。它允许tidyverse的dplyr语法的粉丝访问数据。后端的表速度——所有这些都不需要为他们的代码学习一种新的格式。

但也有对谁想要了解如何使用data.table dplyr用户的好消息。那是因为你可以看到data.table代码dtplyr从dplyr功能产生。

让我们来看看。

我将首先导入一个包含250万行的数据集:今年5月至8月期间美国机场的航班延误。

接下来,我将使用正则dplyr发现每个机场内的每个目的地机场平均到达延误,各航空公司,机场通过先排序,然后平均延迟(从最大到最小)。

现在,我会怎么做,与dtplyr?首先我想创建我的数据的“懒”的数据表的版本。(“懒”只是意味着代码不会被立即执行,但只有当具体要求。)

这种“懒”的对象是dtplyr“台阶”对象,你可以从检查同级车看到。如果我把它打印出来。

在上线检查的消息。如果我想在这个慵懒dtplyr对象访问数据,我需要把它变成一个data.table,数据帧,或tibble。这不是一个常规类型的数据帧。

OK,接下来,我可以运行相同dplyr代码,我以前做的,但我的懒惰对象。如果我打印出来的结果,我看到我还有一个懒惰的对象。同样,如果我想访问这些数据,我需要把它放回一个数据表,数据帧,或tibble。但是,看看上面的地方说电话:显示这是由dtplyr产生data.table代码。

您可以使用代码运行使用data.table包本身相同的命令。首先,我需要的数据作为数据表现在,如果我复制电话:代码和变化DT2到mydt,它应该工作。此外,还有我们。

总结一下,以下是使用dtplyr的完整代码:创建一个延迟数据表,运行您通常的dplyr代码,然后将结果返回到一个数据框架、tibble或数据表。

在此代码,我不创建对象,这是我以前做的第二,独立的懒副本。我不想与大数据有关。相反,我在管道命令的第一步创建懒数据表作为希望你可以在这里看到。

让我来运行此。我希望你能看到的速度有多快,这是。我跑了一些粗俗的标杆,并dtplyr是为这个特殊的任务快4至5倍。与往常一样,速度比较依赖于所使用的数据集和操作。但是,这是一个很好的赌注,dtplyr通常比dplyr更快。如果你的数据集是足够大的,速度是重要的,你是一个dplyr语法风扇,dtplyr可能是一个不错的选择。我想重写我的一些闪亮的Web应用程序代码dplyr到dtplyr以提高性能。

如果你是谁想要学习data.table一个tidyverse用户,dtplyr可能是你知道的代码转换成代码你学习的好工具。

这是它为这个情节,感谢收看!对于以上R提示,头向做多有R在页面去点InfoWorld的点com削减更多的与R,除了R.全部小写

您还可以找到做多配合YouTube IDG技术讲座槽R播放列表 - 在这里你可以订阅,所以你永远不会错过任何一集。希望下次见到你的时候,当我将谈论连接数据的方式有三种:基础R,dplyr和data.table。
流行
IDG.tv的特色视频