R数据。5分钟后入座

信息世界|2019年10月31日

快速查看R数据。这个5分钟的教程中的表包给出了包的速度和功能的一个示例。

版权©2019Raybet2

嗨。我是IDG的莎伦·马科利斯,这里是《用R:数据做更多》的第36集。5分钟后入座。

数据。table是一个以速度和能力著称的包,用于数据争用和分析。粉丝们说它的语法既简洁又一致。这个语法也与base R或tidyverse有一点不同。

让我们深入了解一下它是如何工作的。

数据表对象是数据框架的一种类型,但具有特殊的特性。有几种方法可以创建一个。在这里,我将加载这个包,并使用数据导入一个包含大约645K行和20多列的CSV文件。表的从文件中读()函数。


可以看到fread()非常快。看一下对象的类,mydt既是数据框架又是数据表。

您还可以将现有的数据帧转换为数据。带有as.data.table()函数的表。我将创建一个带有基本R 's read.csv的数据框架,然后对其进行转换。好了,让我把这些复印件处理掉。

让我们看一下mydt的结构:现在我有了一个数据。表。

我们每个航班都有一行信息,比如航班日期,起点站信息,目的地信息,以及一些时间和延误信息。如果我只想看看从波士顿到旧金山的航班延误怎么办?

下面是你想对数据做的很多事情的基本语法。

Mydt开放式托架I,J,附近支架

这意味着:从mydt开始,使用I进行子集或重新排序,使用j进行计算,然后使用by by排序。

所以。如果我想把这个数据子集的原点是洛根机场,也就是BOS,我所要做的就是把origin == BOS放在I区。

如果我想查看从波士顿到旧金山的航班呢?我只是添加了第二个条件

我会运行的代码,并保存在一个名为myresult新的变量。


为了计算以分钟为单位的平均(或平均)延迟,我将计算放到了j部分。我想要的是ARR_DELAY_NEW列的平均值,它的延迟以分钟为单位。

我需要na。rm = TRUE删除所有不可用项。让我运行一下。

你看,现在我有一个单一的平均所有的延误。

接下来,我想知道航空公司的平均延误时间。为此,我使用了by part。

让我运行这段代码。

嗯。这些承运航空公司的名称不是很直观。我没有太多的时间去到连接表,但很快,所以你可以看到它是多么容易。。。


我有一个单独的查找表CSV,其中包含我将导入的航空公司代码和航空公司名称。这里有一种连接方法。我将首先为每个表设置连接(和索引)键—OP_UNIQUE_CARRIER用于原始数据和查找表的代码。然后是查找表,原来的数据表在括号里。(

还有其他连接数据的方法——我将在以后的视频中对此进行探讨,因为我已经没有时间看这一集了。谢谢收看!要了解更多关于R的技巧,请前往go。infoworld。com网站上的“用R做更多”页面,除R外其他字母都是小写的
你也可以在YouTube IDG技术谈话频道上找到“用R做更多”的播放列表——在那里你可以订阅,这样你就不会错过任何一集。希望下次能见到你!
受欢迎的
从IDG.tv精选视频