嗨。我是IDG通信公司的莎伦·马格里斯,这里是《用数据做更多的事》第31集。表包的点- sd符号。
对于一些data.table用户,点SD是一个有点神秘。但data.table创作者马特Dowle告诉我,这实际上非常简单:只要把它看作代表“各组”的象征。让我告诉你一些例子。
我有一组来自波士顿地区自行车共享系统的每日骑车出行数据。如果你想继续读下去,InfoWorld上的相关文章有相关数据。
我将数据加载。表格和导入我的CSV文件使用数据。表的从文件中读()函数。这里我将数据保存到一个名为mydt的数据表中。\
接下来,我将查看前6行,看看数据是什么样子的。我已经有了日期、用户类型(订阅者或单次旅行的客户)、旅行次数、年和月起始日期等列,因此我可以轻松地按月细分总数。
下面是Matt建议的第一个示例:打印按用户类型分组的数据表的前几行。(我们过滤前12行只是为了更容易看到输出)。
打印()遍历每个组和印刷两个单独的时间,每个用户类型。但问题是我不知道这是客户的用户群体,哪一个是用户的用户群。“按”列不打印出来。马特给我看应该是一个小动作,虽然。
如果你熟悉数据的话。表语法,数据表名后面的括号符号有三部分:I、j和by。I表示过滤行,j表示要做什么,by表示要如何对数据进行分组。
看到第4行代码了吗?我刚在j部分加了花括号。这将让我在j部分中加入多个R表达式。如果我现在运行它,它和以前一样。仍然没有用户类型名称。
但是现在看看我在第6行添加的R语句(马特让我添加的):print(. by). by是一个特殊的数据。保存by值的表符号—我根据哪一列或哪一列进行分组。
如果我运行这段代码,我现在有了每个分组变量的名称和打印输出。
这是一个非常基本的例子。不过,我猜您可能想用. sd做一些比打印更有趣的事情。接下来我们看看每个月哪一天的旅行最多。
第一行代码包含了所有内容。括号中的第一个参数是过滤2019年的任何行。j参数是有趣的部分。可以将dot-SD看作是对每组数据的引用。或者就像马特说的,“你做j by by。”比如for循环。“让我们运行代码。
有趣。每一个最大值都是订阅者。下一行代码让我根据每个用户类型查看每个月的旅行次数最多的一天。我有两列by,而不是一列。
有两种方法可以通过data.table中的多个列来表示分组。你也可以做一个传统的基R向量,在每个列名周围加上引号。第三行代码与第二行代码相同。
这一集就到这里,感谢收看!要了解更多关于R的技巧,请前往go。infoworld。com网站上的“用R做更多”页面,除R外其他字母都是小写的。
你也可以在YouTube IDG技术谈话频道找到更多的R播放列表。
希望下一集再见!