免费的数据可视化与微软Power BI:您的逐步指南

我们会告诉你如何分析与两百多万条记录的美国航空公司航班延误的一个文件,在这个动手与视频教程。

1234 第2页
第2页4

数据争吵

查询编辑器允许您通过合并多个数据源和旋转或取消旋转数据来重塑和转换数据。它还可以处理常见的数据苦差事,如添加、删除、重命名和移动列。

对于航班延误数据,您希望将多个月合并到一个表中,因此在添加了7月、8月和9月之前,不要在6月开始更改数据。否则,您必须在合并它们之前对每个文件重复相同的转换。

要将更多的CSV文件导入到这个主动查询编辑器窗口中,单击New Source > CSV并选择一个文件(一次只能选择一个),快速预览数据并单击OK。

现在,每个数据源都应该在左侧面板的查询下列出。接下来,在查询面板中,单击您想要添加数据的表(对于本例,您可以选择2015_06_ONTIME并添加其他月份)。

点击追加查询(如果你的浏览器窗口很窄,追加查询可能是一个组合按钮下),点击三个或多个表(默认为两个表),并按照对话框中的说明。

004年powerbi appendquery

追加查询,您可以合并数据源。

你的2015_06_ONTIME文件现在应该有4个月的数据,而不仅仅是6月,所以可能值得重新命名为2015_SUMMER_ONTIME。你可以在左侧的查询面板右击它来重命名它;或者,在该查询处于活动状态时(从查询面板单击),查看右侧面板上的查询设置,并更改PROPERTIES下的Name框中的文本。

接下来,让我们尝试使用一个公共列合并两个表——在SQL中通常称为联接,在Excel中则称为查找表。

在2015_06_ONTIME载波列使用航空公司代码(例如AA),而不是航空公司名称。这将是很好,具有完整的航空公司的名称,因为不是所有的代码都是直观 - AA可不明显,但VX和B6少一些。我创建的航空公司代码和载体名称的文件,airlinecodes.csv,这也是在现有的计算机世界内幕数据下载。您可以将文件导入使用New Source按钮当前查询编辑器窗口。

在我的系统,airlinecodes.csv导入BI电源不正确的列名。相反,列被命名为“列1”和“列2”(显然是系统默认值),而真正的列名,“守则”和“航空公司”,出现了数据的第一行。如果出现这种情况,你同样,外观上的主功能区中的权利,你应该会看到一个选项,将第一行作为标题。点击它来修复它。

接下来,让我们添加航空公司名称信息航班延迟数据。有了您的主要数据来源2015_SUMMER_ONTIME活跃,选择合并查询。在弹出的对话框中,选择查询表查找信息,在这种情况下,airlinecodes,然后点击列标题为每个表中的公共列:在airlinecodes表CARRIER在2015_SUMMER_ONTIME和代码。

最后,选择什么样的合并/加入你想要的 - 他们在下拉列表中会描述。例如,一个我们想要的,“左外,”办法“从第一个表是否有第二个表匹配保留所有行。”电力BI现在将尝试估计有多少匹配的行也有,这是有帮助的,如果你犯了一个错误,并与零轮的比赛结束了,因而需要为参加重新审视你使用的列和数据是否格式化在两个相同的。

一切都很好?单击确定,完成联接。

合并后,你会看到最右边的数据表的标记NewColumn列,与表图标左侧的列名和箭头的权利。点击箭头以展开表列查看数据 - 你可以选择你要添加到原表中的列。

005年powerbi expandnewcolumns

展开表列查看数据。

如果要移动该航空公司柱接近运营商,头变换标签。在那里,你将不得不移动新选择(或任何其他)列。在这种情况下,使用Power BI界面,你可以为了得到旁边的载体,利用柱航空公司列选择新列,然后使用Move>要开始,然后移动>右键四倍。但是,有一个不太麻烦的方式。

powerbi变换

Transform ribbon有许多选项,包括移动列。

首先,如果您没有看到表格上方的公式栏,请转到View ribbon并检查公式栏,使其可见。然后头部到转换功能区,确保航空公司列被选择,并选择移动>到开始。现在您将看到用M语言对列进行重新排序的公式。单击向右移动>,您将看到公式如何变化。看起来您可以将Airline列剪切粘贴到您想要的位置——但是您不能在这里进行更改。

powerbi formulabar

检查色带视图下的公式栏才能看到下面的M语言脚本。

取而代之的是,去查看>高级编辑器,你会看到所有步骤的脚本。编辑Table.ReorderColumns行把航空公司,当你想它,然后点击完成。您的航空公司列应该感动。

006 powerbi advancedqueryeditor

编辑表。ReorderColumns行放置航空公司时,您需要它。

存在可用的许多其它操作的变换菜单上的为好,例如通过一个或多个列分组值的基础上,分离器或字符的特定数目,和枢转(类似于创建Excel数据透视表)或unpivoting(分裂列移动多列数据为两列:变量数据,如“月”和值数据,如“六月”)。

您还可以使用在变换色带的选择,如计算行或创建汇​​总统计像数,平均值,中值和标准差一些基本的统计研究。当您执行数据汇总,以新的概括值的表会出现在将原始数据表。为了让您的原始数据后面的观点,进入应用步骤列数据表的右侧,并删除汇总功能。

实际上,您可以使用Applied Steps来删除您在这里执行的任何步骤,而不仅仅是最近的步骤,这非常方便。不幸的是,在查询编辑器中删除一个步骤后也不会撤消,因此您无法将已删除的内容返回。

选择变换色带上的计数行菜单选项,以查看行数;如果你使用的是航班延迟文件《计算机世界》,您将看到有超过200万行——超过了您可以在Excel和its中拉出的行数1,048,576限行。删除计数行步骤以返回完整数据。

目前,夏季航班延误表有50多列。为了使事情更易于管理,只选择一些您可能希望在一些数据可视化中使用的:月、FL_DATE、Airline、FL_NUM、ORIGIN、ORIGIN_CITY_NAME、DEST、DEST_CITY_NAME、CRS_DEP_TIME、DEP_DELAY、ARR_DELAY、CANCELLED、CARRIER_DELAY、WEATHER_DELAY、NAS_DELAY、SECURITY_DELAY、LATE_AIRCRAFT_DELAY。

单击选择列按钮上的主页丝带,取消选择所有列,然后检查框旁边的列你想保留,然后单击确定。

如果以后决定要重新添加任何列,您可以通过单击编辑查询返回的查询编辑器,然后单击旁边的设置齿轮的应用步骤塔移除等栏目。这使该对话框回到了前面的选择,你可以到你的项目添加更多的列。

最后,一定要改变的列是没有任何意义的数字转换成文本。例如,除非你想双向电力来计算您的航班号的总和 - 你不 - 把它们变成文字。否则,试图与这些领域的类别将不能工作,你最终会浪费时间了相当数量,使图形(不要问我怎么知道的)。您可以通过右键单击列标题并选择切换类型>文本转换FL_NUM和月份成文本。另外的调整:取消的列显示0假,1为真 - 如果你愿意,你可以改变这种类型真/假。

有趣的来了。

简单的可视化

收出查询编辑器与关闭的&应用要回主电源BI应用。(因为这些文件是如此之大,这可能需要一段时间。)在这一点上,你可能还希望做一个文件>保存,保存为一个电源的BI项目,这样如果发生什么事,你不需要工作重新创建你的脚步。

你的力量BI空白画布应该是这个样子:

007年powerbi blankcanvas

A电源BI空白的画布。

去掉所有我们合并到2015_SUMMER_ONTIME的其他查询文件会很好,因为我们将不再使用它们。如果您进入右边的字段面板并尝试右键单击并选择Delete,您将得到一个警告,说您不能删除这些查询,因为它们被另一个查询引用。但是,您可以右键单击然后隐藏把他们弄走。

对除2015_SUMMER_ONTIME之外的所有查询执行此操作。现在只剩下一个查询表,2015_SUMMER_ONTIME表将自动展开以显示其列名。(菜单中有多个查询时,默认不显示列名;单击旁边的三角形将其展开;右键单击并选择Expand all以查看所有查询的字段。)

想要画出起飞延误的曲线图吗?单击DEP_DELAY旁边的复选框。你会得到一个柱状图,用一个柱状图把数据中所有的延迟时间加起来。(如果您没有指定,Power BI会尝试猜测哪种可视化方法对您的数据最有效。)单击Airline,图将变成每个航空公司航班延误总数的条形图。

按航空公司总的延迟的总和是没有多大用处的,虽然,越航一家航空公司有,越分钟延迟很可能有。但如果你看看可视化面板下方和值下找到DEP_DELAY,您可以点击三角下拉菜单,改变DEP_DELAY的总和分钟到平均(或中值,如果你喜欢)。

008 powerbi sumtoavg

点击旁边的一个值字段三角形带来了可视化选项,如改变总和的平均值。

(如果图表太小,只需单击并拖动框以调整其大小的一个角落里。)

图表目前由航空公司按字母顺序排序。如果你需要它有序,从最高到最低,单击省略号右上方和排序选择按DEP_DELAY的>平均。

009年powerbi sortgraph

单击省略号在图的右上方带来了排序选项。

到达延误也会很有趣。将ARR_DELAY拖到面板的值区域上,并将其从Sum更改为平均值。再次单击右上方的省略号,按ARR_DELAY降序排序(如果默认为升序,只需再次单击)。你现在应该有一个像这样的图表:

011 powerbi arrivaldeparturegraph

表示出发地和到达延迟的图。

(你可以看到一个版本的图,关于“分众模式”旁边的图标在图形边框的右上角的省略号通过点击占据了整个画布。)

默认的标题有点蹩脚。您可以通过单击可视化选项下方的画笔图标来更改标题和许多设计默认值。要编辑特定的图形,请确保单击它使其处于活动状态(可见边框)。单击Title,您将看到更改标题文本、字体颜色、大小、对齐方式等选项。

还有一些选项可以向条中添加数据标签、更改X轴和y轴,等等。

例如,您可以将标题改为以分钟为单位,君平均出发和到达延迟日 - 9月2015年,撞了文字大小和居中对齐。如果你想重命名字段,你可以做到这一点字段面板上 - 右键单击​​一个字段,然后选择重命名。尝试改变DEP_DELAY DEP的延迟和ARR_DELAY到编曲延迟。

那么,它肯定看起来像Spirit航空公司是不是最好的选择,去年夏天 - 但也许航空公司在一些机场大延误而不是其他人?我们可以修改的可视化,包括只有几个机场。

有一对夫妇的方式来缩小数据的一个子集。过滤器可以应用到一个图,整个页面或在多页的报告的所有页面。在修改报表,您可以更改过滤器;但如果随后分享你的工作作为一个双向电力仪表盘,只读用户将看到你只过滤什么,将无法在添加回数据。

另一种选择是添加交互式切片器。使用切片器,如果您稍后与他人共享您的工作,他们可以交互地过滤数据并将其添加回去。

让我们尝试两种。

[仍在继续下一个页面]

1234 第2页
第2页4
工资调查:结果是