[学习交流] 【上海校区】如何用 4 行 R 语句，快速探索你的数据集？

痛点实践中，大量数据分析时间，都会花在数据清洗与探索性数据分析（Exploratory Data Analysis, EDA）。即缺失值统计处理，和变量分布可视化。
数据采集过程中，可能有缺失。
你需要了解缺失数据的多少，以及它们可能对后续分析造成的影响。
如果某个变量的缺失数据少，干脆把含有缺失值的行（观测）扔掉就算了，免得影响分析精确程度。
但如果缺失数据太多，都扔掉就不可行了。你需要考虑如何进行填补。是用0，用 "unknown" ，还是使用均值或中位数？
另外，你可能还想看看每个特征变量的分布情况。
例如定量数据是正态分布，还是幂律分布？这对你后面合理进行研究假设，都是有影响的。
即便是对于分类数据，你也要了解独特取值（unique values）的个数，以便做到心中有数。
这些工作很有必要。但是实现起来，却一直很麻烦。即便是 R 这样专门给统计工作者使用的软件，从前也需要调用若干条命令（一般跟特征变量个数成正比），才能完成。
我最近发现了一款 R 包，可以非常方便地进行数据集总结概览。只要一条语句，就帮你完成探索性数据分析中的许多步骤。
通过本文，我把它分享给你。希望对你的数据分析工作有帮助。
演示你不需要安装任何软件。只需要点击这个链接（t.cn/Rg1JFfo），就可以使用 R 编程环境了。

等准备工作完毕，你会看到，浏览器里面开启了一个 RStudio 界面。

点击左上角的 File -> New File ，选择菜单里面的第一项 R Script 。

此时，你会看到左侧分栏一个空白编辑区域开启，可以输入语句了。

输入之前，我们先给文件起个名字。点击 File -> Save 按钮。

在新出现的对话框里面，输入 demo ，回车。

我们一共需要如下输入4条语句。你可以直接复制粘贴进编辑区域。
library(tidyverse)library(summarytools)flights <- read_csv("https://gitlab.com/wshuyi/demo-data-flights/raw/master/flights.csv")view(dfSummary(flights))复制代码分别解释一下含义。其实前3行语句，都是准备工作。真正总结概览功能，只需第4条。
第一行： tidyverse 是一个非常重要的库。可以说它改进了 R 语言处理数据的生态环境。而这个库中的大部分工具，都是 Hadley Wickham 一己之力推动和完成的。

第二行： summarytools 是我们今天用来总结概览数据的软件包名称。
第三行：使用 read_csv 做数据读入。我们是从这个网址读取的，并且把数据存储到 flights 变量中。
你可以点击该链接（t.cn/Rg1XCCN），下载原始数据 csv 文件，查看其内容。

这个数据集，来自于 Hadley Wickham 的 github 项目，名称叫做 nycflights13 。

它记录的是 2013 年，纽约市3大机场（分别为： JFK 肯尼迪国际机场、 LGA 拉瓜迪亚机场，和 EWR 纽瓦克自由国际机场）起飞的航班信息。
具体的记录信息（特征列），包括起飞时间、到达时间、延误时常、航空公司、始发机场、目的机场、飞行时长，和飞行距离等。
这个表格，看起来已经是很清晰的了。但是，由于观测（行）数量众多，我们很难直观分析出缺失值的情况，以及数据的分布等信息。
第4条语句，就是负责帮助我们更好地检视和探索数据用的。它用 dfSummary 函数处理 flights 数据框的内容，然后用 view 函数直观输出给用户。
点击 Code -> Run Region -> Run All 命令，运行代码。

运行中，可能会有一些警告信息。别理它就好。

分析的结果，在右下方的显示区域。因为区域比较小，内容却很多，看不全面。
你可以点击这个区域左上方第三个按钮 Show in new window ，在浏览器新窗口打开完整的显示结果。

解读因截图篇幅关系，一张图中，无法显示完整信息。就着第一屏，给你讲解一下都有哪些分析结果。

第一列是序号。不用理会。
第二列是变量名称，以及变量的类型。例如 integer 指的是整数类型的定量数据；character 是字符串类型，也就是分类数据。
第三列是统计结果。对于定量数据，直接汇报最大、最小、均值、中位数等信息。
第六列是有效值个数；与其互补，第七列是缺失值个数。
第四列是频数。显示每一个变量对应独特取值出现的情况。
第五列最有意思，直接绘制分布统计图形。

我们翻到下一页看看。

可以看出，起飞延误是个典型的幂律分布。
到达延误，和的起飞延误分布长得很像，想想似乎很有道理。
但到达延误的分布类别是什么呢？为什么二者会有差异呢？
这个问题，供你思考。
探索本文介绍的 summarytools 包的功能，并不只是对数据集做总体总结概览。
它还可以进行变量之间的关系展示。例如你想知道3大机场起飞的航班，对应航空公司的比例是否有差别。可以用一条语句，就得到这样的一张分析表格：

想自己动手，做出这样一张分析表格？请你点击这个链接(github.com/dcomtois/su…)，阅读文档，了解 summarytools 的更多功能。

作者：王树义
链接：https://juejin.im/post/5b566a9a6fb9a04fbb11255b

不二晨 · 不二晨

奈斯

wuqiong · wuqiong

不二晨 · 不二晨

奈斯，优秀

梦缠绕的时候 · 梦缠绕的时候

摩西摩西OvO · 摩西摩西OvO

吴琼老师 · 吴琼老师

帐号		自动登录	找回密码
密码			加入黑马

[学习交流] 【上海校区】如何用 4 行 R 语句，快速探索你的数据集？

6 个回复