3.1 查看dataframe/tibble并了解它们的结构
3.1.1 dataframe/tibble的基本概念
dataframe是R中存储复杂(多变量)数据的规范格式,它直观易操作。tibble是tidyverse的一部分,它是dataframe的进化版,功能更强大,更易操作。
我们来看个例子:
首先加载tidyverse:
require(tidyverse)
以后每次跟着本书使用R的时候,都要先加载tidyverse,不再重复提醒了。
tidyverse中自带一些范例数据,比如我们输入:
mpg
一个正确的dataframe/tibble,每一行代表的是一个observation(硬翻译的话是“观测单位”,但是我觉得这个翻译不好),每一列代表的是一个variable(变量),且同一个变量的数据类型必须一样。像这样的数据被称为“tidy data”(“整齐的数据”)。虽然看起来简单,直观,理所当然,但是现实中上人们经常会做出“不整齐”的数据。把不整齐的数据弄整齐是第??章的重点。
3.1.2 查看更多数据
R默认显示tibble的前10行。如果想看前n行或最后n行,可以分别使用head()
和tail()
函数,比如:
tail(mpg, 6) # `mpg`的最后6行
#> # A tibble: 6 x 11
#> manufacturer model displ year cyl trans drv cty hwy fl class
#> <chr> <chr> <dbl> <int> <int> <chr> <chr> <int> <int> <chr> <chr>
#> 1 volkswagen passat 1.8 1999 4 auto… f 18 29 p mids…
#> 2 volkswagen passat 2 2008 4 auto… f 19 28 p mids…
#> 3 volkswagen passat 2 2008 4 manu… f 21 29 p mids…
#> 4 volkswagen passat 2.8 1999 6 auto… f 16 26 p mids…
#> 5 volkswagen passat 2.8 1999 6 manu… f 18 26 p mids…
#> 6 volkswagen passat 3.6 2008 6 auto… f 17 26 p mids…
若要在source栏中从头到尾查看全部数据,可以使用View
函数:
View(mpg)