dplyrAan de slag met dplyr


Opmerkingen

Deze sectie geeft een overzicht van wat dplyr is en waarom een ontwikkelaar het misschien wil gebruiken.

Het moet ook alle grote onderwerpen binnen dplyr vermelden en een link naar de gerelateerde onderwerpen bevatten. Aangezien de documentatie voor dplyr nieuw is, moet u mogelijk eerste versies van die gerelateerde onderwerpen maken.

Basic Werkwoorden

library(dplyr)
library(nycflights13)

Er zijn verschillende werkwoorden die het meest worden gebruikt in dplyr om gegevenssets te wijzigen.

kiezen

Selecteer tailnum , type , model uit de dataframe- planes :

select(planes, tailnum, type, model)
## # A tibble: 3,322 × 3
##  tailnum          type   model
##   <chr>          <chr>   <chr>
## 1  N10156 Fixed wing multi engine EMB-145XR
## 2  N102UW Fixed wing multi engine A320-214
## 3  N103US Fixed wing multi engine A320-214
## 4  N104UW Fixed wing multi engine A320-214
## 5  N10575 Fixed wing multi engine EMB-145LR
## 6  N105UW Fixed wing multi engine A320-214
## 7  N107US Fixed wing multi engine A320-214
## 8  N108UW Fixed wing multi engine A320-214
## 9  N109UW Fixed wing multi engine A320-214
## 10 N110UW Fixed wing multi engine A320-214
## # ... with 3,312 more rows
 

Herschrijf de bovenstaande instructie met de forward-pipe-operator ( %>% ) uit het magrittr-pakket:

planes %>% select(tailnum, type, model)
## # A tibble: 3,322 × 3
##  tailnum          type   model
##   <chr>          <chr>   <chr>
## 1  N10156 Fixed wing multi engine EMB-145XR
## 2  N102UW Fixed wing multi engine A320-214
## 3  N103US Fixed wing multi engine A320-214
## 4  N104UW Fixed wing multi engine A320-214
## 5  N10575 Fixed wing multi engine EMB-145LR
## 6  N105UW Fixed wing multi engine A320-214
## 7  N107US Fixed wing multi engine A320-214
## 8  N108UW Fixed wing multi engine A320-214
## 9  N109UW Fixed wing multi engine A320-214
## 10 N110UW Fixed wing multi engine A320-214
## # ... with 3,312 more rows
 

filter

filter rijen op basis crieria.

Retourneer een gegevensset met de manufacturer "EMBRAER":

planes %>% filter(manufacturer == "EMBRAER")
## # A tibble: 299 × 9
##  tailnum year          type manufacturer   model engines
##   <chr> <int>          <chr>    <chr>   <chr>  <int>
## 1  N10156 2004 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 2  N10575 2002 Fixed wing multi engine   EMBRAER EMB-145LR    2
## 3  N11106 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 4  N11107 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 5  N11109 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 6  N11113 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 7  N11119 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 8  N11121 2003 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 9  N11127 2003 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 10 N11137 2003 Fixed wing multi engine   EMBRAER EMB-145XR    2
## # ... with 289 more rows, and 3 more variables: seats <int>, speed <int>,
## #  engine <chr>
 

Retourneer een gegevensset waarbij de manufacturer "EMBRAER" is en het model "EMB-145XR" is:

planes %>% 
 filter(manufacturer == "EMBRAER", model == "EMB-145XR")
## # A tibble: 104 × 9
##  tailnum year          type manufacturer   model engines
##   <chr> <int>          <chr>    <chr>   <chr>  <int>
## 1  N10156 2004 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 2  N11106 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 3  N11107 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 4  N11109 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 5  N11113 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 6  N11119 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 7  N11121 2003 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 8  N11127 2003 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 9  N11137 2003 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 10 N11140 2003 Fixed wing multi engine   EMBRAER EMB-145XR    2
## # ... with 94 more rows, and 3 more variables: seats <int>, speed <int>,
## #  engine <chr>
 

De bovenstaande verklaring is hetzelfde als het schrijven van een "AND" -voorwaarde.

planes %>% filter(manufacturer == "EMBRAER" & model == "EMB-145XR")
## # A tibble: 104 × 9
##  tailnum year          type manufacturer   model engines
##   <chr> <int>          <chr>    <chr>   <chr>  <int>
## 1  N10156 2004 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 2  N11106 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 3  N11107 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 4  N11109 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 5  N11113 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 6  N11119 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 7  N11121 2003 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 8  N11127 2003 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 9  N11137 2003 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 10 N11140 2003 Fixed wing multi engine   EMBRAER EMB-145XR    2
## # ... with 94 more rows, and 3 more variables: seats <int>, speed <int>,
## #  engine <chr>
 

Gebruik het pijp (|) teken voor "OF" voorwaarden:

planes %>% filter(manufacturer == "EMBRAER" | model == "EMB-145XR")
## # A tibble: 299 × 9
##  tailnum year          type manufacturer   model engines
##   <chr> <int>          <chr>    <chr>   <chr>  <int>
## 1  N10156 2004 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 2  N10575 2002 Fixed wing multi engine   EMBRAER EMB-145LR    2
## 3  N11106 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 4  N11107 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 5  N11109 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 6  N11113 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 7  N11119 2002 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 8  N11121 2003 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 9  N11127 2003 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 10 N11137 2003 Fixed wing multi engine   EMBRAER EMB-145XR    2
## # ... with 289 more rows, and 3 more variables: seats <int>, speed <int>,
## #  engine <chr>
 

Gebruik grepl in combinatie met filter voor patroonafhankelijke omstandigheden.

planes %>% filter(grepl("^172.", model))
## # A tibble: 3 × 9
##  tailnum year           type manufacturer model engines seats
##   <chr> <int>          <chr>    <chr> <chr>  <int> <int>
## 1 N378AA 1963 Fixed wing single engine    CESSNA 172E    1   4
## 2 N621AA 1975 Fixed wing single engine    CESSNA 172M    1   4
## 3 N737MQ 1977 Fixed wing single engine    CESSNA 172N    1   4
## # ... with 2 more variables: speed <int>, engine <chr>
 

tussen

Retourneer alle rijen met een year between 2004 en 2005:

planes %>% filter(between(year, 2004, 2005))
## # A tibble: 354 × 9
##  tailnum year          type manufacturer   model engines
##   <chr> <int>          <chr>    <chr>   <chr>  <int>
## 1  N10156 2004 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 2  N11155 2004 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 3  N11164 2004 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 4  N11165 2004 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 5  N11176 2004 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 6  N11181 2005 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 7  N11184 2005 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 8  N11187 2005 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 9  N11189 2005 Fixed wing multi engine   EMBRAER EMB-145XR    2
## 10 N11191 2005 Fixed wing multi engine   EMBRAER EMB-145XR    2
## # ... with 344 more rows, and 3 more variables: seats <int>, speed <int>,
## #  engine <chr>
 

plak

slice retourneert alleen rijen met de gegeven index.

Zet de eerste vijf rijen gegevens (zelfde als de base head functie):

planes %>% slice(1:5)
## # A tibble: 5 × 9
##  tailnum year          type   manufacturer   model engines
##   <chr> <int>          <chr>      <chr>   <chr>  <int>
## 1 N10156 2004 Fixed wing multi engine     EMBRAER EMB-145XR    2
## 2 N102UW 1998 Fixed wing multi engine AIRBUS INDUSTRIE A320-214    2
## 3 N103US 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214    2
## 4 N104UW 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214    2
## 5 N10575 2002 Fixed wing multi engine     EMBRAER EMB-145LR    2
## # ... with 3 more variables: seats <int>, speed <int>, engine <chr>
 

Retourneer de 1e, 3e en 5e rijen met gegevens:

planes %>% slice(c(1, 3, 5))
## # A tibble: 3 × 9
##  tailnum year          type   manufacturer   model engines
##   <chr> <int>          <chr>      <chr>   <chr>  <int>
## 1 N10156 2004 Fixed wing multi engine     EMBRAER EMB-145XR    2
## 2 N103US 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214    2
## 3 N10575 2002 Fixed wing multi engine     EMBRAER EMB-145LR    2
## # ... with 3 more variables: seats <int>, speed <int>, engine <chr>
 

Retourneer de eerste en laatste rijen:

planes %>% slice(c(1, nrow(planes)))
## # A tibble: 2 × 9
##  tailnum year          type         manufacturer
##   <chr> <int>          <chr>             <chr>
## 1 N10156 2004 Fixed wing multi engine            EMBRAER
## 2 N999DN 1992 Fixed wing multi engine MCDONNELL DOUGLAS CORPORATION
## # ... with 5 more variables: model <chr>, engines <int>, seats <int>,
## #  speed <int>, engine <chr>
 

muteren

mutate kan nieuwe variabelen toevoegen of bestaande variabelen wijzigen.

Voeg een dummyvariabele, engine.dummy met een standaardwaarde van 0:

planes %>% 
 mutate(engine.dummy = 0) %>%
 select(engine, engine.dummy)
## # A tibble: 3,322 × 2
##    engine engine.dummy
##    <chr>    <dbl>
## 1 Turbo-fan      0
## 2 Turbo-fan      0
## 3 Turbo-fan      0
## 4 Turbo-fan      0
## 5 Turbo-fan      0
## 6 Turbo-fan      0
## 7 Turbo-fan      0
## 8 Turbo-fan      0
## 9 Turbo-fan      0
## 10 Turbo-fan      0
## # ... with 3,312 more rows
 

Gebruik dplyr::if_else , engine.dummy ingesteld op 1 if engine == "Turbo-fan", anders engine.dummy ingesteld op 0:

planes %>% 
 mutate(engine.dummy = if_else(engine == "Turbo-fan", 1, 0)) %>%
 select(engine, engine.dummy)
## # A tibble: 3,322 × 2
##    engine engine.dummy
##    <chr>    <dbl>
## 1 Turbo-fan      1
## 2 Turbo-fan      1
## 3 Turbo-fan      1
## 4 Turbo-fan      1
## 5 Turbo-fan      1
## 6 Turbo-fan      1
## 7 Turbo-fan      1
## 8 Turbo-fan      1
## 9 Turbo-fan      1
## 10 Turbo-fan      1
## # ... with 3,312 more rows
 

Converteer planes$engine naar een factor.

planes %>% 
 mutate(engine = as.factor(engine)) %>% 
 select(engine)
## # A tibble: 3,322 × 1
##    engine
##    <fctr>
## 1 Turbo-fan
## 2 Turbo-fan
## 3 Turbo-fan
## 4 Turbo-fan
## 5 Turbo-fan
## 6 Turbo-fan
## 7 Turbo-fan
## 8 Turbo-fan
## 9 Turbo-fan
## 10 Turbo-fan
## # ... with 3,312 more rows
 

regelen

Gebruik arrange om uw dataframe te sorteren.

Plan planes per year :

planes %>% arrange(year)
## # A tibble: 3,322 × 9
##  tailnum year           type manufacturer    model engines
##   <chr> <int>          <chr>    <chr>    <chr>  <int>
## 1  N381AA 1956 Fixed wing multi engine   DOUGLAS   DC-7BF    4
## 2  N201AA 1959 Fixed wing single engine    CESSNA     150    1
## 3  N567AA 1959 Fixed wing single engine DEHAVILLAND OTTER DHC-3    1
## 4  N378AA 1963 Fixed wing single engine    CESSNA    172E    1
## 5  N575AA 1963 Fixed wing single engine    CESSNA 210-5(205)    1
## 6  N14629 1965 Fixed wing multi engine    BOEING   737-524    2
## 7  N615AA 1967 Fixed wing multi engine    BEECH   65-A90    2
## 8  N425AA 1968 Fixed wing single engine    PIPER  PA-28-180    1
## 9  N383AA 1972 Fixed wing multi engine    BEECH    E-90    2
## 10 N364AA 1973 Fixed wing multi engine    CESSNA    310Q    2
## # ... with 3,312 more rows, and 3 more variables: seats <int>,
## #  speed <int>, engine <chr>
 

planes arrange per year desc :

planes %>% arrange(desc(year))
## # A tibble: 3,322 × 9
##  tailnum year          type manufacturer  model engines
##   <chr> <int>          <chr>    <chr>  <chr>  <int>
## 1  N150UW 2013 Fixed wing multi engine    AIRBUS A321-211    2
## 2  N151UW 2013 Fixed wing multi engine    AIRBUS A321-211    2
## 3  N152UW 2013 Fixed wing multi engine    AIRBUS A321-211    2
## 4  N153UW 2013 Fixed wing multi engine    AIRBUS A321-211    2
## 5  N154UW 2013 Fixed wing multi engine    AIRBUS A321-211    2
## 6  N155UW 2013 Fixed wing multi engine    AIRBUS A321-211    2
## 7  N156UW 2013 Fixed wing multi engine    AIRBUS A321-211    2
## 8  N157UW 2013 Fixed wing multi engine    AIRBUS A321-211    2
## 9  N198UW 2013 Fixed wing multi engine    AIRBUS A321-211    2
## 10 N199UW 2013 Fixed wing multi engine    AIRBUS A321-211    2
## # ... with 3,312 more rows, and 3 more variables: seats <int>,
## #  speed <int>, engine <chr>
 

group_by

group_by kunt u bewerkingen uitvoeren op een dataframe door subsets zonder de subset te extraheren.

df <- planes %>% group_by(manufacturer, model)

Het geretourneerde dataframe wordt mogelijk niet gegroepeerd weergegeven. De class en attributes van het dataframe zullen echter bevestigen dat het zo is.

class(df)
## [1] "grouped_df" "tbl_df"   "tbl"    "data.frame"
 
attributes(df)$vars
## [[1]]
## manufacturer
## 
## [[2]]
## model
 
head(attributes(df)$labels, n = 5L)
##  manufacturer  model
## 1  AGUSTA SPA  A109E
## 2    AIRBUS A319-112
## 3    AIRBUS A319-114
## 4    AIRBUS A319-115
## 5    AIRBUS A319-131
 

Als u groepselementen aan het dataframe wilt toevoegen zonder bestaande groepeerelementen te verwijderen, gebruikt add parameter add ingesteld op WAAR (standaard ingesteld op ONWAAR):

df <- df %>% group_by(type, year, add = TRUE)
class(df)
## [1] "grouped_df" "tbl_df"   "tbl"    "data.frame"
 
attributes(df)$vars
## [[1]]
## manufacturer
## 
## [[2]]
## model
## 
## [[3]]
## type
## 
## [[4]]
## year
 
head(attributes(df)$labels, n = 5L)
##  manufacturer  model          type year
## 1  AGUSTA SPA  A109E       Rotorcraft 2001
## 2    AIRBUS A319-112 Fixed wing multi engine 2002
## 3    AIRBUS A319-112 Fixed wing multi engine 2005
## 4    AIRBUS A319-112 Fixed wing multi engine 2006
## 5    AIRBUS A319-112 Fixed wing multi engine 2007
 

Als u groepering wilt verwijderen, gebruik dan ungroup .

df <- df %>% ungroup()
class(df)
## [1] "tbl_df"   "tbl"    "data.frame"
 
attributes(df)$vars
## NULL
 
attributes(df)$labels
## NULL
 

samenvatten

summarise wordt gebruikt om berekeningen uit te voeren op een gegevensset als geheel of per groep.

Het mean aantal seats per manufacturer ?

planes %>% 
 group_by(manufacturer) %>% 
 summarise(Mean = mean(seats))
## # A tibble: 35 × 2
##       manufacturer   Mean
##           <chr>  <dbl>
## 1       AGUSTA SPA  8.0000
## 2         AIRBUS 221.2024
## 3    AIRBUS INDUSTRIE 187.4025
## 4  AMERICAN AIRCRAFT INC  2.0000
## 5   AVIAT AIRCRAFT INC  2.0000
## 6 AVIONS MARCEL DASSAULT 12.0000
## 7      BARKER JACK L  2.0000
## 8          BEECH  9.5000
## 9          BELL  8.0000
## 10         BOEING 175.1877
## # ... with 25 more rows
 

summarise retourneert geen variabelen die niet expliciet zijn gegroepeerd of zijn opgenomen in samenvattingsfuncties. Als u nog een variabele wilt toevoegen, moet u deze als predikaat group_by aan group_by of summarise .

planes %>% 
 group_by(year, manufacturer) %>% 
 summarise(Mean = mean(seats))
## Source: local data frame [164 x 3]
## Groups: year [?]
## 
##   year manufacturer Mean
##  <int>    <chr> <dbl>
## 1  1956   DOUGLAS  102
## 2  1959    CESSNA   2
## 3  1959 DEHAVILLAND  16
## 4  1963    CESSNA   5
## 5  1965    BOEING  149
## 6  1967    BEECH   9
## 7  1968    PIPER   4
## 8  1972    BEECH  10
## 9  1973    CESSNA   6
## 10 1974 CANADAIR LTD   2
## # ... with 154 more rows
 

rename

rename een variabele:

planes %>% 
 rename(Mfr = manufacturer) %>% 
 names()
## [1] "tailnum" "year"  "type"  "Mfr"   "model"  "engines" "seats" 
## [8] "speed"  "engine"
 

Helper Functies

Helperfuncties worden gebruikt in combinatie met select om te retourneren variabelen te identificeren. Tenzij anders vermeld, deze functies verwachten een string als de eerste parameter match . Het passeren van een vector of een ander object zal een fout genereren.

library(dplyr)
library(nycflights13)

begint met

starts_with stelt ons in staat om variabelen te identificeren waarvan de naam begint met een string.

Retourneert alle variabelen die beginnen met de letter "e".

planes %>% select(starts_with("e"))
## # A tibble: 3,322 × 2
##  engines  engine
##   <int>   <chr>
## 1    2 Turbo-fan
## 2    2 Turbo-fan
## 3    2 Turbo-fan
## 4    2 Turbo-fan
## 5    2 Turbo-fan
## 6    2 Turbo-fan
## 7    2 Turbo-fan
## 8    2 Turbo-fan
## 9    2 Turbo-fan
## 10    2 Turbo-fan
## # ... with 3,312 more rows
 

Stel de parameter ignore.case op FALSE voor strikte behuizing.

planes %>% select(starts_with("E", ignore.case = FALSE))
## # A tibble: 3,322 × 0
 

eindigt met

Retourneer alle variabelen die eindigen op de letter "e".

planes %>% select(ends_with("e"))
## # A tibble: 3,322 × 2
##            type  engine
##           <chr>   <chr>
## 1 Fixed wing multi engine Turbo-fan
## 2 Fixed wing multi engine Turbo-fan
## 3 Fixed wing multi engine Turbo-fan
## 4 Fixed wing multi engine Turbo-fan
## 5 Fixed wing multi engine Turbo-fan
## 6 Fixed wing multi engine Turbo-fan
## 7 Fixed wing multi engine Turbo-fan
## 8 Fixed wing multi engine Turbo-fan
## 9 Fixed wing multi engine Turbo-fan
## 10 Fixed wing multi engine Turbo-fan
## # ... with 3,312 more rows
 

Stel de parameter ignore.case op FALSE voor strikte behuizing.

planes %>% select(ends_with("E", ignore.case = FALSE))
## # A tibble: 3,322 × 0
 

bevat

contains kun je alle variabelen vinden die een gegeven string bevatten.

planes %>% select(contains("ea"))
## # A tibble: 3,322 × 2
##   year seats
##  <int> <int>
## 1  2004  55
## 2  1998  182
## 3  1999  182
## 4  1999  182
## 5  2002  55
## 6  1999  182
## 7  1999  182
## 8  1999  182
## 9  1999  182
## 10 1999  182
## # ... with 3,312 more rows
 

Stel de parameter ignore.case op FALSE voor strikte behuizing.

planes %>% select(contains("EA", ignore.case = FALSE))
## # A tibble: 3,322 × 0
 

wedstrijden

matches is de enige helperfunctie die het gebruik van reguliere expressies mogelijk maakt.

Retourneer alle variabelen met een naam van minimaal zes alfakarakters:

planes %>% select(matches("[[:alpha:]]{6,}"))
## # A tibble: 3,322 × 4
##  tailnum   manufacturer engines  engine
##   <chr>      <chr>  <int>   <chr>
## 1  N10156     EMBRAER    2 Turbo-fan
## 2  N102UW AIRBUS INDUSTRIE    2 Turbo-fan
## 3  N103US AIRBUS INDUSTRIE    2 Turbo-fan
## 4  N104UW AIRBUS INDUSTRIE    2 Turbo-fan
## 5  N10575     EMBRAER    2 Turbo-fan
## 6  N105UW AIRBUS INDUSTRIE    2 Turbo-fan
## 7  N107US AIRBUS INDUSTRIE    2 Turbo-fan
## 8  N108UW AIRBUS INDUSTRIE    2 Turbo-fan
## 9  N109UW AIRBUS INDUSTRIE    2 Turbo-fan
## 10 N110UW AIRBUS INDUSTRIE    2 Turbo-fan
## # ... with 3,312 more rows
 

Stel de parameter ignore.case op FALSE voor strikte behuizing.

num_range

Voor dit voorbeeld zal ik een dummy-dataframe genereren met willekeurige waarden en opeenvolgende variabelenamen.

set.seed(1)
df <- data.frame(x1 = runif(10), 
         x2 = runif(10), 
         x3 = runif(10), 
         x4 = runif(10), 
         x5 = runif(10))

num_range kan worden gebruikt om een reeks num_range te selecteren met een consistent prefix .

Selecteer de variabelen 2: 4 uit df :

df %>% select(num_range('x', range = 2:4))
##      x2     x3    x4
## 1 0.2059746 0.93470523 0.4820801
## 2 0.1765568 0.21214252 0.5995658
## 3 0.6870228 0.65167377 0.4935413
## 4 0.3841037 0.12555510 0.1862176
## 5 0.7698414 0.26722067 0.8273733
## 6 0.4976992 0.38611409 0.6684667
## 7 0.7176185 0.01339033 0.7942399
## 8 0.9919061 0.38238796 0.1079436
## 9 0.3800352 0.86969085 0.7237109
## 10 0.7774452 0.34034900 0.4112744
 

een van de

one_of kan een vector nemen als de parameter match en geeft elke variabele terug.

planes %>% select(one_of(c("tailnum", "model")))
## # A tibble: 3,322 × 2
##  tailnum   model
##   <chr>   <chr>
## 1  N10156 EMB-145XR
## 2  N102UW A320-214
## 3  N103US A320-214
## 4  N104UW A320-214
## 5  N10575 EMB-145LR
## 6  N105UW A320-214
## 7  N107US A320-214
## 8  N108UW A320-214
## 9  N109UW A320-214
## 10 N110UW A320-214
## # ... with 3,312 more rows
 

alles

everything kan worden gebruikt om variabelen in het dataframe te verplaatsen.

Maak manufacturer de eerste variabele gevolgd door alle resterende variabelen.

planes %>% select(manufacturer, everything())
## # A tibble: 3,322 × 9
##    manufacturer tailnum year          type   model
##        <chr>  <chr> <int>          <chr>   <chr>
## 1      EMBRAER N10156 2004 Fixed wing multi engine EMB-145XR
## 2 AIRBUS INDUSTRIE N102UW 1998 Fixed wing multi engine A320-214
## 3 AIRBUS INDUSTRIE N103US 1999 Fixed wing multi engine A320-214
## 4 AIRBUS INDUSTRIE N104UW 1999 Fixed wing multi engine A320-214
## 5      EMBRAER N10575 2002 Fixed wing multi engine EMB-145LR
## 6 AIRBUS INDUSTRIE N105UW 1999 Fixed wing multi engine A320-214
## 7 AIRBUS INDUSTRIE N107US 1999 Fixed wing multi engine A320-214
## 8 AIRBUS INDUSTRIE N108UW 1999 Fixed wing multi engine A320-214
## 9 AIRBUS INDUSTRIE N109UW 1999 Fixed wing multi engine A320-214
## 10 AIRBUS INDUSTRIE N110UW 1999 Fixed wing multi engine A320-214
## # ... with 3,312 more rows, and 4 more variables: engines <int>,
## #  seats <int>, speed <int>, engine <chr>
 

Andere helpers

Hoewel de : en - operatoren geen deel uitmaken van het dplyr pakket, kunnen we ze toch gebruiken om te bepalen variabelen te identificeren.

:

Definieer een inclusief bereik van variabelen die u wilt retourneren.

Retourneer elke variabele van year tot manufacturer :

planes %>% select(year:manufacturer)
## # A tibble: 3,322 × 3
##   year          type   manufacturer
##  <int>          <chr>      <chr>
## 1  2004 Fixed wing multi engine     EMBRAER
## 2  1998 Fixed wing multi engine AIRBUS INDUSTRIE
## 3  1999 Fixed wing multi engine AIRBUS INDUSTRIE
## 4  1999 Fixed wing multi engine AIRBUS INDUSTRIE
## 5  2002 Fixed wing multi engine     EMBRAER
## 6  1999 Fixed wing multi engine AIRBUS INDUSTRIE
## 7  1999 Fixed wing multi engine AIRBUS INDUSTRIE
## 8  1999 Fixed wing multi engine AIRBUS INDUSTRIE
## 9  1999 Fixed wing multi engine AIRBUS INDUSTRIE
## 10 1999 Fixed wing multi engine AIRBUS INDUSTRIE
## # ... with 3,312 more rows
 

Retourneer meerdere reeksen variabelen:

planes %>% select(c(year:manufacturer, seats:engine))
## # A tibble: 3,322 × 6
##   year          type   manufacturer seats speed  engine
##  <int>          <chr>      <chr> <int> <int>   <chr>
## 1  2004 Fixed wing multi engine     EMBRAER  55  NA Turbo-fan
## 2  1998 Fixed wing multi engine AIRBUS INDUSTRIE  182  NA Turbo-fan
## 3  1999 Fixed wing multi engine AIRBUS INDUSTRIE  182  NA Turbo-fan
## 4  1999 Fixed wing multi engine AIRBUS INDUSTRIE  182  NA Turbo-fan
## 5  2002 Fixed wing multi engine     EMBRAER  55  NA Turbo-fan
## 6  1999 Fixed wing multi engine AIRBUS INDUSTRIE  182  NA Turbo-fan
## 7  1999 Fixed wing multi engine AIRBUS INDUSTRIE  182  NA Turbo-fan
## 8  1999 Fixed wing multi engine AIRBUS INDUSTRIE  182  NA Turbo-fan
## 9  1999 Fixed wing multi engine AIRBUS INDUSTRIE  182  NA Turbo-fan
## 10 1999 Fixed wing multi engine AIRBUS INDUSTRIE  182  NA Turbo-fan
## # ... with 3,312 more rows
 

-

De operator - verwijdert een variabele uit een resultatenset.

Retourneer alle variabelen met uitzondering van type :

planes %>% select(-type)
## # A tibble: 3,322 × 8
##  tailnum year   manufacturer   model engines seats speed  engine
##   <chr> <int>      <chr>   <chr>  <int> <int> <int>   <chr>
## 1  N10156 2004     EMBRAER EMB-145XR    2  55  NA Turbo-fan
## 2  N102UW 1998 AIRBUS INDUSTRIE A320-214    2  182  NA Turbo-fan
## 3  N103US 1999 AIRBUS INDUSTRIE A320-214    2  182  NA Turbo-fan
## 4  N104UW 1999 AIRBUS INDUSTRIE A320-214    2  182  NA Turbo-fan
## 5  N10575 2002     EMBRAER EMB-145LR    2  55  NA Turbo-fan
## 6  N105UW 1999 AIRBUS INDUSTRIE A320-214    2  182  NA Turbo-fan
## 7  N107US 1999 AIRBUS INDUSTRIE A320-214    2  182  NA Turbo-fan
## 8  N108UW 1999 AIRBUS INDUSTRIE A320-214    2  182  NA Turbo-fan
## 9  N109UW 1999 AIRBUS INDUSTRIE A320-214    2  182  NA Turbo-fan
## 10 N110UW 1999 AIRBUS INDUSTRIE A320-214    2  182  NA Turbo-fan
## # ... with 3,312 more rows
 

U kunt ook een vector met variabelenamen doorgeven die u wilt uitsluiten van uw resultatenset.

planes %>% select(-c(type, engines:engine))
## # A tibble: 3,322 × 4
##  tailnum year   manufacturer   model
##   <chr> <int>      <chr>   <chr>
## 1  N10156 2004     EMBRAER EMB-145XR
## 2  N102UW 1998 AIRBUS INDUSTRIE A320-214
## 3  N103US 1999 AIRBUS INDUSTRIE A320-214
## 4  N104UW 1999 AIRBUS INDUSTRIE A320-214
## 5  N10575 2002     EMBRAER EMB-145LR
## 6  N105UW 1999 AIRBUS INDUSTRIE A320-214
## 7  N107US 1999 AIRBUS INDUSTRIE A320-214
## 8  N108UW 1999 AIRBUS INDUSTRIE A320-214
## 9  N109UW 1999 AIRBUS INDUSTRIE A320-214
## 10 N110UW 1999 AIRBUS INDUSTRIE A320-214
## # ... with 3,312 more rows
 

Elke combinatie van helperfuncties

Selecteer alle variabelen tussen type en speed (inclusief) en sluit de manufacturer .

planes %>% select(type:speed, -manufacturer)
## # A tibble: 3,322 × 5
##            type   model engines seats speed
##           <chr>   <chr>  <int> <int> <int>
## 1 Fixed wing multi engine EMB-145XR    2  55  NA
## 2 Fixed wing multi engine A320-214    2  182  NA
## 3 Fixed wing multi engine A320-214    2  182  NA
## 4 Fixed wing multi engine A320-214    2  182  NA
## 5 Fixed wing multi engine EMB-145LR    2  55  NA
## 6 Fixed wing multi engine A320-214    2  182  NA
## 7 Fixed wing multi engine A320-214    2  182  NA
## 8 Fixed wing multi engine A320-214    2  182  NA
## 9 Fixed wing multi engine A320-214    2  182  NA
## 10 Fixed wing multi engine A320-214    2  182  NA
## # ... with 3,312 more rows
 

Wijzig de vorige verklaring om manufacturer en model te sluiten.

planes %>% select(type:speed, -c(manufacturer, model))
## # A tibble: 3,322 × 4
##            type engines seats speed
##           <chr>  <int> <int> <int>
## 1 Fixed wing multi engine    2  55  NA
## 2 Fixed wing multi engine    2  182  NA
## 3 Fixed wing multi engine    2  182  NA
## 4 Fixed wing multi engine    2  182  NA
## 5 Fixed wing multi engine    2  55  NA
## 6 Fixed wing multi engine    2  182  NA
## 7 Fixed wing multi engine    2  182  NA
## 8 Fixed wing multi engine    2  182  NA
## 9 Fixed wing multi engine    2  182  NA
## 10 Fixed wing multi engine    2  182  NA
## # ... with 3,312 more rows
 

U kunt dezelfde helperfunctie meerdere keren gebruiken.

planes %>% select(starts_with("m"), starts_with("s"))
## # A tibble: 3,322 × 4
##    manufacturer   model seats speed
##        <chr>   <chr> <int> <int>
## 1      EMBRAER EMB-145XR  55  NA
## 2 AIRBUS INDUSTRIE A320-214  182  NA
## 3 AIRBUS INDUSTRIE A320-214  182  NA
## 4 AIRBUS INDUSTRIE A320-214  182  NA
## 5      EMBRAER EMB-145LR  55  NA
## 6 AIRBUS INDUSTRIE A320-214  182  NA
## 7 AIRBUS INDUSTRIE A320-214  182  NA
## 8 AIRBUS INDUSTRIE A320-214  182  NA
## 9 AIRBUS INDUSTRIE A320-214  182  NA
## 10 AIRBUS INDUSTRIE A320-214  182  NA
## # ... with 3,312 more rows
 

U kunt meerdere helperfuncties samen gebruiken:

planes %>% select(starts_with("m"), ends_with("l"))
## # A tibble: 3,322 × 2
##    manufacturer   model
##        <chr>   <chr>
## 1      EMBRAER EMB-145XR
## 2 AIRBUS INDUSTRIE A320-214
## 3 AIRBUS INDUSTRIE A320-214
## 4 AIRBUS INDUSTRIE A320-214
## 5      EMBRAER EMB-145LR
## 6 AIRBUS INDUSTRIE A320-214
## 7 AIRBUS INDUSTRIE A320-214
## 8 AIRBUS INDUSTRIE A320-214
## 9 AIRBUS INDUSTRIE A320-214
## 10 AIRBUS INDUSTRIE A320-214
## # ... with 3,312 more rows
 

Installatie of instellingen

Om dplyr te installeren dplyr eenvoudig in de R-console.

install.packages("dplyr") 
 

En typ vervolgens om dplyr te laden

library("dplyr")
 

Het is ook mogelijk om de nieuwste ontwikkelingsversie van Github te installeren met:

if (packageVersion("devtools") < 1.6) {
 install.packages("devtools")
}
devtools::install_github("hadley/lazyeval")
devtools::install_github("hadley/dplyr")
 

Mogelijk wilt u de datapakketten installeren die in de meeste voorbeelden worden gebruikt: install.packages(c("nycflights13", "Lahman")) .