# Manipulation avec dplyr

## le package dplyr
Dans ce cours, afin de manipuler les données, nous allons utiliser la librairie `dplyr` qui assure une manipulation plus intuitive des données. Toutefois, vous pouvez utiliser tout autre libraire ou même les fonctions de base de `R`.

In [11]:
# install.packages("dplyr")

D'abord, téléchargeons un petit _df_ afin d'illustrer la théorie. Dans ce _df_, nous avons les données d'un cycliste qui est sorti un jour d'été faire un petit tour dans l'île de Montréal. Chaque observation, représente le nombre de km parcourus d'un parcours (_lap_), le temps que ça a pris, la vitesse moyenne en `km/h` de chaque _lap_, la puissance moyenne en `watts` et finalement, les battements de cours par minutes.


In [9]:
df<-read.csv("https://raw.githubusercontent.com/nmeraihi/data/master/exemple_2.txt")
df

km,temps,vitesseMoyenne,puissanceMoyenne,bpm
1.24,4:01,19.1,160,134
4.84,9:42,30.2,133,146
1.02,1:57,30.8,141,139
17.61,36:11,29.2,125,144
9.27,19:10,29.0,121,143


Il possible d'ordonner les données avec la fonction de base de `R` appelé `order`. Par exemple, on voudrait ordonner notre _df_ en ordre croissant sur la variable `puissanceMoyenne`

In [10]:
df[order(df$puissanceMoyenne),]

Unnamed: 0,km,temps,vitesseMoyenne,puissanceMoyenne,bpm
5,9.27,19:10,29.0,121,143
4,17.61,36:11,29.2,125,144
2,4.84,9:42,30.2,133,146
3,1.02,1:57,30.8,141,139
1,1.24,4:01,19.1,160,134


Par défaut, l'ordre est est croissant, on peut le rendre décroissant en ajoutant l'argument `decreasing = T`

In [11]:
df[order(df$vitesseMoyenne, decreasing = T),]

Unnamed: 0,km,temps,vitesseMoyenne,puissanceMoyenne,bpm
3,1.02,1:57,30.8,141,139
2,4.84,9:42,30.2,133,146
4,17.61,36:11,29.2,125,144
5,9.27,19:10,29.0,121,143
1,1.24,4:01,19.1,160,134


Toutefois, lorsque nous avons une base de données comportant un nombre plus important de variables, la syntaxe peut devenir plus compliquée et lourde d’écriture. Regardons un autre exemple:

In [3]:
df_ass <-read.csv("https://raw.githubusercontent.com/nmeraihi/data/master/assurance.csv", header = T)
head(df_ass)

numeropol,debut_pol,fin_pol,freq_paiement,⋯,cout6,cout7,nbsin,equipe
4,11-4-1996,10-4-1997,12,⋯,,,0,3
4,11-4-1997,10-4-1998,12,⋯,,,0,3
4,11-4-2002,17-7-2002,12,⋯,,,0,3
⋮,⋮,⋮,⋮,⋱,⋮,⋮,⋮,⋮
4,11-4-2003,10-4-2004,12,⋯,,,0,3
12,3-5-1995,2-5-1996,1,⋯,,,0,3


Affichons notre base de données en ordre croissant sur le nombre de sinistres et le numéro de police;

In [15]:
df_ass[order(df_ass$nbsin, df_ass$numeropol, decreasing = T),]

Unnamed: 0,numeropol,debut_pol,fin_pol,freq_paiement,⋯,cout6,cout7,nbsin,equipe
988,2006,13-6-1996,12-6-1997,12,⋯,,,2,3
902,1820,1-10-1996,30-9-1997,1,⋯,,,2,3
861,1733,10-5-1998,9-5-1999,1,⋯,,,2,3
⋮,⋮,⋮,⋮,⋮,⋱,⋮,⋮,⋮,⋮
4,4,18-7-2002,10-4-2003,12,⋯,,,0,3
5,4,11-4-2003,10-4-2004,12,⋯,,,0,3


Dans le tableau affiché ci-haut, on voit bien que cette fonction ne nous permet pas d'appliquer un ordre croissant ou décroissant sur une variable précise

## arrange

Maintenant, utilisons le paquet (_package_) `dplyr` qui nous permet de plus facilement d'appliquer un ordre quelconque sur une variable précise indépendamment des autres variables;

In [4]:
library(dplyr, warn.conflicts = FALSE)

In [17]:
arrange(df_ass, desc(nbsin), numeropol)

numeropol,debut_pol,fin_pol,freq_paiement,⋯,cout6,cout7,nbsin,equipe
71,15-2-1996,14-2-1997,1,⋯,,,2,3
79,20-11-1997,21-6-1998,12,⋯,,,2,3
116,4-9-1998,11-6-1999,1,⋯,,,2,3
⋮,⋮,⋮,⋮,⋱,⋮,⋮,⋮,⋮
2036,14-3-2000,26-2-2001,12,⋯,,,0,3
2036,27-2-2001,13-3-2001,12,⋯,,,0,3


## select

Ce paquet nous permet aussi de sélectionner des variables d'intérêt. Par exemple, dans notre `df_ass`, on désire seulement sélectionner les variables `numeropol`, `type_territoire` et `nbsin`

In [5]:
select(df_ass, numeropol,type_territoire, nbsin)

numeropol,type_territoire,nbsin
4,Semi-urbain,0
4,Semi-urbain,0
4,Semi-urbain,0
⋮,⋮,⋮
2036,Semi-urbain,0
2036,Semi-urbain,1


## filter

Afin de filtrer des données sur des observations d'intérêt. On peut utiliser la fonction de base de **R** `which`. Par exemple dans les données `Cars93` du package `MASS`, on voudrait extraire les véhicules ayant 8 cylindres. On voudrait également afficher que les deux variables `'Horsepower'` et `'Passengers'`

In [19]:
library(MASS, warn.conflicts = F)

In [20]:
Cars93[which(Cars93$Cylinders==8), c('Horsepower' , 'Passengers')]

Unnamed: 0,Horsepower,Passengers
10,200,6
11,295,5
18,170,6
⋮,⋮,⋮
48,278,5
52,210,6


Toutefois, la fonction `filter` de la librairie `dyplr` est plus flexible lorsqu'il s'agit d'appliquer des filtres plus complexes. Essayons le même exemple avec cette fonction;

In [21]:
filter(Cars93, Cylinders==8)[c('Horsepower' , 'Passengers')]

Horsepower,Passengers
200,6
295,5
170,6
⋮,⋮
278,5
210,6


Si l'on cherche les médecins qui ont eu deux sinistres dans notre base de données `df_ass`;

In [22]:
filter(df_ass, nbsin==2, type_prof=="Médecin")

numeropol,debut_pol,fin_pol,freq_paiement,⋯,cout6,cout7,nbsin,equipe
71,15-2-1996,14-2-1997,1,⋯,,,2,3
140,15-4-1995,14-4-1996,12,⋯,,,2,3
1820,1-10-1996,30-9-1997,1,⋯,,,2,3


## mutate

Dans ce package, on trouve aussi la fonction `mutate` qui permet d'ajouter de nouvelles variables à notre df

In [23]:
mutate(df, arrondi=round(df$vitesseMoyenne,0))

km,temps,vitesseMoyenne,puissanceMoyenne,bpm,arrondi
1.24,4:01,19.1,160,134,19
4.84,9:42,30.2,133,146,30
1.02,1:57,30.8,141,139,31
17.61,36:11,29.2,125,144,29
9.27,19:10,29.0,121,143,29


Ajoutons maintenant trois nouvlles variables;

In [24]:
mutate(df, arrondi=round(df$vitesseMoyenne,0), segementStrava=paste("segment",1:5,sep = "_"), arrondi_2=arrondi/2)

km,temps,vitesseMoyenne,puissanceMoyenne,bpm,arrondi,segementStrava,arrondi_2
1.24,4:01,19.1,160,134,19,segment_1,9.5
4.84,9:42,30.2,133,146,30,segment_2,15.0
1.02,1:57,30.8,141,139,31,segment_3,15.5
17.61,36:11,29.2,125,144,29,segment_4,14.5
9.27,19:10,29.0,121,143,29,segment_5,14.5


## summarize

La fonction `summarize` est très similaire à la fonction `mutate`. Toutefois, contrairement à `mutate`, la fonction `summarize` ne travaille pas sur une copie du df, mais elle crée un tout nouveau df avec les nouvelles variables. 

In [25]:
summarise(df,TotalKmParcour=sum(km))

TotalKmParcour
33.98


In [26]:
summarise(df,TotalKmParcour=sum(km), vitesseMoyenne= mean(df$vitesseMoyenne), puissanceMoyenne=mean(df$puissanceMoyenne))

TotalKmParcour,vitesseMoyenne,puissanceMoyenne
33.98,27.66,136


On voit bien que l'écriture du code commence à être un peu plus compliquée lorsque nous avons plusieurs parenthèses dans notre fonction. Pour remédier à ce problème, nous verrons la notion de _piiping_;

## L'opérateur Pipe: %>%

Avant d'aller plus loin, introduisons l'opérateur de _pipe_:%>%. **dplyr** importe cet opérateur d'une autre librairie (`magrittr`). Cet opérateur vous permet de diriger la sortie d'une fonction vers l'entrée d'une autre fonction. Au lieu d'imbriquer des fonctions (lecture de l'intérieur vers l'extérieur), l'idée de _piping_ est de lire les fonctions de gauche à droite.

![piping data](http://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1510846626/Pipe-Mathematical_gczmab.png)

Crédit de l'image [Pipes in R Tutorial For Beginners](https://www.datacamp.com/community/tutorials/pipe-r-tutorial)

Lorsque nous avons écrit:

In [6]:
select(df_ass, numeropol, type_territoire, nbsin)

numeropol,type_territoire,nbsin
4,Semi-urbain,0
4,Semi-urbain,0
4,Semi-urbain,0
⋮,⋮,⋮
2036,Semi-urbain,0
2036,Semi-urbain,1


Si on lit ce que nous avons écrit précédemment de l'intérieur vert l'extérieur, en utilisant le _piping_, nous aurons ceci:

In [7]:
df_ass %>%
    select (numeropol,type_territoire, nbsin)

numeropol,type_territoire,nbsin
4,Semi-urbain,0
4,Semi-urbain,0
4,Semi-urbain,0
⋮,⋮,⋮
2036,Semi-urbain,0
2036,Semi-urbain,1


ou;

In [8]:
df_ass %>%
    select (numeropol,type_territoire, nbsin) %>%
    head

numeropol,type_territoire,nbsin
4,Semi-urbain,0
4,Semi-urbain,0
4,Semi-urbain,0
⋮,⋮,⋮
4,Semi-urbain,0
12,Semi-urbain,0


## group_by

Nous pouvons aussi grouper les données comme nous le faisions dans `SAS` avec les `PROC SQL`

In [11]:
df_ass$coutTot<-rowSums(df_ass[,c(19:25)], na.rm = T, dims = 1)

In [12]:
df_ass

numeropol,debut_pol,fin_pol,freq_paiement,⋯,cout7,nbsin,equipe,coutTot
4,11-4-1996,10-4-1997,12,⋯,,0,3,0
4,11-4-1997,10-4-1998,12,⋯,,0,3,0
4,11-4-2002,17-7-2002,12,⋯,,0,3,0
⋮,⋮,⋮,⋮,⋱,⋮,⋮,⋮,⋮
2036,27-2-2001,13-3-2001,12,⋯,,0,3,0.0
2036,14-3-2001,13-3-2002,12,⋯,,1,3,231051.8


In [13]:
summarise(df_ass,TotalNbSin=sum(nbsin), TotCout= sum((coutTot), na.rm = T))

TotalNbSin,TotCout
156,1078791


Cherchons par exemple nombre de sinistres totaux ainsi que leurs coûts par territoire. En utilisant la syntaxe du _piping_, ça devient plus facile d'inclure plus de sous-groupes;

In [14]:
df_ass %>% 
    group_by(type_territoire) %>%
    summarise(TotalNbSin=sum(nbsin), 
              TotCout= sum((coutTot), na.rm = T)
            )

type_territoire,TotalNbSin,TotCout
Rural,51,547105.01
Semi-urbain,80,471157.64
Urbain,25,60528.81


# Jointure des bases des données

Dans cette section, nous allons joindre deux ou plusieurs df. Mais d'abord importons deux df afin illustrer quelques exemples;

In [15]:
df_demo <-read.csv("https://raw.githubusercontent.com/nmeraihi/data/master/donnes_demo.csv", header = T)
df_demo

name,province,company,langue,date_naissance,agee,age_permis,numeropol
Shane Robinson,Nova Scotia,May Ltd,fr,1944-10-20,72,24,1
Courtney Nguyen,Saskatchewan,"Foley, Moore and Mitchell",en,1985-12-09,31,24,5
Lori Washington,Yukon Territory,Robinson-Reyes,fr,1970-01-27,47,28,13
⋮,⋮,⋮,⋮,⋮,⋮,⋮,⋮
Heidi Freeman,Northwest Territories,"Singh, Esparza and Santos",en,1951-06-07,65,18,84
Morgan Buchanan,Northwest Territories,Rollins Inc,fr,1971-07-31,45,31,91


In [16]:
df_auto <-read.csv("https://raw.githubusercontent.com/nmeraihi/data/master/cars_info.csv", header = T)
df_auto

numeropol,marque_voiture,couleur_voiture,presence_alarme,license_plate
1,Autres,Autre,0,DW 3168
5,RENAULT,Autre,0,926 1RL
13,RENAULT,Autre,1,SOV 828
⋮,⋮,⋮,⋮,⋮
84,HONDA,Autre,0,CBV 102
91,BMW,Autre,1,UOR-0725


Dans ces deux df, nous avons une colonne en commun `numeropol`

In [17]:
df_demo$numeropol

In [18]:
df_auto$numeropol

On peut voir l'index des lignes qui se trouvent dans les deux df 

In [19]:
match(df_demo$numeropol, df_auto$numeropol)

In [20]:
df_demo$numeropol[match(df_demo$numeropol, df_auto$numeropol)]

On peut aussi faire un test logique sur la présence des observations du df_demo dans df_auto;

In [21]:
df_demo$numeropol %in% df_auto$numeropol

ou le contraire maintenant

In [22]:
df_auto$numeropol %in% df_demo$numeropol 

Dans ce cas toutes les variables se trouvent dans les deux df

In [23]:
merge(df_demo,df_auto, by.x = "numeropol",  by.y = "numeropol") # x est le df_demo et y est le df df_auto

numeropol,name,province,company,⋯,marque_voiture,couleur_voiture,presence_alarme,license_plate
1,Shane Robinson,Nova Scotia,May Ltd,⋯,Autres,Autre,0,DW 3168
5,Courtney Nguyen,Saskatchewan,"Foley, Moore and Mitchell",⋯,RENAULT,Autre,0,926 1RL
13,Lori Washington,Yukon Territory,Robinson-Reyes,⋯,RENAULT,Autre,1,SOV 828
⋮,⋮,⋮,⋮,⋱,⋮,⋮,⋮,⋮
84,Heidi Freeman,Northwest Territories,"Singh, Esparza and Santos",⋯,HONDA,Autre,0,CBV 102
91,Morgan Buchanan,Northwest Territories,Rollins Inc,⋯,BMW,Autre,1,UOR-0725


Que serait-il arrivé si l’on n'avait pas spécifié les arguments `by.x = "numeropol",  by.y = "numeropol"`?

In [24]:
merge(df_demo,df_auto)

numeropol,name,province,company,⋯,marque_voiture,couleur_voiture,presence_alarme,license_plate
1,Shane Robinson,Nova Scotia,May Ltd,⋯,Autres,Autre,0,DW 3168
5,Courtney Nguyen,Saskatchewan,"Foley, Moore and Mitchell",⋯,RENAULT,Autre,0,926 1RL
13,Lori Washington,Yukon Territory,Robinson-Reyes,⋯,RENAULT,Autre,1,SOV 828
⋮,⋮,⋮,⋮,⋱,⋮,⋮,⋮,⋮
84,Heidi Freeman,Northwest Territories,"Singh, Esparza and Santos",⋯,HONDA,Autre,0,CBV 102
91,Morgan Buchanan,Northwest Territories,Rollins Inc,⋯,BMW,Autre,1,UOR-0725


Cela a bien fonctionné, car R a automatiquement trouvé les noms de colonnes communs au deux df;

Maintenant, changeons les noms de colonnes et voyons ce qui arrive

In [25]:
names(df_auto)[names(df_auto)=="numeropol"] <- "auto_numpol"

Bien évidemment, cela crée une jointure croisée comme on l'avait vu dans les cours de SAS

In [26]:
head(merge(df_demo,df_auto))

name,province,company,langue,⋯,marque_voiture,couleur_voiture,presence_alarme,license_plate
Shane Robinson,Nova Scotia,May Ltd,fr,⋯,Autres,Autre,0,DW 3168
Courtney Nguyen,Saskatchewan,"Foley, Moore and Mitchell",en,⋯,Autres,Autre,0,DW 3168
Lori Washington,Yukon Territory,Robinson-Reyes,fr,⋯,Autres,Autre,0,DW 3168
⋮,⋮,⋮,⋮,⋱,⋮,⋮,⋮,⋮
Jeffrey Garcia,Nunavut,Berger-Thompson,en,⋯,Autres,Autre,0,DW 3168
Colleen Coleman,Saskatchewan,Simmons-Smith,en,⋯,Autres,Autre,0,DW 3168


On vient bien que dans la dernière colonne `license_plate`, nous obtenons la même observation ce qui est clairement une erreur;

Corrigeons le problème;

In [27]:
head(merge(df_demo,df_auto, by.x = "numeropol",  by.y = "auto_numpol"))

numeropol,name,province,company,⋯,marque_voiture,couleur_voiture,presence_alarme,license_plate
1,Shane Robinson,Nova Scotia,May Ltd,⋯,Autres,Autre,0,DW 3168
5,Courtney Nguyen,Saskatchewan,"Foley, Moore and Mitchell",⋯,RENAULT,Autre,0,926 1RL
13,Lori Washington,Yukon Territory,Robinson-Reyes,⋯,RENAULT,Autre,1,SOV 828
⋮,⋮,⋮,⋮,⋱,⋮,⋮,⋮,⋮
22,Jeffrey Garcia,Nunavut,Berger-Thompson,⋯,VOLKSWAGEN,Autre,1,453 CFM
22,Jeffrey Garcia,Nunavut,Berger-Thompson,⋯,VOLKSWAGEN,Autre,0,FHH 537


 ## left_join

la fonction `left_join` prend toute l'information de gauche et l'information existante de la partie droite qui est basée sur le critère en commun

In [28]:
x<-data.frame(nom=c("Gabriel", "Adel", "NM", "Mathieu", "Amine", "Mohamed"), 
              bureaux=c("5518", "4538", "5518", "5517", "4538", "4540"))
x

nom,bureaux
Gabriel,5518
Adel,4538
NM,5518
⋮,⋮
Amine,4538
Mohamed,4540


In [29]:
y<-data.frame(nom=c("Gabriel", "Adel", "JP", "Mathieu", "Amine"), 
              diplome=c("M.Sc", "Ph.D", "Ph.D", "Ph.D", "Ph.D"))
y

nom,diplome
Gabriel,M.Sc
Adel,Ph.D
JP,Ph.D
Mathieu,Ph.D
Amine,Ph.D


In [30]:
left_join(x,y,by = "nom")

“Column `nom` joining factors with different levels, coercing to character vector”

nom,bureaux,diplome
Gabriel,5518,M.Sc
Adel,4538,Ph.D
NM,5518,
⋮,⋮,⋮
Amine,4538,Ph.D
Mohamed,4540,


## inner_join

Cette fonction permet de retourner **seulement** les éléments en commun des deux df

In [31]:
inner_join(x,y,by = "nom")

“Column `nom` joining factors with different levels, coercing to character vector”

nom,bureaux,diplome
Gabriel,5518,M.Sc
Adel,4538,Ph.D
Mathieu,5517,Ph.D
Amine,4538,Ph.D


## semi_join

Cette fonction retourne seulement les éléments du premier df qui se retrouve dans le deuxième df, sans nous retourner les éléments de ce dernier

In [None]:
semi_join(x,y,by = "nom")

## anti_join

Cette fonction le contraire de la précédente

In [None]:
anti_join(x,y,by = "nom")