# Les jointures de tables partie_1

Lorsque nous voulons avoir une vue d'ensemble des informations contenues dans plusieurs tables, nous ferons alors **joindre** ces tables afin d'assembler toute l'information dans une table ou une vue (_view_).

<img src="http://4.bp.blogspot.com/-_HsHikmChBI/VmQGJjLKgyI/AAAAAAAAEPw/JaLnV0bsbEo/s1600/sql%2Bjoins%2Bguide%2Band%2Bsyntax.jpg" alt="les jointures sql" height="600" width="600">

Afin de mieux comprendre la jointure de table, créons deux tables `A` et `B`.

In [10]:
proc sql;
    create table sql.A 
        (X num,
        Y num);
    insert into sql.A
        values(1,2)
        values(2,3);
quit;

Aperçu de la table `A`

In [11]:
proc sql;
select *
    from sql.A;
quit;

X,Y
1,2
2,3


In [5]:
proc sql;
    create table sql.B 
        (X num,
        Y num);
    insert into sql.B
        values(2,5)
        values(3,6)
        values(4,9);
        select *
    from sql.B;
quit;

X,Y
2,5
3,6
4,9


Aperçu de la table `B`

In [6]:
proc sql;
select *
    from sql.B;
quit;

X,Y
2,5
3,6
4,9


## Produit cartésien

La manière la plus simple de joindre deux tables et de relier chaque ligne de la table A avec les lignes de la table B avec la clause `from sql.A, sql.B`. Ceci donne un produit cartésien tel qu'illustré ci-dessous.

In [9]:
proc sql;
   title 'produit cartésien de la table A et de la table B';
   select *
      from sql.A, sql.B;
quit;

X,Y,X.1,Y.1
1,2,2,5
1,2,3,6
1,2,4,9
2,3,2,5
2,3,3,6
2,3,4,9


## `Inner join` avec `Where`

Lorsque nous voulons le sous-ensemble de lignes de la première table qui correspond aux lignes de la deuxième table, nous appliquons alors un `inner join` où (jointure interne). Nous pouvons spécifier les colonnes que nous souhaitons comparer pour les valeurs correspondantes dans une clause WHERE.

In [17]:
proc sql;
    title 'Inner Join';
    select * from sql.A, sql.B
      where A.x=B.x;

X,Y,X.1,Y.1
2,3,2,5


## Utilisation d'alias de table

Un alias de table est un nom temporaire et alternatif pour une table. Nous spécifions les alias de table dans la clause `FROM`. Les alias de table sont utilisés dans les jointures pour qualifier les noms de colonnes et peuvent rendre une requête plus facile à lire en abréviation des noms de table.

Soit la table `oilprod` qui provient du livre de référence [Ronald P. Cody.](https://books.google.ca/books/about/Learning_SAS_by_Example.html?id=S49APgAACAAJ&redir_esc=y)

In [9]:
proc sql outobs=5;
    select * from libSql.donnes_demo
quit;

name,province,company,langue,date_naissance,agee,age_permis,numeropol
Shane Robinson,Nova Scotia,May Ltd,fr,1944-10-20,72,24,1
Courtney Nguyen,Saskatchewan,"Foley, Moore and Mitchell",en,1985-12-09,31,24,5
Lori Washington,Yukon Territory,Robinson-Reyes,fr,1970-01-27,47,28,13
Sarah Castillo,Alberta,"Wood, Brady and English",fr,2000-08-23,16,16,16
Jeffrey Garcia,Nunavut,Berger-Thompson,en,1969-10-25,47,20,22


In [15]:
proc sql outobs=6;
    title ' apperçu de la table oilprod';
    select * from sql.oilprod 
quit;

Country,BarrelsPerDay
Algeria,1400000
Canada,2500000
China,3000000
Egypt,900000
Indonesia,1500000
Iran,4000000


Soit la table `oilrsrvs`

In [16]:
proc sql outobs=6;
    title ' apperçu de la table oilrsrvs';
    select * from sql.oilrsrvs 
quit;

Country,Barrels
Algeria,9200000000
Canada,7000000000
China,25000000000
Egypt,4000000000
Gabon,1000000000
Indonesia,5000000000


On voudrait maintenant avoir un aperçu des deux tables dans une seule table (ou en créer une toute nouvelle avec une jointure). 

Nous donnons un alias `o` à la table `oilprod `. Nous écrivons alors `sql.oilprod` **`as`** `o`

Lorsque nous écrivons la clause `where o.country = r.country;`, il devient plus facile de comprendre que nous voulons extraire les données où valeurs de la colonne `country` de la table `oilprod` alias `o` sont égaux aux valeurs de la colonne `country` de la table `oilrsrvs` alias `r`

In [19]:
proc sql outobs=6;
   title 'Production et réserves de pétrole par pays';
   select * from sql.oilprod as o, sql.oilrsrvs as r   
      where o.country = r.country;
quit;

Country,BarrelsPerDay,Country.1,Barrels
Algeria,1400000,Algeria,9200000000
Canada,2500000,Canada,7000000000
China,3000000,China,25000000000
Egypt,900000,Egypt,4000000000
Indonesia,1500000,Indonesia,5000000000
Iran,4000000,Iran,90000000000


## Affichage
Dans l'exemple précédent, il s'affiche deux colonnes `Country`, nous pouvons spécifier ce qui s'affiche. Nous pouvons préciser quelles colonnes afficher et dans quel format ou titre.

Dans l'exemple ci-dessous, nous voulons seulement trois colonnes: 
1. p.country affiché avec sous le label pays
2. p.barrelsperday affiché avec sous le label Production
3. r.barrels affiché avec sous le label 'Réserves'

In [23]:
proc sql outobs=6;
   title 'La production et les réserves du pétrole par pays';
   select p.country 'Pays', p.barrelsperday 'Production', r.barrels 'Réserves' /* ici nous affichons seulement la co*/
      from sql.oilprod p, sql.oilrsrvs r
          where p.country = r.country
      order by barrelsperday desc;
quit; 
title;

Pays,Production,Réserves
Saudi Arabia,9000000,260000000000
United States of America,8000000,30000000000
Iran,4000000,90000000000
Norway,3500000,11000000000
Mexico,3400000,50000000000
China,3000000,25000000000


## `Inner join` avec `On`

Les mots-clés INNER JOIN peuvent être utilisés pour rejoindre des tables. La clause ON remplace la clause WHERE pour spécifier les colonnes à joindre. PROC SQL fournit ces mots-clés principalement pour la compatibilité avec les autres jointures (OUTER, DROITE et GAUCHE JOIN). L'utilisation de INNER JOIN avec une clause ON fournit la même fonctionnalité que la liste des tableaux dans la clause FROM et la spécification des colonnes de jointure avec une clause WHERE.

In [24]:
proc sql outobs=6;
   select p.country 'Pays', barrelsperday 'Production', barrels 'Réserves'
      from sql.oilprod p inner join sql.oilrsrvs r
           on p.country = r.country
   order by barrelsperday desc;
quit;

Pays,Production,Réserves
Saudi Arabia,9000000,260000000000
United States of America,8000000,30000000000
Iran,4000000,90000000000
Norway,3500000,11000000000
Mexico,3400000,50000000000
China,3000000,25000000000


## Création des tables;

Comme nous venons de le faire dans les exemples précédents, nous pouvons créer une table avec `CREATE TABLE`. Nous nous pouvons spécifier le nom de la colonne, le type, le nombre maximal de caractères à y insérer, le format et le l'étiquette (_label_)

In [25]:
proc sql;
    create table sql.l_data 
        (Key char(12), Veggies char(12));
    insert into sql.l_data
        values("Mon","Broccoli")
        values("Tue","Celery")
        values("Thu","Lettuce")
        values("Fri","Spinach");
    select *
    from sql.l_data;
quit;

Key,Veggies
Mon,Broccoli
Tue,Celery
Thu,Lettuce
Fri,Spinach


Regardez bien votre répertoire de librairies !, vous allez trouver un fichier sous le nom `l_data.sas7bdat`

La colonne `Key` peut avoir le _label_ qu'on voudrait.

In [26]:
proc sql;
    create table sql.l_data2 
        (Key char(12) label='étiquette de clonne détaillé', Veggies char(12));
    insert into sql.l_data2
        values("Mon","Broccoli")
        values("Tue","Celery")
        values("Thu","Lettuce")
        values("Fri","Spinach");
    select *
    from sql.l_data2;
quit;

étiquette de clonne détaillé,Veggies
Mon,Broccoli
Tue,Celery
Thu,Lettuce
Fri,Spinach


Toutefois, remarquez que ce n'est qu'un _lable_. le nom de la première colonne de la table l_data2 reste toujours `Key`. Donc si nous voudrions faire des jointures avec d'autres tables, il faut faire attention de bien spécifier le nom de la colonne et nom le _label_

voici la preuve:

In [28]:
proc sql;
    select Key  
    from sql.l_data2;
quit;

étiquette de clonne détaillé
Mon
Tue
Thu
Fri


Un autre exemple de création de la table `r_data` que nous utiliserons plus tard.

In [67]:
proc sql;
    create table sql.r_data 
        (Key char(12), Fruits char(12));
    insert into sql.r_data
        values("Mon","Apples")
        values("Wed","Dates")
        values("Thu","Cherries")
        values("Sat","Bananas");
    select *
    from sql.r_data;
quit;

Key,Fruits
Mon,Apples
Wed,Dates
Thu,Cherries
Sat,Bananas


# Modification des tables

## Ajouter des nouvelles observations

###  avec `SET`

Des fois, il est très commode de créer une copie vide d'une table que nous avons déjà afin de la modifier à sa guise ou pour d'autres besoins particuliers.

Créons une table semblable à la table `sql.countries`. Mais d'abord, regardons son contenu.

In [37]:
proc sql outobs=5;
     select *
    from sql.countries;
quit;

Name,Capital,Population,Area,Continent,UNDate
Afghanistan,Kabul,17070323,251825,Asia,1946
Albania,Tirane,3407400,11100,Europe,1955
Algeria,Algiers,28171132,919595,Africa,1962
Andorra,Andorra la Vella,64634,200,Europe,1993
Angola,Luanda,9901050,481300,Africa,1976


Nous créons une table avec la clause `create table`

In [40]:
proc sql outobs=5;
   create table sql.copie_countries
      like sql.countries;
quit;

Regardons ce que cette table contient;

In [41]:
proc sql;
    select Name, Population from sql.copie_countries;
quit;

Évidemment, elle est vide, car nous avons utilisé la clause `like` à la ligne 4 qui veut seulement dire de prendre le format


## Inserer des nouvelles lignes avec la clause `Select`




Maintenant supposons que nous voulons insérer dans notre nouvelle table `copie_countries` les données des pays qui ont une population plus grande ou égale à 130000000 provenant de la table `countries`

In [45]:
proc sql ;
   insert into sql.copie_countries
   select * from sql.countries
      where population ge 130000000;
quit;      

Affichons le résultat;

In [47]:
proc sql;
    select * from sql.copie_countries;
quit;      

Name,Capital,Population,Area,Continent,UNDate
Brazil,Brasilia,160310000.0,3286500,South America,1945
China,Beijing,1202200000.0,3696100,Asia,1945
India,New Delhi,929010000.0,1222600,Asia,1945
Indonesia,Jakarta,202390000.0,741100,Asia,1950
Russia,Moscow,151090000.0,6592800,Europe,1945
United States,Washington,263290000.0,3787318,North America,1945
Brazil,Brasilia,160310000.0,3286500,South America,1945
China,Beijing,1202200000.0,3696100,Asia,1945
India,New Delhi,929010000.0,1222600,Asia,1945
Indonesia,Jakarta,202390000.0,741100,Asia,1950


Affichons seulement le nom du pays, sa capitale et la population sous le format souhaité.

In [52]:
proc sql;
   select name format=$20., 
          capital format=$15.,
          population format=comma15.0
      from sql.copie_countries;
quit;

Name,Capital,Population
Brazil,Brasilia,160310357
China,Beijing,1202215077
India,New Delhi,929009120
Indonesia,Jakarta,202393859
Russia,Moscow,151089979
United States,Washington,263294808
Brazil,Brasilia,160310357
China,Beijing,1202215077
India,New Delhi,929009120
Indonesia,Jakarta,202393859


___

## Insérer des nouvelles lignes avec la clause `SET`

Maintenant, regardons comment insérer de nouvelles observations ou de nouvelles lignes entrées manuellement. On peut faire ceci avec la clause `Set`.

In [48]:
proc sql;
   insert into sql.copie_countries
      set name='Bangladesh',
          capital='Dhaka',
          population=126391060
      set name='Japan',
          capital='Tokyo',
          population=126352003;
quit;          

Regardons ce que ça donne:

In [50]:
proc sql;
   select name format=$20., 
          capital format=$15.,
          population format=comma15.0
      from sql.copie_countries;
quit;

Name,Capital,Population
Brazil,Brasilia,160310357
China,Beijing,1202215077
India,New Delhi,929009120
Indonesia,Jakarta,202393859
Russia,Moscow,151089979
United States,Washington,263294808
Brazil,Brasilia,160310357
China,Beijing,1202215077
India,New Delhi,929009120
Indonesia,Jakarta,202393859


Nous remarquons que les deux nouvelles observations `Bangladesh` et `Japan` sont maintenant dans notre table `copie_countries` 
___

# Aficchage avec SELECT from (select )

reprenons l'exemple où nous avons affiché la production et les réserves du pétrole par pays via une jointure de deux tables (oilprod et oilrsrvs)

In [62]:
proc sql ;
   select p.country 'Pays', barrelsperday 'Production', barrels 'Réserves'
      from sql.oilprod p, sql.oilrsrvs r
      where p.country = r.country
      order by barrelsperday desc;
quit;      

Pays,Production,Réserves
Saudi Arabia,9000000,260000000000
United States of America,8000000,30000000000
Iran,4000000,90000000000
Norway,3500000,11000000000
Mexico,3400000,50000000000
China,3000000,25000000000
United Kingdom,3000000,4500000000
Venezuela,3000000,65000000000
Canada,2500000,7000000000
Kuwait,2500000,95000000000


Supposons qu'à partir du tableau précédent, nous voulons avoir seulement les pays avec une production de 3000000 barils par jour.

In [59]:
proc sql ;
   select * from
    /***************************************************/
    /* Ici on joint les deux tables*/
    (select p.country 'Pays', p.barrelsperday 'Production', r.barrels 'Réserves'
      from sql.oilprod p, sql.oilrsrvs r
      where p.country = r.country
    ) as table_resultante 
    /***************************************************/    
    where table_resultante.BarrelsPerDay >= 3000000   
      ;
quit;      

Pays,Production,Réserves
China,3000000,25000000000
Iran,4000000,90000000000
Mexico,3400000,50000000000
Norway,3500000,11000000000
Saudi Arabia,9000000,260000000000
United Kingdom,3000000,4500000000
United States of America,8000000,30000000000
Venezuela,3000000,65000000000


Remarquez qu'à la dernière ligne, nous avons écrit `where table_resultante.BarrelsPerDay >= 3000000`, et non `table_resultante.Production`. Nous avons défini 'Production' comme _label_ et non comme nom de colonne.

In [58]:
proc sql ;
   select * from
    /***************************************************/
    /* Ici on joint les deux tables*/
    (select p.country as Pays, p.barrelsperday as Production, r.barrels as Reserve
      from sql.oilprod p, sql.oilrsrvs r
      where p.country = r.country
    ) as table_resultante 
    /***************************************************/    
    where table_resultante.Production >= 3000000
    /*même si on ne spécifie pas l'alis table_resultante.'*/
    /*where Production >= 3000000*/
      ;
quit;      

Pays,Production,Reserve
China,3000000,25000000000
Iran,4000000,90000000000
Mexico,3400000,50000000000
Norway,3500000,11000000000
Saudi Arabia,9000000,260000000000
United Kingdom,3000000,4500000000
United States of America,8000000,30000000000
Venezuela,3000000,65000000000


In [60]:
proc sql ;
   select * from
    /***************************************************/
    /* Ici on joint les deux tables*/
    (select p.country as Pays, p.barrelsperday as Production, r.barrels as Reserve
      from sql.oilprod p, sql.oilrsrvs r
      where p.country = r.country
    ) as table_resultante 
    /***************************************************/    
    /*même si on ne spécifie pas l'alis table_resultante.'*/
    where Production >= 3000000
      ;
quit;      

Pays,Production,Reserve
China,3000000,25000000000
Iran,4000000,90000000000
Mexico,3400000,50000000000
Norway,3500000,11000000000
Saudi Arabia,9000000,260000000000
United Kingdom,3000000,4500000000
United States of America,8000000,30000000000
Venezuela,3000000,65000000000


Un autre exemple où l’on voudrait extraire les noms de pays et leurs populations qui ont une population plus grande que celle de la Belgique:

Si on savait exactement quelle est la population de la Belgique, on aurait écrit ceci;

In [114]:
proc sql;
   title 'U.S. States with Population Greater than Belgium';
   select Name 'State', population format=comma10. 
      from sql.unitedstates 
      where population gt 10162614;
quit;

State,Population
California,31518948
Florida,13814408
Illinois,11813091
New York,18377334
Ohio,11200790
Pennsylvania,12167566
Texas,18209994


Supposons que nous ignorons ce nombre, nous avons qu'à extraire ce chiffre avec un `Select`

```
(select population from sql.countries
                      where name = "Belgium");
```
Ensuite, nous appliquons notre condition `where` sur ce résultat

```
where population gt
                  (select population from sql.countries
                      where name = "Belgium");
```

In [66]:
proc sql;
    title 'les pays plus populeux que la Belgique';
    select Name 'State' , population format=comma10. 
      from sql.unitedstates 
      where population gt
                  (select population from sql.countries
                      where name = "Belgium");
quit;
titel;

State,Population
California,31518948
Florida,13814408
Illinois,11813091
New York,18377334
Ohio,11200790
Pennsylvania,12167566
Texas,18209994


In [None]:
proc sql;
    title 'les pays plus populeux que la Belgique';
    select Name 'State' , population format=comma10. 
      from sql.unitedstates 
      where population gt
                  (select population from sql.countries
                      where name = "Belgium");
quit;
titel;


%macro genExpoLambda(population, lambda,graine,NomDataSet);
proc sql;
    title 'les pays plus populeux que la Belgique';
    select Name 'State' , population format=comma10. 
      from sql.unitedstates 
      where &population gt
                  (select population from sql.countries
                      where name = "Belgium");
quit;
titel;
%mend genExpoLambda;

Cette façon de faire est très utile lorsque nos données varient souvent dans le temps et que nous ne savons jamais la valeur exacte de la condition. Par exemple une banque qui veut savoir les comptes des commerçants ayant  plus que 100k$ dans le compte à un moment donné.
___
