Les jointures de tables partie_2

Contenu

Les jointures de tables partie_2#

Dans cette partie du cours, nous allons appliquer les procédures proc sql que nous avons apprises, sur une base de données relationnelle d’assurance automobile. Il faut noter que ces données proviennent d’une vraie bd d’assurance. Toutefois, le contenu a été modifié et plusieurs variables ont été supprimées à des fins de confidentialité. Nous avons gardé l’essentiel des données qui nous servent de matériel pédagogique pour les cours d’actuariat à l’UQAM.

Analysons d’abord l’architecture de cette base de données présentée ci-dessous:

Base de données d'assurance dans le cadre du cours ACT3035

On voit bien que nous avons essentiellement quatre tables avec lesquelles nous allons travailler;

Tout d’abord, la table donnes_demo dans laquelle nous trouvons les informations démographiques des assurés. Cette table contient une clé primaire (colonne « numeropol ») qui est le numéro de police de l’assuré. C’est avec cette colonne (attribut dans le langage sql) qui permet de relier les quatre tables entre elles.
Ensuite, nous avons la table police_assurance qui nous donne l’information sur chaque police d’assurance
La table pmt nous donne l’information sur les primes payées par les assurés, comme le montant, le mode de paiement …etc.
Enfin, la table cars_ifo nous donne l’information sur les véhicules au dossier de l’assuré.

Analysons l’aperçu sur chacune des tables;

libname bdSQL "data/bdsql";
title "Apperçu de la table donnes_demo";
proc sql outobs=5;
    select * from bdSQL.donnes_demo
quit;

SAS Output

Apperçu de la table donnes_demo


name	province	company	langue	date_naissance	agee	age_permis	numeropol
Shane Robinson	Nova Scotia	May Ltd	fr	1944-10-20	72	24	1
Courtney Nguyen	Saskatchewan	Foley, Moore and Mitchell	en	1985-12-09	31	24	5
Lori Washington	Yukon Territory	Robinson-Reyes	fr	1970-01-27	47	28	13
Sarah Castillo	Alberta	Wood, Brady and English	fr	2000-08-23	16	16	16
Jeffrey Garcia	Nunavut	Berger-Thompson	en	1969-10-25	47	20	22

title "Apperçu de la table police_assurance";
proc sql outobs=5;
    select * from bdSQL.police_assurance
quit;

SAS Output

Apperçu de la table police_assurance


numeropol	debut_pol	fin_pol	cout1	cout2	cout3	cout4	cout5	cout6	cout7	nbsin
1	1999-11-10	2000-10-16	.	.	.	.	.	.	.	0
1	2000-10-17	2000-11-09	.	.	.	.	.	.	.	0
1	2000-11-10	2001-11-09	243.85714286	.	.	.	.	.	.	1
5	1996-01-03	1996-03-27	.	.	.	.	.	.	.	0
5	1996-03-28	1997-01-02	.	.	.	.	.	.	.	0

title "Apperçu de la table pmt";
proc sql outobs=5;
    select * from bdSQL.pmt
quit;

SAS Output

Apperçu de la table pmt


numeropol	cout_prime	credit_card_number	credit_card_provider	credit_card_expire	freq_pmt
1	1060.28	4.4274761E15	Voyager	01APR23:00:00:00	12
5	1200.89	5.3033891E15	JCB 16 digit	01AUG26:00:00:00	1
13	940.54	3.5285692E15	Maestro	01AUG22:00:00:00	12
16	860.75	6.0115698E15	VISA 13 digit	01MAR23:00:00:00	1
22	790.17	5.2624946E15	Maestro	01AUG20:00:00:00	1

title "Apperçu de la table cars_info";
proc sql outobs=5;
    select * from bdSQL.cars_info
quit;

SAS Output

Apperçu de la table cars_info


numeropol	marque_voiture	couleur_voiture	presence_alarme	license_plate
1	Autres	Autre	0	DW 3168
5	RENAULT	Autre	0	926 1RL
13	RENAULT	Autre	1	SOV 828
16	HONDA	Autre	0	ENSK 514
22	VOLKSWAGEN	Autre	1	453 CFM

Maintenant que nous avons eu connaissance de notre base de données, on peut remarquer que la table police_assurance peut contenir plusieurs informations pour un même assuré, alors que les autres tables en contiennent qu’une seule ligne par assuré. En effet, les tables peuvent avoir différentes relations qu’on appelle:

On to one
On to many
many to many

Étudions plus en détail les deux premières

On To One#

Lorsque nous avons deux tables où il existe une seule observation pour un id donné, nous avons alors une relation de type One to one. Cette situation s’illustre bien avec les deux tables donnes_demo, et pmt. Dans les deux tables nous avons une seule observation par id.. Les deux tables peuvent être relié par le id de l’assuré.

Si nous cherchons par exemple le fournisseur de carte de crédit de chaque assuré;

title "Type de carte de crédit pour chaque assuré";
proc sql outobs=5;
    select a.name, b.credit_card_provider
    from bdSQL.donnes_demo as a left join bdSQL.pmt as b
        on a.numeropol = b.numeropol
    ; 
quit;

SAS Output

Type de carte de crédit pour chaque assuré


name	credit_card_provider
Shane Robinson	Voyager
Courtney Nguyen	JCB 16 digit
Lori Washington	Maestro
Sarah Castillo	VISA 13 digit
Jeffrey Garcia	Maestro

Si nous avions voulu faire cette opération avec un data step, nous aurons fait ceci:

proc sort data = bdSQL.donnes_demo;
    by numeropol;
run;

proc sort data = bdSQL.pmt;
    by numeropol;
run;

data bdSQL.Data_step_one2one  ;
    merge bdSQL.donnes_demo(in = left) bdSQL.pmt(in = right);
    by numeropol;
    if left;
    keep name credit_card_provider;
run;
proc print data=bdSQL.Data_step_one2one (obs=5) noobs;
run;

SAS Output

Type de carte de crédit pour chaque assuré


name	credit_card_provider
Shane Robinson	Voyager
Courtney Nguyen	JCB 16 digit
Lori Washington	Maestro
Sarah Castillo	VISA 13 digit
Jeffrey Garcia	Maestro

On remarque que c’est beaucoup plus simple d’utiliser les procédures sql quand il s’agit de telles situations

One To Many#

Lorsque nous avons une table avec un seul identifiant pour chaque observation (assuré), et une autre table où chaque assuré peut avoir plus qu’une observation (donc un même id qui se répète sur plus qu’une ligne), nous somme alors en présence de relation entre deux tables de type On To Many. Par exemple;

title "Nombte de sinistre total par assuré";
proc sql outobs=5;
    select a.name, sum(b.nbsin) as nombreSin
    from bdSQL.donnes_demo as a left join bdSQL.police_assurance as b
        on a.numeropol = b.numeropol
        group by a.name
        order by nombreSin desc
    ; 
quit;

SAS Output

Nombte de sinistre total par assuré


name	nombreSin
Betty Scott	11
Dustin Banks	10
Angela Smith	9
Jimmy Harrison	8
Aaron Tucker	8

Si nous cherchons la liste des noms de tous les assurés et le nombre de sinistres total qu’ils ont eus. Il faut noter que nous cherchons le total du nombre de sinistres de chaque assuré sachant qu’un assuré donné peut avoir zéro ou plus qu’un sinistre.

Remarquez que cela aurait pu bien fonctionner en utilisant right à la place de left

title "Nombte de sinistre total par assuré";
proc sql outobs=5;
    select a.name, sum(b.nbsin) as nombreSin
    from bdSQL.donnes_demo as a right join bdSQL.police_assurance as b
        on a.numeropol = b.numeropol
        group by a.name
        order by nombreSin desc
    ; 
quit;

SAS Output

Nombte de sinistre total par assuré


name	nombreSin
Betty Scott	11
Dustin Banks	10
Angela Smith	9
Jimmy Harrison	8
Aaron Tucker	8

ou

title "Nombre de sinistre total par assuré";
proc sql outobs=5;
    select b.name, sum(a.nbsin) as nombreSin
    from bdSQL.police_assurance as a right join bdSQL.donnes_demo as b
        on a.numeropol = b.numeropol
        group by b.name
        order by nombreSin desc
    ; 
quit;

SAS Output

Nombte de sinistre total par assuré


name	nombreSin
Betty Scott	11
Dustin Banks	10
Angela Smith	9
Jimmy Harrison	8
Aaron Tucker	8

Jointure de plus que deux table#

Imaginons que nous voulons créer une table qui nous donne: le nombre de sinistre par province, en plus d’avoir l’information s’il ya présence d’alarme ou pas (o ou 1)

/* petit exercice */
title;
proc sql ;
    create table bdSQL.prov_alar_sinis as
   select a.province, c.presence_alarme, sum(b.nbsin) as numbSin
          from bdSQL.donnes_demo a, bdSQL.police_assurance b , bdSQL.cars_info c
    where a.numeropol=b.numeropol and a.numeropol=c.numeropol
    group by province, presence_alarme
    ;
    
proc sql;
    select * from bdSQL.prov_alar_sinis;
quit;

SAS Output


province	presence_alarme	numbSin
Alberta	0	527
Alberta	1	481
British Columbia	0	483
British Columbia	1	501
Manitoba	0	435
Manitoba	1	444
New Brunswick	0	996
New Brunswick	1	991
Newfoundland and Labrador	0	526
Newfoundland and Labrador	1	484
Northwest Territories	0	464
Northwest Territories	1	458
Nova Scotia	0	457
Nova Scotia	1	442
Nunavut	0	426
Nunavut	1	517
Ontario	0	523
Ontario	1	428
Prince Edward Island	0	459
Prince Edward Island	1	430
Quebec	0	431
Quebec	1	425
Saskatchewan	0	506
Saskatchewan	1	461
Yukon Territory	0	489
Yukon Territory	1	473

Mettre à jour une table#

Avec les procédures proc sql, ils aussi possible de modifier les tables telles que l’ajout d’observations, en supprimer d’autres …etc.

Supposons que nous créerons une nouvelle table où nous avons le nombre total de sinistres, le coût total par province, pour les assurés ayant une alarme ou pas pour chacune des provinces.

/* petit exercice */
title;
proc sql ;
    create table bdSQL.prov_alar_sinis as
   select a.province, c.presence_alarme, sum(b.nbsin) as numbSin, sum(d.cout_prime) as coutTot format=dollar15.2
          from bdSQL.donnes_demo a, bdSQL.police_assurance b , bdSQL.cars_info c, bdSQL.pmt d
    where a.numeropol=b.numeropol and a.numeropol=c.numeropol and a.numeropol=d.numeropol
    group by province, presence_alarme
    ;
    
proc sql;
    select * from bdSQL.prov_alar_sinis;
quit;

SAS Output


province	presence_alarme	numbSin	coutTot
Alberta	0	527	$1,810,648.26
Alberta	1	481	$2,159,837.70
British Columbia	0	483	$1,845,870.63
British Columbia	1	501	$2,251,772.80
Manitoba	0	435	$1,816,059.04
Manitoba	1	444	$2,052,799.22
New Brunswick	0	996	$4,063,876.55
New Brunswick	1	991	$4,910,546.77
Newfoundland and Labrador	0	526	$2,114,873.41
Newfoundland and Labrador	1	484	$2,572,403.03
Northwest Territories	0	464	$1,831,869.64
Northwest Territories	1	458	$2,303,249.95
Nova Scotia	0	457	$1,863,869.16
Nova Scotia	1	442	$2,140,654.70
Nunavut	0	426	$1,767,940.35
Nunavut	1	517	$2,299,574.47
Ontario	0	523	$1,869,489.94
Ontario	1	428	$2,198,819.46
Prince Edward Island	0	459	$1,823,033.74
Prince Edward Island	1	430	$2,302,004.23
Quebec	0	431	$1,791,020.49
Quebec	1	425	$2,099,646.42
Saskatchewan	0	506	$2,078,543.11
Saskatchewan	1	461	$2,380,597.45
Yukon Territory	0	489	$2,090,626.75
Yukon Territory	1	473	$2,271,767.28

Maintenant, supposons que nous voulons augmenter les coûts des primes par 2% pour tous les assurés n’ayant pas une alarme installée sur le véhicule. Mais d’abord, créons une copie de la table prov_alar_sinis qu’on appellera prov_alar_sinis2 afin d’y apporter de modifications

proc sql;
    create table bdSQL.prov_alar_sinis2 like bdSQL.prov_alar_sinis;
    insert into bdSQL.prov_alar_sinis2
    select * from bdSQL.prov_alar_sinis;
    select * from bdSQL.prov_alar_sinis2;
quit;

SAS Output