Prise en main de ggplot2
1 Objectifs du TP
L’objectif de ce TP vise à se familiariser avec le package ggplot2
de R. Il s’agit de faire des manipulations graphiques élémentaires et
d’interpréter les résultats de ces visualisations.
Dans un premier temps, vous pouvez suivre l’exemple introductif en répliquant le code fourni. Dans un deuxième temps, il convient de réaliser l’exercice point par point.
2 Prérequis
- Avoir installer
Rici. - Avoir installer un IDE, par exemple
RStudioici. - Créer un nouveau projet (
File, puisNew Projet) dans un dossier sur votre ordinateur. - Télécharger ici les fichiers nécessaires au TD.
Vous pouvez ensuite écrire vos codes soit :
- En ouvrant un nouveau script
.R; - En ouvrant le ouvrant le rapport Rmarkdown
3-td_ggplot2 - enonce. Certains codes sont partiels et sont à compléter (indication???). N’oubliez pas de modifier l’optioneval = TRUEpour que les calculs puissent être réalisés.
3 Exemple introductif
Pour illustrer cette première partie, nous reprenons l’exemple
introductif fourni par @wickham2023 sur le jeu de données penguins du
package palmerpenguins. Ce jeu de données s’intèresse des mesures
réalisées sur des manchots sur 3 îles de l’archipelle Palmer.
3.1 Données
Dans un premier temps, il faut installer le package et le charger.
Ce jeu de données contient 344 observations où chaque ligne correspond à un individu.
On se concentre plus particulièrement sur les variables suivantes :
species: l’espèce de manchot ;flipper_length_mm: la longueur de la nageoire en mm ;body_mass_g: la masse en gramme.
Pour plus détails, voir l’aide ?penguins.
3.2 But de la visualisation
On s’intéresse au lien entre le masse et la taille des nageoires des manchots :
- ceux dont les nageoires sont les plus longues sont-ils plus lourds que les manchots aux nageoires courtes ?
- si oui quelle est le type de relation (linéaire, croissante, décroissante, …) ?
- quels facteurs influencent également cette relation (lieu, l’espèce, … ) ?
On cherche à recréer la figure suivante.

3.3 Création de la figure étape par étape
Etape 1 : Scatterplot
On commence par créer un scatterplot pour examiner la relation entre la masse et la taille de la nageoire.
Cette figure fait clairement apparaître une relation croissante et a priori linéaire entre les deux variables.
Un message d’erreur apparaît pour deux individus avec des données manquantes. Ils sont automatiquement exclus.
Etape 2 : Ajout d’élements esthétiques
On cherche à présent exhiber le rôle de l’espèce à partir d’une couleur. Trois espèces sont présents, ainsi l’ajout de 3 couleurs à la figure ne devrait pas surcharger le graphique.
ggplot(
data = penguins,
mapping = aes(x = flipper_length_mm, y = body_mass_g, color = species)) +
geom_point()Compte tenu du nombre important de points, nous pouvons renforcer les différences par espèce en ajoutant une variation de forme aux points.
ggplot(
data = penguins,
mapping = aes(x = flipper_length_mm, y = body_mass_g)) +
geom_point(mapping = aes(
color = species,
shape = species))Etape 3 : Ajout d’une géométrie
Voyons à présent comment interpréter la nature de la relation entre masse et longueur de la nageoire. Pour ce faire, nous essayons d’ajout des courbes de tendance. Nous commençons par une tendance linéaire.
ggplot(
data = penguins,
mapping = aes(x = flipper_length_mm, y = body_mass_g)) +
geom_point(mapping = aes(
color = species,
shape = species)) +
geom_smooth(method = "lm")La même figure peut être générée par espèce en déplaçant l’argument
color = species.
ggplot(
data = penguins,
mapping = aes(x = flipper_length_mm, y = body_mass_g, color = species)) +
geom_point(mapping = aes(
shape = species)) +
geom_smooth(method = "lm")Les pentes entre les espèces ne sont pas si éloignées. Nous décidons que conserver une relation commune pour toutes espèces. Pour tester si la nature linéaire de la relation est a priori une bonne hypothèse, nous considérons un lissage non-paramétrique.
ggplot(
data = penguins,
mapping = aes(x = flipper_length_mm, y = body_mass_g)) +
geom_point(mapping = aes(
color = species,
shape = species)) +
geom_smooth(method = "loess")L’ajout d’un lissage non-paramétrique permet d’affiner l’adéquation aux données, mais sans pour autant clairement remettre en cause la tendance linéaire qui sera donc conservée.
Etape 4 : Ajout des titres et changement de thème
Afin de finaliser la figure, nous ajouter :
- un titre ;
- un sous-titre ;
- des titres aux axes ;
- un titre à la légende.
Ces informations sont ajoutées avec labs().
De plus, nous modifions le thème avec la commande theme_bw().
ggplot(
data = penguins,
mapping = aes(x = flipper_length_mm, y = body_mass_g)
) +
geom_point(aes(color = species, shape = species)) +
geom_smooth(method = "lm") +
labs(
title = "Masse et taille de la nageoire",
subtitle = "Manchots d'Adelie, a
jugulaire et de Gentoo",
x = "Longueur de la nageoire (mm)", y = "Masse (g)",
color = "Espece", shape = "Espece"
) +
scale_color_colorblind() +
theme_bw()4 Exercice
4.1 Données
Nous travaillons avec les jeux de données FreMTPL2freq et
FreMTPL2sev du package Casdatasets. Ces données ont été
préalablement pré-formatées et regroupées.
Ce jeux de données regroupent les caractéristiques de 677 991 polices de responsabilité civile automobile, observées principalement sur une année. Dans les données regroupées, on dispose des numéros de sinistre par police, des montants de sinistre correspondants, des caractéristiques du risque et du nombre de sinistres.
On présente ci-dessous un aperçu des données.
# Folds
fold <- getwd()
# Load data
load(paste0(fold, "/data/datafreMPTL.RData"))
paged_table(dat, options = list(rows.print = 15))Le tableau suivant présente une définition des variables.
kableExtra::kable(
data.frame(
Variable = c("IDpol", "Exposure", "VehPower", "VehAge",
"DrivAge", "BonusMalus", "VehBrand", "VehGas",
"Area", "Density", "Region",
"ClaimTotal", "ClaimNb"),
Description = c(
"Identifiant de la police",
"Exposition au risque",
"Puissance du véhicule",
"Age du véhicule en année",
"Age du conducteur en année",
"Coefficient de bonus-malus",
"Marque du véhicule",
"Carburant du véhicule",
"Catégorie correspondant à la densité de la zone assurée",
"Densité de population",
"Region (selon la classication 1970-2015)",
"Montant total des sinistres",
"Nombre de sinistres sur la période"
),
Type = c(
rep("Reel", 2),
rep("Entier", 4),
rep("Cat", 3),
"Entier",
"Cat",
rep("Reel", 2)
)
),
booktabs=TRUE)| Variable | Description | Type |
|---|---|---|
| IDpol | Identifiant de la police | Reel |
| Exposure | Exposition au risque | Reel |
| VehPower | Puissance du véhicule | Entier |
| VehAge | Age du véhicule en année | Entier |
| DrivAge | Age du conducteur en année | Entier |
| BonusMalus | Coefficient de bonus-malus | Entier |
| VehBrand | Marque du véhicule | Cat |
| VehGas | Carburant du véhicule | Cat |
| Area | Catégorie correspondant à la densité de la zone assurée | Cat |
| Density | Densité de population | Entier |
| Region | Region (selon la classication 1970-2015) | Cat |
| ClaimTotal | Montant total des sinistres | Reel |
| ClaimNb | Nombre de sinistres sur la période | Reel |
## 'data.frame': 135601 obs. of 13 variables:
## $ IDpol : num 5089457 2215917 2202141 1077071 3044896 ...
## $ Exposure : num 0.21 0.25 1 0.07 0.09 0.08 1 1 0.49 0.8 ...
## $ VehPower : int 7 5 7 7 7 7 13 4 7 4 ...
## $ VehAge : int 10 2 6 4 7 4 3 14 8 2 ...
## $ DrivAge : int 36 40 79 42 45 53 53 32 31 42 ...
## $ BonusMalus: int 50 85 54 57 100 53 50 60 71 50 ...
## $ VehBrand : Factor w/ 11 levels "B1","B2","B3",..: 1 3 10 2 7 2 1 2 3 9 ...
## $ VehGas : Factor w/ 2 levels "Diesel","Regular": 2 2 1 1 1 1 2 2 2 2 ...
## $ Area : Factor w/ 6 levels "A","B","C","D",..: 5 5 3 5 6 3 5 4 5 2 ...
## $ Density : int 8 8 6 8 10 5 8 7 9 4 ...
## $ Region : Factor w/ 21 levels "Alsace","Aquitaine",..: 21 7 7 21 12 20 7 16 21 7 ...
## $ ClaimTotal: num 0 0 0 0 0 0 0 0 0 0 ...
## $ ClaimNb : num 0 0 0 0 0 0 0 0 0 0 ...
Pour plus de détails, consulter l’aide ?CASdatasets::freMTPL2freq.
4.2 But de la visualisation
Nous effectuons une première analyse descriptive de données et cherchons à étudier la relation entre :
- la fréquence, calculée avec les variables
ClaimNbetExposure(période d’exposition en année). - les variables
AreaetDrivAge.
Le but de la visualisation est de fait ressortir les liens entre la fréquence et ces deux variables.
Etape 1 : Visualisation de la fréquence et de l’exposition
A partir des données dat :
- afficher les statistiques descriptives du nombre de sinistres
ClaimNbet de la variableExposure; - afficher des histogrammes pour visualiser leur distribution ;
- afficher les figures côte a côte avec la fonction
plot_grid().
Essayer de choisir un thème de couleur et un écartement des barres de l’histogramme facilitant sa lisibilité.
On pourra développer une fonction qui utilise geom_histogram() sous la
package ggplot2.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00000 0.00000 0.00000 0.03919 0.00000 3.00000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.002732 0.170000 0.490000 0.527782 0.990000 1.000000
p1 <- ggplot(dat) +
geom_histogram(aes(x = ClaimNb), binwidth = 1, fill = "lightblue", color = "black") +
labs(title = "Distribution du nombre de sinistres", x = "Nombre de sinistres", y = "Effectif") +
theme_minimal()
p2 <- ggplot(dat) +
geom_histogram(aes(x = Exposure), binwidth = 0.05, fill = "lightblue", color = "black") +
labs(title = "Distribution du nombre de sinistres", x = "Nombre de sinistres", y = "Effectif") +
theme_minimal()
plot_grid(p1, p2, ncol = 2)Etape 2 : Calculer la fréquence
Construire un tableau présentant l’exposition cumulée et le nombre d’observations avec 0 sinistre, 1 sinistre, …
freq <- dat %>%
summarize(total_exposure = sum(Exposure),
total_claims = sum(ClaimNb),
frequency = total_claims / total_exposure)
freq## total_exposure total_claims frequency
## 1 71567.74 5314 0.07425133
Ce calcul de fréquence sera ensuite utile pour l’affichage des résultats.
Etape 3 : Calculer l’exposition et la fréquence par variable
Pour la variable DrivAge, présenter :
- un histogramme de l’exposition en fonction de cette variable.
- un histogramme de la fréquence moyenne de sinistres en fonction de cette variable.
Remplacer ensuite le second histogramme par un scatter plot avec une courbe de tendance. Est-ce plus clair ?
Indice
On pourra développer une fonction qui utilise geom_bar() sous la
package ggplot2.
# On regroupe selon les modalites de la DrivAge
# l'exposition, le nombre de sinistres et la frequence
df_plot <- dat %>%
group_by(DrivAge) %>%
summarize(exp = Exposure,
nb_claims = ClaimNb,
freq = nb_claims / exp)
# Histogramme exposition
ggplot(df_plot) +
geom_bar(aes(x = DrivAge, y = exp), stat = "identity", fill = "lightblue", color = "blue") +
labs(title = "Exposition par âge du conducteur", x = "Âge du conducteur", y = "Exposition") +
theme_minimal()
# Histogramme frequence
ggplot(df_plot) +
geom_bar(aes(x = DrivAge, y = freq), stat = "identity", fill = "lightblue", color = "blue") +
labs(title = "Fréquence par âge du conducteur", x = "Âge du conducteur", y = "Fréquence") +
theme_minimal()Etape 4 : Examiner l’intéraction avec une autre variable
A partir du scatter plot réalisé à l’étape précédente, distinguer les
évolutions de fréquence en fonction de DrivAge et de BonusMalus.
Ce graphique vous paraît-il transmettre un message clair ? Proposez des
améliorations en modifiant les variables DrivAge et BonusMalus.
# On regroupe selon les modalites de la DrivAge et de Area
# l'exposition, le nombre de sinistres et la frequence
# A compléterOn propose 4 ajustements :
- Exclure les âges extrêmes au-delà de 85 ans pour lesquels l’exposition est très faible.
- Faire des classes d’âges.
- Limiter le Bonus-Malus à 125.
- Faire des classes de Bonus-Malus.
# Classes d'âges pour Bonus-Malus
lim_classes <- c(50, 75, 100, 125, Inf)
# Exclusion des donnees "extremes" et faire les regroupement
df_plot <- dat %>%
filter(DrivAge <= 85, BonusMalus <= 125) %>%
# regroupement en classes d'ages de 5 ans
mutate(DrivAge = ceiling(pmin(DrivAge, 85) / 5) * 5) %>%
mutate(BonusMalus = cut(BonusMalus,
breaks = lim_classes, include.lowest = TRUE))
# On regroupe selon les modalites de la DrivAge et de Area
# l'exposition, le nombre de sinistres et la frequence
# A compléterConclure
Comparer à présenter comment l’exposition se répartie entre âge et bonus-malus.
Bonus - Analyse des couples
En traitant toutes les variables comme des variables catégorielles, analyser graphiquement comment évolue la fréquence de sinistres selon les couples de variables.
Compléter pour cela la fonction suivante et appliquer la à différents couples.
# Fonction d'analyse bivariée
# df : nom du data.frame
# var1 : nom de la variable explicative 1
# var2 : nom de la variable explicative 2
plot_pairwise_disc <- function(df, var1, var2)
{
df <- rename(df, "varx" = all_of(var1), "vary" = all_of(var2))
# replace variable vname by the binning variable
if(is.numeric(df$varx))
{
df <- df %>%
mutate(varx = ntile(varx, 5))
}
if(is.numeric(df$vary))
{
df <- df %>%
mutate(vary = ntile(vary, 5),
vary = factor(vary))
}
df %>%
group_by(??) %>%
summarize(exp = ??,
nb_claims = ??,
freq = ??,
.groups = "drop") %>%
ggplot(aes(x = ??,
y = ??,
colour = ??,
group = vary),
alpha = 0.3) +
geom_point() + geom_line() + theme_bw() +
labs(x = var1, y = "Frequence", colour = var2)
}Informations de session
## R version 4.5.1 (2025-06-13)
## Platform: aarch64-apple-darwin20
## Running under: macOS Tahoe 26.0.1
##
## Matrix products: default
## BLAS: /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRblas.0.dylib
## LAPACK: /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRlapack.dylib; LAPACK version 3.12.1
##
## locale:
## [1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
##
## time zone: Europe/Paris
## tzcode source: internal
##
## attached base packages:
## [1] grid stats graphics grDevices utils datasets methods
## [8] base
##
## other attached packages:
## [1] palmerpenguins_0.1.1 kableExtra_1.4.0 cowplot_1.2.0
## [4] ggthemes_5.1.0 rmarkdown_2.30 tidyr_1.3.1
## [7] dplyr_1.1.4 plotly_4.11.0 RColorBrewer_1.1-3
## [10] formattable_0.2.1 scales_1.4.0 locfit_1.5-9.12
## [13] gridExtra_2.3 ggplot2_4.0.0 lattice_0.22-7
##
## loaded via a namespace (and not attached):
## [1] sass_0.4.10 generics_0.1.4 xml2_1.4.0 stringi_1.8.7
## [5] digest_0.6.37 magrittr_2.0.4 evaluate_1.0.5 bookdown_0.45
## [9] fastmap_1.2.0 Matrix_1.7-4 jsonlite_2.0.0 mgcv_1.9-3
## [13] httr_1.4.7 purrr_1.1.0 viridisLite_0.4.2 lazyeval_0.2.2
## [17] textshaping_1.0.3 jquerylib_0.1.4 cli_3.6.5 rlang_1.1.6
## [21] splines_4.5.1 withr_3.0.2 cachem_1.1.0 yaml_2.3.10
## [25] tools_4.5.1 vctrs_0.6.5 R6_2.6.1 lifecycle_1.0.4
## [29] stringr_1.5.2 htmlwidgets_1.6.4 pkgconfig_2.0.3 pillar_1.11.1
## [33] bslib_0.9.0 gtable_0.3.6 data.table_1.17.8 glue_1.8.0
## [37] rmdformats_1.0.4 systemfonts_1.3.1 xfun_0.53 tibble_3.3.0
## [41] tidyselect_1.2.1 rstudioapi_0.17.1 knitr_1.50 farver_2.1.2
## [45] nlme_3.1-168 htmltools_0.5.8.1 labeling_0.4.3 svglite_2.2.1
## [49] compiler_4.5.1 S7_0.2.0