Files
ArtStudies/M2/Data Visualisation/tp2/4-td_graphiques - enonce.Rmd
Arthur DANJOU 03bf0a4db2 Refactor code for improved readability and consistency across R Markdown files
- Updated comments and code formatting in `3-td_ggplot2 - enonce.Rmd` for clarity.
- Enhanced code structure in `4-td_graphiques - enonce.Rmd` by organizing options and library calls.
- Replaced pipe operator `%>%` with `|>` in `Code_Lec3.Rmd` for consistency with modern R syntax.
- Cleaned up commented-out code and ensured consistent spacing in ggplot calls.
2025-11-06 09:26:58 +01:00

419 lines
11 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Manipulation des graphiques"
author: "Quentin Guibert"
date: "Année 2025-2026"
institute: "Université Paris-Dauphine | Master ISF"
lang: fr
link-citations: true
output:
rmdformats::robobook:
highlight: kate
use_bookdown: true
css: style.css
lightbox : true
gallery: true
code_folding: show
theme: flatly
toc_float:
collapsed: no
editor_options:
markdown:
wrap: 72
---
```{r setup, include=FALSE}
## Global options
knitr::opts_chunk$set(
cache = FALSE,
warning = FALSE,
message = FALSE,
fig.retina = 2
)
options(encoding = "UTF-8")
```
```{r, echo = FALSE, fig.keep= 'none'}
# Chargement des librairies graphiques
library(lattice)
library(grid)
library(ggplot2)
require(gridExtra)
library(locfit)
library(scales)
library(formattable)
library(RColorBrewer)
library(plotly)
library(dplyr)
library(tidyr)
library(rmarkdown)
library(ggthemes)
library(cowplot)
```
# Objectifs du TP
L'objectif de ce TP vise à manipuler et utiliser à bon escient les différents
types de graphiques du package **ggplot2** (et éventuellement des packages
associés).
---
# Prérequis
- Avoir installer `R` [ici](https://www.r-project.org/).
- Avoir installer un IDE, par exemple `RStudio`
[ici](https://www.rstudio.com/).
- Créer un nouveau projet (`File`, puis `New Projet`) dans un dossier
sur votre ordinateur.
- Télécharger [ici](https://moodle.psl.eu/course/view.php?id=21176)
les fichiers nécessaires au TD.
Vous pouvez ensuite écrire vos codes soit :
- En ouvrant un nouveau script `.R` ;
- En ouvrant le ouvrant le rapport Rmarkdown `4-td_graphiques - enonce`.
Certains codes sont partiels et sont à compléter (indication `???`).
N'oubliez pas de modifier l'option `eval = TRUE` pour que les
calculs puissent être réalisés.
---
# Analyse du lien espérance de vie et GDP
Dans ce TP, le jeu de données utilisé est le jeu `gapminder` du package
**gapminder**. Il comprend des séries de données de PIB par habitant et d'espérance
de vie par pays sur la période 1952-1990. Les observations ont lieu tous les 5 ans.
## Données
Dans un premier temps, il faut installer le package et le charger.
```{r}
# install.packages("gapminder") #nolint
library(gapminder)
```
Ce jeu de données contient 1706 observations où chaque ligne correspond à un
pays `country` pour une année d'observation `year`.
```{r}
paged_table(gapminder, options = list(rows.print = 15))
```
On se concentre plus particulièrement sur les variables suivantes :
- `lifeExp` : l'espérance de vie ;
- `gdpPercap` : le PIB par habitant en dollars (conversion sur base 2005) ;
- `pop` : la taille de la population ;
- `continent` : le continent d'appartenance.
Pour plus détails, voir l'aide `?gapminder`.
## But de la visualisation
Dans ce TP, on cherche un ensemble de visualisations permettant de commenter
le lien entre GDP et espérance de vie, globalement et à différents
échelles géographiques :
- est-ce que les pays les plus développés en termes de PIB par habitant ont la
meilleure espérance de vie ?
- peut-on identifier des dynamiques différentes en fonction des pays ou des continents ?
- quels facteurs influencent également cette relation ?
**En vous répartissant en groupes de 3-4 étudiant.e.s.**, choisissez pour chaque groupe,
une des 4 visualisations suivantes :
- visualisations utilisant des dot points.
- visualisations permettant de présenter une distribution.
- visualisations utilisant des cartes.
## Différentes visualisations
### Dot points
::: exercise-box
En partant de cette visualisation, construire une ou plusieurs visualisations
permettant d'analyser et de commenter les liens que vous
pouvez observer entre `gdpPercap` et `lifeExp`.
:::
```{r}
ggplot(data = gapminder, aes(x = gdpPercap, y = lifeExp)) +
geom_point()
```
### Distributions
::: exercise-box
En partant de cette visualisation, analyser et commenter les écarts
d'espérance de vie sur la planète. Vous pourrez aussi adopter d'autres
visualisations permettant de comparer des distributions.
:::
```{r}
ggplot(data = gapminder, aes(x = lifeExp)) +
geom_density()
```
### Cartes
Afin de visualiser plus précisément les caractéristiques régionales de l'espérance
de vie et du PIB par habitant, nous décidons de faire des cartes.
Il faut au préalable récupérer un fond de carte (ici de l'année 2016). Nous prenons
les données `gapminder` de 2007.
```{r}
library(giscoR)
library(sf)
world <- gisco_countries
world <- subset(world, NAME_ENGL != "Antarctica") # Remove Antartica
# Merge data
world_df <- gapminder |>
filter(year == "2007")
world_df <- world |>
left_join(world_df, by = c("NAME_ENGL" = "country"))
ggplot(world_df) +
geom_sf(color = "black", fill = "grey") +
theme_void()
```
::: exercise-box
En partant de la visualisation et des données ci-dessus, représenter et analyser
les disparités d'espérance
de vie et de revenus.
:::
---
# Analyse des accidents à vélo en France
Dans ce TP, nous nous intéressons aux accidents corporels survenus sur une voie
ouverte à la circulation publique, impliquant au moins un véhicule et ayant fait
au moins une victime ayant nécessité des soins) pour la période 2005-2021.
L'objectif est de créer un ensemble de visualisations qui permettront de mieux
comprendre accidentologie des cyclistes, ce qui trouve de nombreuses sources
d'applications notamment en assurance.
Les données et documentation de ces données sont disponibles [ici](https://www.data.gouv.fr/fr/datasets/bases-de-donnees-annuelles-des-accidents-corporels-de-la-circulation-routiere-annees-de-2005-a-2021/).
## Données
Pour récupérer les données :
1. récupérer le fichier zippé "data_velo.zip".
2. créer un dossier "data" à la racine de votre projet.
3. placer y le contenu du dossier zippé.
Les données se chargent avec la commande suivante.
```{r}
library(readxl)
library(readr)
library(tidyverse)
# main data
accidents <- read_csv("data/accidentsVelo.csv",
col_types = cols(Num_Acc = col_double(),
date = col_date(format = "%Y-%m-%d")))
# few ajustements
accidents <- accidents |>
mutate(mois = factor(mois),
jour = factor(jour),
dep = factor(dep),
agg = factor(agg),
grav = factor(grav),
situ = factor(situ))
# correct some issues with variables `hrmn`
issue <- which(str_length(accidents$hrmn) == 4)
correct <- accidents$hrmn[issue]
correct <- paste0("0", str_sub(correct, 1, 1), ":",
str_sub(correct, 2, 2), str_sub(correct, 4, 4))
accidents$hrmn[issue] <- correct
# Extract hour
accidents <- accidents |>
mutate(hour = paste(date, hrmn, sep = " ")) |>
mutate(hour = strptime(hour, "%Y-%m-%d %H:%M")$hour)
# mapping table for french departments
departements_francais <- read_excel("data/departements-francais.xlsx")
```
Ce jeu de données contient 74758 observations où chaque ligne correspond à un
accident.
```{r}
paged_table(accidents, options = list(rows.print = 15))
```
On se concentre plus particulièrement sur les variables suivantes :
- `date`, `an`, `mois`, `jour`, `hour`, : la date, année, mois, jour et heure de l'accident ;
- `dep` : le département ;
- `agg` : la location (1 = "hors agglomération", 2 = "en agglomération") ;
- `lat` : latitude (pas toujours renseignée) ;
- `long` : longitude (pas toujours renseignée) ;
- `situ` : la situation de l'accident (-1 = Non renseigné, 0 = Aucun,
1 = Sur chaussée, 2 = Sur bande darrêt durgence, 3 = Sur accotement,
4 = Sur trottoir, 5 = Sur piste cyclable, 6 = Sur autre voie spéciale, 8 = Autres) ;
- `grav` : la gravité (1 = Indemne, 2 = Tué, 3 = Blessé hospitalisé,
4 = Blessé léger).
D'autres variables intéressantes pourraient être étudiées, mais nous nous limitons
à celle-ci dans ce TP.
## But de la visualisation
Dans ce TP, on cherche à réaliser une analyse exploratoire du jeu de données
afin d'identifier les relations importantes entre le nombre d'accidents et
ses déterminants :
- est-ce que les accidents sont plus situés en agglomération ?
- comment les accidents se répartissent dans l'espace et dans le temps ?
- quels impacts ont les situations de circulation sur la gravité des accidents ?
En vous répartissant en groupes de 3-4 étudiant.e.s., choisissez pour chaque groupe,
une des 4 visualisations suivantes :
- visualisations utilisant des cartes statiques ou dynamiques.
- visualisations utilisant des bar plots.
L'anayse a réalisé ici est préliminaire, d'autres informations intéressantes
sont à extraire de ce jeu de données.
## Différentes visualisations
### Carte
#### Carte dynamique {-}
::: exercise-box
1. Tracer une carte dynamique représentant la location des accidents (latitude,
longitude) en France sur toute la période en modulant la gravité.
2. Faire deux variantes de cette carte, selon le caractère urbain ou non des accidents.
3. Commenter ces figures.
4. Quelles limites voyez-vous à cette représentation ?
:::
Voici un premier code à trou pour vous aider. Pour alléger les temps de production
afficher uniquement quelques points. Vous pourrez ajouter l'ensemble du jeu de données
quand votre code sera finalisé.
```{r, eval = F}
library(mapview)
library(sf)
## Remove NA
df_map_dyn <- accidents |>
filter(???) |>
na.omit()
# Make map and print it
mymap <- st_as_sf(???)
mapview(mymap, cex = 2, layer.name = "Gravité",
zcol = "grav",legend = TRUE )
```
#### Carte choroplèthe {-}
::: exercise-box
1. Tracer une carte statistique de type chonoplèthe et représenter
le nombre d'accidents par département.
2. Faire plusieurs variantes de cette carte selon la gravité des accidents.
:::
Voici un premier code à trou pour vous aider.
```{r, eval = F}
# get french map - level nuts2
fr <- gisco_get_nuts(resolution = "20", country = ???, nuts_level = ???) |>
mutate(res = "20M")
# Remove white-space to avoid errors.
library(stringr)
departements_francais <- departements_francais |>
mutate(dep_name = str_trim(dep_name))
fr <- fr |>
mutate(NUTS_NAME = str_trim(NUTS_NAME))
# Merge and remove departements outside metropolitan France
fr_map <- fr |>
left_join(???) |>
filter(! dep %in% c("971", ???) )
# count the number of accidents
df_acc <- ???
# merge statistics with the map
map_acc <- fr_map |>
left_join(df_acc, by = c("dep" = "dep"))
# map with all accidents
g_map_acc <- ggplot(map_acc) +
geom_sf(???) +
scale_fill_viridis_c(option = "viridis") +
labs(title = "Carte des accidents de vélo",
subtitle = "Année 2005-2021",
fill = "Nombre d'accidents") +
theme_void()
g_map_acc
```
### Bar plots
::: exercise-box
1. On s'intéresse à la répartition par mois et horaires des accidents (variable
`an`, `hour`, `mois`). Tracer des bar plots permettant de montrer la répartition
temporelle des accidents.
2. On s'intéresse à l'impact des situations de circulation. Tracer des bar plots
permettant de montrer la répartition de la gravité des accidents selon ces situations.
3. Voyez-vous une évolution sur la période 2005-2021 ?
4. Réfléchir à des représentations alternatives pour les phénomènes périodiques.
:::
# Informations de session {-}
```{r}
sessionInfo()
```