Files
ArtStudies/M2/Data Visualisation/tp2/tp2.Rmd

420 lines
12 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Manipulation des graphiques"
author: "Quentin Guibert"
date: "Année 2025-2026"
institute: "Université Paris-Dauphine | Master ISF"
lang: fr
link-citations: true
output:
rmdformats::robobook:
highlight: kate
use_bookdown: true
css: style.css
lightbox : true
gallery: true
code_folding: show
theme: flatly
toc_float:
collapsed: no
editor_options:
markdown:
wrap: 72
---
```{r setup, include=FALSE}
## Global options
knitr::opts_chunk$set(
cache = FALSE,
warning = FALSE,
message = FALSE,
fig.retina = 2
)
options(encoding = "UTF-8")
```
```{r, echo = FALSE, fig.keep= 'none'}
# Chargement des librairies graphiques
library(lattice)
library(grid)
library(ggplot2)
require(gridExtra)
library(locfit)
library(scales)
library(formattable)
library(RColorBrewer)
library(plotly)
library(dplyr)
library(tidyr)
library(rmarkdown)
library(ggthemes)
library(cowplot)
```
# Objectifs du TP
L'objectif de ce TP vise à manipuler et utiliser à bon escient les
différents types de graphiques du package **ggplot2** (et éventuellement
des packages associés).
------------------------------------------------------------------------
# Prérequis
- Avoir installer `R` [ici](https://www.r-project.org/).
- Avoir installer un IDE, par exemple `RStudio`
[ici](https://www.rstudio.com/).
- Créer un nouveau projet (`File`, puis `New Projet`) dans un dossier
sur votre ordinateur.
- Télécharger [ici](https://moodle.psl.eu/course/view.php?id=21176)
les fichiers nécessaires au TD.
Vous pouvez ensuite écrire vos codes soit :
- En ouvrant un nouveau script `.R` ;
- En ouvrant le ouvrant le rapport Rmarkdown
`4-td_graphiques - enonce`. Certains codes sont partiels et sont à
compléter (indication `???`). N'oubliez pas de modifier l'option
`eval = TRUE` pour que les calculs puissent être réalisés.
------------------------------------------------------------------------
# Analyse du lien espérance de vie et GDP
Dans ce TP, le jeu de données utilisé est le jeu `gapminder` du package
**gapminder**. Il comprend des séries de données de PIB par habitant et
d'espérance de vie par pays sur la période 1952-1990. Les observations
ont lieu tous les 5 ans.
## Données
Dans un premier temps, il faut installer le package et le charger.
```{r}
# install.packages("gapminder") #nolint
library(gapminder)
```
Ce jeu de données contient 1706 observations où chaque ligne correspond
à un pays `country` pour une année d'observation `year`.
```{r}
paged_table(gapminder, options = list(rows.print = 15))
```
On se concentre plus particulièrement sur les variables suivantes :
- `lifeExp` : l'espérance de vie ;
- `gdpPercap` : le PIB par habitant en dollars (conversion sur
base 2005) ;
- `pop` : la taille de la population ;
- `continent` : le continent d'appartenance.
Pour plus détails, voir l'aide `?gapminder`.
## But de la visualisation
Dans ce TP, on cherche un ensemble de visualisations permettant de
commenter le lien entre GDP et espérance de vie, globalement et à
différents échelles géographiques :
- est-ce que les pays les plus développés en termes de PIB par
habitant ont la meilleure espérance de vie ?
- peut-on identifier des dynamiques différentes en fonction des pays
ou des continents ?
- quels facteurs influencent également cette relation ?
**En vous répartissant en groupes de 3-4 étudiant.e.s.**, choisissez
pour chaque groupe, une des 4 visualisations suivantes :
- visualisations utilisant des dot points.
- visualisations permettant de présenter une distribution.
- visualisations utilisant des cartes.
## Différentes visualisations
### Dot points
::: exercise-box
En partant de cette visualisation, construire une ou plusieurs
visualisations permettant d'analyser et de commenter les liens que vous
pouvez observer entre `gdpPercap` et `lifeExp`.
:::
```{r}
ggplot(data = gapminder, aes(x = gdpPercap, y = lifeExp)) +
geom_point()
```
### Distributions
::: exercise-box
En partant de cette visualisation, analyser et commenter les écarts
d'espérance de vie sur la planète. Vous pourrez aussi adopter d'autres
visualisations permettant de comparer des distributions.
:::
```{r}
ggplot(data = gapminder, aes(x = lifeExp)) +
geom_density()
```
### Cartes
Afin de visualiser plus précisément les caractéristiques régionales de
l'espérance de vie et du PIB par habitant, nous décidons de faire des
cartes.
Il faut au préalable récupérer un fond de carte (ici de l'année 2016).
Nous prenons les données `gapminder` de 2007.
```{r}
library(giscoR)
library(sf)
world <- gisco_countries
world <- subset(world, NAME_ENGL != "Antarctica") # Remove Antartica
# Merge data
world_df <- gapminder |>
filter(year == "2007")
world_df <- world |>
left_join(world_df, by = c("NAME_ENGL" = "country"))
ggplot(world_df) +
geom_sf(color = "black", fill = "lightgreen") +
theme_void()
```
::: exercise-box
En partant de la visualisation et des données ci-dessus, représenter et
analyser les disparités d'espérance de vie et de revenus.
:::
------------------------------------------------------------------------
# Analyse des accidents à vélo en France
Dans ce TP, nous nous intéressons aux accidents corporels survenus sur
une voie ouverte à la circulation publique, impliquant au moins un
véhicule et ayant fait au moins une victime ayant nécessité des soins)
pour la période 2005-2021.
L'objectif est de créer un ensemble de visualisations qui permettront de
mieux comprendre accidentologie des cyclistes, ce qui trouve de
nombreuses sources d'applications notamment en assurance.
Les données et documentation de ces données sont disponibles
[ici](https://www.data.gouv.fr/fr/datasets/bases-de-donnees-annuelles-des-accidents-corporels-de-la-circulation-routiere-annees-de-2005-a-2021/).
## Données
Pour récupérer les données :
1. récupérer le fichier zippé "data_velo.zip".
2. créer un dossier "data" à la racine de votre projet.
3. placer y le contenu du dossier zippé.
Les données se chargent avec la commande suivante.
```{r}
library(readxl)
library(readr)
library(tidyverse)
# main data
path <- getwd()
accidents <- read_csv(
paste0(
path,
"/data/accidentsVelo.csv"),
col_types = cols(Num_Acc = col_double(), date = col_date(format = "%Y-%m-%d"))
)
# few ajustements
accidents <- accidents |>
mutate(
mois = factor(mois),
jour = factor(jour),
dep = factor(dep),
agg = factor(agg),
grav = factor(grav),
situ = factor(situ)
)
# correct some issues with variables `hrmn`
issue <- which(str_length(accidents$hrmn) == 4)
correct <- accidents$hrmn[issue]
correct <- paste0("0", str_sub(correct, 1, 1), ":",
str_sub(correct, 2, 2), str_sub(correct, 4, 4))
accidents$hrmn[issue] <- correct
# Extract hour
accidents <- accidents |>
mutate(hour = paste(date, hrmn, sep = " ")) |>
mutate(hour = strptime(hour, "%Y-%m-%d %H:%M")$hour)
# mapping table for french departments
departements_francais <- read_excel(
paste0(
path,
"/data/departements-francais.xlsx"),
col_types = c("text", "text", "text")
)
```
Ce jeu de données contient 74758 observations où chaque ligne correspond
à un accident.
```{r}
paged_table(accidents, options = list(rows.print = 15))
```
On se concentre plus particulièrement sur les variables suivantes :
- `date`, `an`, `mois`, `jour`, `hour`, : la date, année, mois, jour
et heure de l'accident ;
- `dep` : le département ;
- `agg` : la location (1 = "hors agglomération", 2 = "en
agglomération") ;
- `lat` : latitude (pas toujours renseignée) ;
- `long` : longitude (pas toujours renseignée) ;
- `situ` : la situation de l'accident (-1 = Non renseigné, 0 = Aucun,
1 = Sur chaussée, 2 = Sur bande darrêt durgence, 3 = Sur
accotement, 4 = Sur trottoir, 5 = Sur piste cyclable, 6 = Sur autre
voie spéciale, 8 = Autres) ;
- `grav` : la gravité (1 = Indemne, 2 = Tué, 3 = Blessé hospitalisé, 4
= Blessé léger).
D'autres variables intéressantes pourraient être étudiées, mais nous
nous limitons à celle-ci dans ce TP.
## But de la visualisation
Dans ce TP, on cherche à réaliser une analyse exploratoire du jeu de
données afin d'identifier les relations importantes entre le nombre
d'accidents et ses déterminants :
- est-ce que les accidents sont plus situés en agglomération ?
- comment les accidents se répartissent dans l'espace et dans le temps
?
- quels impacts ont les situations de circulation sur la gravité des
accidents ?
En vous répartissant en groupes de 3-4 étudiant.e.s., choisissez pour
chaque groupe, une des 4 visualisations suivantes :
- visualisations utilisant des cartes statiques ou dynamiques.
- visualisations utilisant des bar plots.
L'anayse a réalisé ici est préliminaire, d'autres informations
intéressantes sont à extraire de ce jeu de données.
## Différentes visualisations
### Carte
#### Carte dynamique {.unnumbered}
::: exercise-box
1. Tracer une carte dynamique représentant la location des accidents
(latitude, longitude) en France sur toute la période en modulant la
gravité.
2. Faire deux variantes de cette carte, selon le caractère urbain ou
non des accidents.
3. Commenter ces figures.
4. Quelles limites voyez-vous à cette représentation ?
:::
Voici un premier code à trou pour vous aider. Pour alléger les temps de
production afficher uniquement quelques points. Vous pourrez ajouter
l'ensemble du jeu de données quand votre code sera finalisé.
```{r, eval=F}
library(mapview)
library(sf)
## Remove NA
df_map_dyn <- accidents |>
filter(!is.na(lat) & !is.na(long)) |>
na.omit()
# Make map and print it
mymap <- st_as_sf()
mapview(mymap, cex = 2, layer.name = "Gravité",
zcol = "grav",legend = TRUE )
```
#### Carte choroplèthe {.unnumbered}
::: exercise-box
1. Tracer une carte statistique de type chonoplèthe et représenter le
nombre d'accidents par département.
2. Faire plusieurs variantes de cette carte selon la gravité des
accidents.
:::
Voici un premier code à trou pour vous aider.
```{r, eval = F}
# get french map - level nuts2
fr <- gisco_get_nuts(resolution = "20", country = ???, nuts_level = ???) |>
mutate(res = "20M")
# Remove white-space to avoid errors.
library(stringr)
departements_francais <- departements_francais |>
mutate(dep_name = str_trim(dep_name))
fr <- fr |>
mutate(NUTS_NAME = str_trim(NUTS_NAME))
# Merge and remove departements outside metropolitan France
fr_map <- fr |>
left_join(???) |>
filter(! dep %in% c("971", ???) )
# count the number of accidents
df_acc <- ???
# merge statistics with the map
map_acc <- fr_map |>
left_join(df_acc, by = c("dep" = "dep"))
# map with all accidents
g_map_acc <- ggplot(map_acc) +
geom_sf(???) +
scale_fill_viridis_c(option = "viridis") +
labs(title = "Carte des accidents de vélo",
subtitle = "Année 2005-2021",
fill = "Nombre d'accidents") +
theme_void()
g_map_acc
```
### Bar plots
::: exercise-box
1. On s'intéresse à la répartition par mois et horaires des accidents
(variable `an`, `hour`, `mois`). Tracer des bar plots permettant de
montrer la répartition temporelle des accidents.
2. On s'intéresse à l'impact des situations de circulation. Tracer des
bar plots permettant de montrer la répartition de la gravité des
accidents selon ces situations.
3. Voyez-vous une évolution sur la période 2005-2021 ?
4. Réfléchir à des représentations alternatives pour les phénomènes
périodiques.
:::
# Informations de session {.unnumbered}
```{r}
sessionInfo()
```