# Cours 3 : Machine Learning - Algorithmes supervisés (1/2)

## Préambule

Les objectifs de cette séance (3h) sont :
* Préparation des bases de modélisation (sampling)
* Mettre en application un modèle supervisé simple.
* Construire un modèle de Machine Learning (cross-validation et hyperparamétrage) pour résoudre un problème de régression
* Analyser les performances du modèle

## Préparation du workspace

### Import de librairies 

In [None]:
# Données
import numpy as np
import pandas as pd

#Graphiques
import seaborn as sns

sns.set()
import plotly.express as px
import plotly.graph_objects as gp
import sklearn.preprocessing as preproc

#Statistiques
from scipy.stats import chi2_contingency
from sklearn import metrics

# Machine Learning
from sklearn.cluster import KMeans
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import KFold, train_test_split
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor

### Définition des fonctions 

### Constantes

In [24]:
input_path = "./1_inputs"
output_path = "./2_outputs"

### Import des données

In [25]:
path =input_path + '/base_retraitee.csv'
data_retraitee = pd.read_csv(path,sep=",",decimal=".")

## Algorithme supervisé : CART 

Dans cette partie l'objectif est de construire un modèle simple (algorithme CART) afin de voir les différentes étapes nécessaire au lancement d'un modèle
Nous modéliserons directement le coût des sinistres. 

### Construction du modèle

La première étape est de calculer les côut moyen de chaque sinistre (target ou variable réponse). Cette variable sera la variable à prédire en fonction des variables explicatives.

In [26]:
data_model = data_retraitee.copy()

# Filtre pour ne garder que les lignes qui ont un sinistre (NB > 0)
data_model = data_model[data_model['NB'] > 0]

# Calcul du cout moyen "théorique" des sinistres
data_model["CM"] = (data_model["CHARGE"] / data_model["NB"])
data_model = data_model.drop(['CHARGE', 'NB', "EXPO"], axis=1)
data_model.head()

Unnamed: 0,ANNEE_CTR,CONTRAT_ANCIENNETE,FREQUENCE_PAIEMENT_COTISATION,GROUPE_KM,ZONE_RISQUE,AGE_ASSURE_PRINCIPAL,GENRE,DEUXIEME_CONDUCTEUR,ANCIENNETE_PERMIS,ANNEE_CONSTRUCTION,ENERGIE,EQUIPEMENT_SECURITE,VALEUR_DU_BIEN,CM
10,2019,"(0,1]",MENSUEL,[0;20000[,C,40,M,False,37,2017.0,ESSENCE,VRAI,[15000;20000[,1072.98
34,2020,"(-1,0]",MENSUEL,[20000;40000[,C,27,M,True,13,2018.0,AUTRE,FAUX,[35000;99999[,3750.0
36,2019,"(-1,0]",MENSUEL,[20000;40000[,L,19,M,False,2,2017.0,ESSENCE,VRAI,[0;10000[,1838.49
78,2019,"(-1,0]",MENSUEL,[20000;40000[,B,40,M,False,45,2018.0,DIESEL,FAUX,[15000;20000[,4892.74
89,2018,"(1,2]",MENSUEL,[20000;40000[,C,20,M,False,11,2014.0,ESSENCE,FAUX,[25000;35000[,166.73


**Exercice :** construisez les statistiques descriptives de la base utilisée.

In [27]:
data_model.describe(include='all')

Unnamed: 0,ANNEE_CTR,CONTRAT_ANCIENNETE,FREQUENCE_PAIEMENT_COTISATION,GROUPE_KM,ZONE_RISQUE,AGE_ASSURE_PRINCIPAL,GENRE,DEUXIEME_CONDUCTEUR,ANCIENNETE_PERMIS,ANNEE_CONSTRUCTION,ENERGIE,EQUIPEMENT_SECURITE,VALEUR_DU_BIEN,CM
count,824.0,824,824,824,824,824.0,824,824,824.0,824.0,824,824,824,824.0
unique,,5,3,4,14,,2,2,,,3,2,6,
top,,"(0,1]",MENSUEL,[0;20000[,C,,M,False,,,ESSENCE,FAUX,[10000;15000[,
freq,,297,398,391,269,,483,663,,,413,517,213,
mean,2018.384709,,,,,44.383495,,,35.688107,2015.212379,,,,4246.016978
std,1.515833,,,,,13.808217,,,19.370621,3.163782,,,,6869.616917
min,2016.0,,,,,19.0,,,1.0,1998.0,,,,7.5
25%,2017.0,,,,,34.0,,,18.0,2014.0,,,,1159.96125
50%,2018.0,,,,,43.0,,,35.0,2016.0,,,,2541.65
75%,2020.0,,,,,53.0,,,53.0,2017.0,,,,4193.7975


#### Etude des corrélations parmi les variables explicatives

**Question :** Selon vous, pourquoi faut-il s'intéresser à la corrélation des variables ? 

*Réponse*: Pour avoir un modèle qui fit mieux + déterminer un potentiel effet de causalité entre features et target + sélectionner certaines variables.

In [28]:
data_set = data_model.drop("CM", axis=1)

In [29]:
#Séparation en variables qualitatives ou catégorielles
variables_na = []
variables_numeriques = []
variables_01 = []
variables_categorielles = []
for colu in data_set.columns:
    if True in data_set[colu].isna().unique() :
        variables_na.append(data_set[colu])
    else :
        if str(data_set[colu].dtypes) in ["int32","int64","float64"]:
            if len(data_set[colu].unique())==2 :
                variables_categorielles.append(data_set[colu])
            else :
                variables_numeriques.append(data_set[colu])
        else :
            if len(data_set[colu].unique())==2 :
                variables_categorielles.append(data_set[colu])
            else :
                variables_categorielles.append(data_set[colu])

##### Corrélation des variables catégorielles :

In [16]:
vars_categorielles = pd.DataFrame(variables_categorielles).transpose()

In [31]:
vars_categorielles.head()

Unnamed: 0,CONTRAT_ANCIENNETE,FREQUENCE_PAIEMENT_COTISATION,GROUPE_KM,ZONE_RISQUE,GENRE,DEUXIEME_CONDUCTEUR,ENERGIE,EQUIPEMENT_SECURITE,VALEUR_DU_BIEN
10,"(0,1]",MENSUEL,[0;20000[,C,M,False,ESSENCE,VRAI,[15000;20000[
34,"(-1,0]",MENSUEL,[20000;40000[,C,M,True,AUTRE,FAUX,[35000;99999[
36,"(-1,0]",MENSUEL,[20000;40000[,L,M,False,ESSENCE,VRAI,[0;10000[
78,"(-1,0]",MENSUEL,[20000;40000[,B,M,False,DIESEL,FAUX,[15000;20000[
89,"(1,2]",MENSUEL,[20000;40000[,C,M,False,ESSENCE,FAUX,[25000;35000[


##### Corrélation des variables numériques :

In [22]:
vars_numeriques = pd.DataFrame(variables_numeriques).transpose()

In [None]:
# Calcul des corrélations entre variables numériques
correlation_matrix = vars_numeriques.corr()
print("Matrice de corrélation des variables numériques:")
print(correlation_matrix)

fig = px.imshow(
    correlation_matrix, text_auto=True, color_continuous_scale="coolwarm", aspect="auto"
)
fig.update_layout(title="Matrice de corrélation des variables numériques")
fig.show()

Matrice de corrélation des variables numériques:
                      ANNEE_CTR  AGE_ASSURE_PRINCIPAL  ANCIENNETE_PERMIS  \
ANNEE_CTR              1.000000              0.026613           0.040797   
AGE_ASSURE_PRINCIPAL   0.026613              1.000000           0.540899   
ANCIENNETE_PERMIS      0.040797              0.540899           1.000000   
ANNEE_CONSTRUCTION     0.387562             -0.031655           0.033320   

                      ANNEE_CONSTRUCTION  
ANNEE_CTR                       0.387562  
AGE_ASSURE_PRINCIPAL           -0.031655  
ANCIENNETE_PERMIS               0.033320  
ANNEE_CONSTRUCTION              1.000000  


ValueError: 
    Invalid value of type 'builtins.str' received for the 'colorscale' property of imshow
        Received value: 'coolwarm'

    The 'colorscale' property is a colorscale and may be
    specified as:
      - A list of colors that will be spaced evenly to create the colorscale.
        Many predefined colorscale lists are included in the sequential, diverging,
        and cyclical modules in the plotly.colors package.
      - A list of 2-element lists where the first element is the
        normalized color level value (starting at 0 and ending at 1),
        and the second item is a valid color string.
        (e.g. [[0, 'green'], [0.5, 'red'], [1.0, 'rgb(0, 0, 255)']])
      - One of the following named colorscales:
            ['aggrnyl', 'agsunset', 'algae', 'amp', 'armyrose', 'balance',
             'blackbody', 'bluered', 'blues', 'blugrn', 'bluyl', 'brbg',
             'brwnyl', 'bugn', 'bupu', 'burg', 'burgyl', 'cividis', 'curl',
             'darkmint', 'deep', 'delta', 'dense', 'earth', 'edge', 'electric',
             'emrld', 'fall', 'geyser', 'gnbu', 'gray', 'greens', 'greys',
             'haline', 'hot', 'hsv', 'ice', 'icefire', 'inferno', 'jet',
             'magenta', 'magma', 'matter', 'mint', 'mrybm', 'mygbm', 'oranges',
             'orrd', 'oryel', 'oxy', 'peach', 'phase', 'picnic', 'pinkyl',
             'piyg', 'plasma', 'plotly3', 'portland', 'prgn', 'pubu', 'pubugn',
             'puor', 'purd', 'purp', 'purples', 'purpor', 'rainbow', 'rdbu',
             'rdgy', 'rdpu', 'rdylbu', 'rdylgn', 'redor', 'reds', 'solar',
             'spectral', 'speed', 'sunset', 'sunsetdark', 'teal', 'tealgrn',
             'tealrose', 'tempo', 'temps', 'thermal', 'tropic', 'turbid',
             'turbo', 'twilight', 'viridis', 'ylgn', 'ylgnbu', 'ylorbr',
             'ylorrd'].
        Appending '_r' to a named colorscale reverses it.


**Question :** quels sont vos commentaires ?

#### Preprocessing

Deux étapes sont nécessaires avant de lancer l'apprentissage d'un modèle, c'est ce qu'on connait comme le *Preprocessing* :

* Les modèles proposés par la librairie "sklearn" ne gèrent que des variables numériques. Il est donc nécessaire de transformer les variables catégorielles en variables numériques : ce processus s'appelle le *One Hot Encoding*.
* Normaliser les données numériques

**Exercice :** proposez un bout de code permettant de réaliser le One Hot Encoding des variables catégorielles. Vous pourrez utiliser la fonction "preproc.OneHotEncoder" de la librairie sklearn

**Exercice :** proposez un bout de code permettant normaliser les variables numériques présentes dans la base. Vous pourrez utiliser la fonction "preproc.StandardScaler" de la librairie sklearn

#### Sampling

**Exercice :** proposez un bout de code permettant construire la base d'apprentissage (80% des données) et la base de test (20%).

#### Fitting

**Exercice :** proposez un bout de code permettant construire le modèle

**Exercice :** proposez un bout de code permettant d'évaluer les performances du modèle (MAE, MSE et RMSE)

**Question :** que pensez-vous des performances de ce modèle ?

## Algorithme supervisé : Random Forest  

A ce stade, nous avons vu les différentes étapes pour lancer un algorithme de Machine Learning. Néanmoins, ces étapes ne sont pas suffisantes pour construire un modèle performant.  
En effet, afin de construire un modèle performant le Data Scientist doit agir sur l'apprentissage du modèle. Dans ce qui suit nous :
* Changerons d'algorithme pour utiliser un algorithme plus performant (Random Forest)
* Raliserons un *grid search* sur les paramètres du modèle
* Appliquerons l'apprentissage par validation croisée


### Modèle avec Validation Croisée

#### Sampling

#### Fitting avec Cross-Validation

**Exercice :** construisez un modèle RF (RandomForestRegressor) en implémentant la technique de validation croisée. Pensez à enregistrer au sein d'une variable/liste les performances (MAE, MSE & RMSE) du modèle au sein de chaque fold.

In [None]:
#Initialisation
# Nombre de sous-échantillons pour la cross-validation
num_splits = 5

# Random Forest regressor
rf_regressor = RandomForestRegressor(n_estimators=100, random_state=42)

# Initialisation du KFold cross-validation splitter
kf = KFold(n_splits=num_splits)

# Listes pour enregistrer les performances du modèle
MAE_scores = []
MSE_scores = []
RMSE_scores = []

In [None]:
# Entrainement avec cross-validation


In [None]:
# Métriques sur tous les folds

#MAE
for fold, mae in enumerate(MAE_scores, start=1):
    print(f"Fold {fold} MAE:", mae)

In [None]:
#MSE
for fold, mse in enumerate(MSE_scores, start=1):
    print(f"Fold {fold} MSE:", mse)

In [None]:
#RMSE
for fold, rmse in enumerate(RMSE_scores, start=1):
    print(f"Fold {fold} RMSE:", rmse)

**Question :** Commentez les résultats.

### Ajout d'un Grid Search pour les hyper paramètres

#### Sampling

#### Fitting avec Cross-Validation et *Grid Search*

**Exercice :** Intégrez la technique de Grid Search pour rechercher les paramètres optimaux du modèle.

In [None]:
#Initialisation
# Nombre de sous-échantillons pour la cross-validation
num_splits = 5

# Initialisation du KFold cross-validation splitter
kf = KFold(n_splits=num_splits)

# Listes pour enregistrer les performances du modèle
MAE_scores = []
MSE_scores = []
RMSE_scores = []

# Hyperparamètres à tester
n_estimators_values = [] #Complétez ici par les paramètres à tester
max_depth_values = [] #Complétez ici par les paramètres à tester
min_samples_split_values = [] #Complétez ici par les paramètres à tester

# Liste pour sauveagrder les meilleurs résultats
best_score = np.inf
best_params = {}

MAE_best_score = []
MSE_best_score = []
RMSE_best_score = []

In [None]:
#Complétez ici avec votre code

In [None]:
# Meilleurs résultats
print("Meilleurs paramètres:", best_params)
print("Meilleure RMSE :", best_score)

In [None]:
# Métriques sur tous les folds

#RMSE
for fold, rmse in enumerate(RMSE_best_score, start=1):
    print(f"Fold {fold} RMSE:", rmse)


In [None]:
#MAE
for fold, mse in enumerate(MSE_best_score, start=1):
    print(f"Fold {fold} MSE:", mse)

In [None]:
#MSE
for fold, mae in enumerate(MAE_best_score, start=1):
    print(f"Fold {fold} MAE:", mae)

**Question :** Commentez les résultats