Uploaded by aboudsidi48

30636-devoir-examen-final-a2020

advertisement
lOMoARcPSD|13814648
30636 Devoir Examen final A2020
Introduction a l'apprentissage auto (HEC Montréal)
StuDocu n'est pas sponsorisé ou supporté par une université ou école
Téléchargé par abd sd (aboudsidi48@gmail.com)
lOMoARcPSD|13814648
EXAMEN FINAL
Automne 2020
Programmes de certificat
Introduction à l’apprentissage automatique
MATH 30636
Enseignant :
Hervé Mensah, chargé de cours
Coordonnatrice :
Rim Chérif, maître d’enseignement
(W01)
DIRECTIVES
1. L’examen final est un devoir maison à rendre le 21 décembre avant minuit.
2. Toute documentation est permise.
3. L’examen devra être rendu électroniquement sur la plateforme ZoneCours dans
la section « Remise de travaux ».
4. Le format du document de réponses à remettre est PDF.
5. La remise de tout autre document, annexes et explicatifs est autorisée.
6. Cet examen comporte 3 exercices, totalisant 100 points :
▪ Partie 1 :
Arbre de décision
▪ Partie 2 :
Méthode d’ensembles et analyse de performance
(1 problème de votre choix)
▪ Partie 3 :
Application du concept des réseaux de neurones
IMPORTANT :
Les étudiants ne sont pas autorisés à se consulter, d’aucune manière, pour effectuer le
travail. Il est à noter que l’école met à la disposition des enseignants un logiciel de
détection de similitude. Lorsque l’enseignant soupçonne une situation de plagiat, il
avise la direction de programme qui traite le cas conformément au Règlement sur
l’intégrité intellectuelle des étudiants
Page 1 sur 7
Téléchargé par abd sd (aboudsidi48@gmail.com)
lOMoARcPSD|13814648
Contexte
Vous travaillez dans une grande agence de voyages qui se nomme Traveligo. L’entreprise est un
fournisseur de voyages, implanté dans la région de Montréal. Par ce fait même, votre clientèle
est composée de 70 % de Québécois. Nous sommes présentement en hiver et l’organisation
possède des objectifs.
Afin de faire fructifier les ventes à l’international, l’entreprise effectue mensuellement des
promotions dans le but d’inciter leurs clients à acheter un billet d’avion pour une certaine
destination. En tant qu’analyste de données pour Traveligo, vous êtes responsable de définir les
bonnes promotions à offrir chaque mois. Pour cela, vous utilisez vos connaissances en techniques
de data mining.
PARTIE 1 : Arbre de décision
Problème 1 :
Au sein de la compagnie, vous décidez de bâtir un modèle prédictif afin de mieux cibler les
personnes qui ont le plus de chance d’aller à Viñales. Vous construisez alors 3 modèles; un
modèle d’arbre de classification, un modèle de forêt aléatoire et un modèle de réseaux de
neurones.
Pour ce qui est de l’arbre de classification, voici l’arbre final :
n=1560
n=960
n=400
n=200
n=660
n=300
n=100
MATH 30636
n=100
n=300
n=560
Examen final – Automne 2020
Téléchargé par abd sd (aboudsidi48@gmail.com)
Page 2 sur 7
lOMoARcPSD|13814648
a)
Pour cet arbre de classification, veuillez décrire les règles du modèle qui conduisent à la
prédiction d’un voyage à Viñales. Avec ces résultats, veuillez décrire brièvement en quoi
consisterait la campagne pour attirer de nouveaux clients vers cette destination.
b)
À l’aide des informations contenues dans la sortie de l’arbre de classification, veuillez
déterminer le taux de mauvaise classification. En comparant ce taux de mauvaise
classification avec une autre mesure, veuillez-vous prononcer sur l’utilité du modèle pour
la compagnie Traveligo.
Voici deux tableaux récapitulatifs des mesures pour les trois modèles :
Apprentissage
(75 000
observations)
Réseaux de
neurones
Arbre de
classification
Taux de
mauvaise
classification
Lift cumulé 4e
décile
ROC
Sensitivité
15 %
3,2
0,81
51 %
18 %
2,1
0,86
63 %
Forêts aléatoires
21 %
2,7
0,80
76 %
Validation
(40 000
observations)
Réseaux de
neurones
Arbre de
classification
Taux de
mauvaise
classification
Lift cumulé 4e
décile
ROC
Sensitivité
18 %
2,7
0,77
45 %
18 %
2,0
0,85
63 %
Forêts aléatoires
21 %
2,7
0,80
75 %
c)
Sachant que vous avez une plus grande importance à prédire les personnes qui ont voyagé,
quel est le meilleur modèle parmi les 3 modèles (justifiez votre réponse)?
MATH 30636
Examen final – Automne 2020
Téléchargé par abd sd (aboudsidi48@gmail.com)
Page 3 sur 7
lOMoARcPSD|13814648
PARTIE 2 : Étude de cas pratique – Méthodes d’ensembles et mesures de
performance
Veuillez choisir un problème parmi les suivants :
Problème 1 :
À l’aide du fichier EXCEL nommé « 30636 Devoir Final - Données problème 1.xlsx », nous vous
demandons de construire une forêt aléatoire comportant 2 arbres de classification. Chaque arbre
aura pour complexité une profondeur maximale de 2 ainsi qu’un indice d’impureté de Gini. Pour
la construction des arbres, nous vous demandons de choisir aléatoirement les variables à chaque
embranchement (veuillez-vous même choisir aléatoirement les variables – comme faire un pile
ou face pour savoir quelles seront les variables retenues). Après la construction de la forêt
aléatoire, veuillez calculer le taux moyen d’erreur OOB grâce aux fichiers EXCEL sur Zone-Cours.
Enfin, pour Marc-André, un jeune homme montréalais de 26 ayant 6 produits à son actif et des
dépenses de 250 $ pour un revenu annuel de 64 000 $, veuillez déterminer son niveau de fidélité
avec l’organisation. Veuillez expliquer chacune de vos étapes pour la construction et la prédiction
de Marc-André.
Notes : Pour la construction des arbres avec les variables continues, nous vous demandons
d’utiliser la méthode de point de coupure avec la moyenne (comme dans l’exercice 1a avec la
médiane.
Problème 2 : À FAIRE AVEC LE LOGICIEL R
Toujours scientifique au sein de cette compagnie, vous vous attaquez maintenant au site internet
en voulant comprendre qui sont les personnes qui vont effectuer une transaction sur le site de
Traveligo. Pour cela, vous possédez la table de données suivante « 30636 Devoir Final - Données
problème 2.csv ».
Voici une description des colonnes qui s’y trouvent :
"Administrative" (« Administratif » en français), "Administrative Duration" (« Durée
administrative »), "Informational" (« Information »), "Informational Duration" (« Durée
d'information »), "Product Related" (« Lié au produit ») et "Product Related Duration" (« Durée
liée au produit ») représentent le nombre de différents types de pages visitées par le visiteur au
cours de cette session et le temps total passé dans chacune de ces catégories de page. Les valeurs
MATH 30636
Examen final – Automne 2020
Téléchargé par abd sd (aboudsidi48@gmail.com)
Page 4 sur 7
lOMoARcPSD|13814648
de ces fonctionnalités sont dérivées des informations URL des pages visitées par l'utilisateur et
mises à jour en temps réel lorsqu'un utilisateur effectue une action, par ex. passer d'une page à
une autre. Les fonctionnalités ‘’Bounce Rate’’ (« Taux de rebond » en français), "Exit Rate"
(« Taux de sortie ») et "Page Value" (« Valeur de la page ») représentent les statistiques mesurées
par "Google Analytics" pour chaque page du site de commerce électronique. La valeur de la
fonctionnalité « Taux de rebond » pour une page Web fait référence au pourcentage de visiteurs
qui accèdent au site à partir de cette page, puis la quittent (« rebond ») sans déclencher d'autres
demandes au serveur d'analyse au cours de cette session. La valeur de la fonctionnalité « Taux
de sortie » pour une page Web spécifique est calculée comme pour toutes les pages vues de la
page, le pourcentage qui était le dernier dans la session. La fonctionnalité « Valeur de la page »
représente la valeur moyenne d'une page Web visitée par un utilisateur avant d'effectuer une
transaction de commerce électronique. La fonction "Special Day" (« Jour spécial ») indique la
proximité de l'heure de visite du site par rapport à un jour spécial spécifique (par exemple, la fête
des Mères, la Saint-Valentin) au cours duquel les sessions sont plus susceptibles d'être finalisées
avec une transaction. La valeur de cet attribut est déterminée en considérant la dynamique du
commerce électronique telle que la durée entre la date de commande et la date de livraison. Par
exemple, pour le jour de Valentina, cette valeur prend une valeur différente de zéro entre le 2
février et le 12 février, zéro avant et après cette date sauf si elle est proche d'un autre jour spécial,
et sa valeur maximale de 1 le 8 février. L'ensemble de données comprend également le
fonctionnement système, navigateur, région, type de trafic, type de visiteur en tant que visiteur
de retour ou nouveau visiteur, une valeur booléenne indiquant si la date de la visite est le weekend et le mois de l'année. Enfin, la variable "REVENU" indique si la personne a bien effectué un
achat à travers le site internet.
a) Dans un premier temps, pouvez-vous sortir une description statistique de chacune des
variables contenues dans le jeu de données?
b) Pouvez-vous déterminer quel est le taux naturel d’erreur pour ce problème en vous
basant sur la variable REVENU comme variable cible.
Maintenant, nous vous demandons de construire un modèle forêt aléatoire, de boosting
et bagging pour comprendre et prédire la variable REVENU. Pour tous les modèles, la
méthode qui devra être utilisée est la méthode entropie et les arbres devront avoir une
profondeur maximale de 5 et un nombre minimal d’observations de 50 pour tous nœuds
terminaux. Pour chacun des types de modèles, nous vous demandons de tester entre
50, 100 et 150 arbres. Vous allez donc construire un total de 9 modèles.
MATH 30636
Examen final – Automne 2020
Téléchargé par abd sd (aboudsidi48@gmail.com)
Page 5 sur 7
lOMoARcPSD|13814648
c) Pour chaque type de modèle (boosting, bagging, forêt aléatoire), veuillez choisir quel est
le modèle le plus performant en vous basant sur le taux de mauvaise classification.
d) Est-ce que ces trois modèles choisis possèdent du surapprentissage? Justifiez entre 3 et 5
lignes votre réponse. Dans le cas où des modèles auraient du surapprentissage, nous vous
demandons de rechoisir un autre modèle en modifiant les hyperparamètres à votre guise.
e) Est-ce que ces 3 modèles possèdent les mêmes 5 premières variables explicatives? Et
intuitivement, est-ce que cela fait du sens que la première variable explicative de chaque
modèle aide à prédire la variable REVENU? Justifiez entre 3 et 5 lignes votre réponse.
f) Maintenant, veuillez choisir le meilleur modèle parmi les 3 modèles choisis en vous basant
sur la sensibilité. Veuillez écrire bien écrire la commande vous permettant de calculer la
sensibilité.
g) Pour cette dernière question, nous vous demandons de calculer la sensibilité du meilleur
modèle en vous basant sur deux points de coupure. En effet, nous aimerions savoir s’il
serait possible de calculer la sensibilité du modèle avec un point de coupure de 0.47 et
une autre sensibilité avec un point de coupure de 0.53. En ayant comme référence la
question précédente, quel est le meilleur modèle que vous comptez retenir.
MATH 30636
Examen final – Automne 2020
Téléchargé par abd sd (aboudsidi48@gmail.com)
Page 6 sur 7
lOMoARcPSD|13814648
PARTIE 3 : Application du concept des réseaux de neurones
Toujours étant scientifique de données pour la même compagnie, l’organisation vous demande
d’être dans les discussions en ce qui concerne les différentes stratégies d’acquisition. En effet,
vous avez produit un modèle de réseau de neurones afin de prédire si une personne à une forte
propension de devenir un client fidèle ou pas. Vous avez décidé de faire un réseau de neurones
comprenant une couche d’entrée, une couche cachée qui elle contient deux neurones puis une
couche de sortie.
Nombre d’années
Nombre de cartes de
Nom
Taille
Nombre d’enfants
d’expérience
crédit
Claire
5.7
0
5
1
Marc
5.9
2
4
1
Sébastien
6.2
1
6
3
a) Veuillez représenter graphiquement l’architecture du réseau de neurones.
b) Un de vos collègues de travail vous demande pourquoi avoir utilisé dans ce modèle une
fonction logistique et non linéaire. Veuillez argumenter en quelques lignes sur pourquoi
la fonction d’activation logistique et la plus appropriée pour ce genre de problème.
c) Afin de donner une probabilité pour chacune de nos personnes, nous utilisons les poids
suivants :
Couche d’entrée vers la couche cachée
Nombre d’années Nombre de cartes de
d’expérience
crédit
Taille
Nombre d’enfants
1er neurone
-0.2
0.55
0.2
-0.02
2e neurone
0.15
0.75
-0.1
0.4
Couche cachée vers la couche de sortie
1er neurone
-0.21
2e neurone
0.27
En prenant une fonction d’activation logistique et un point de coupure de 50 % (0.5), veuillez
donner pour Claire, Marc et Sébastien une prédiction si oui ou non la personne deviendra
membre de l’organisation. En ce qui concerne l’explication des calculs, veuillez seulement ceux
en rapport à la prédiction de Claire.
MATH 30636
Examen final – Automne 2020
Téléchargé par abd sd (aboudsidi48@gmail.com)
Page 7 sur 7
Download