INF701 Künstliche Intelligenz, W42 Übung, 04.11.2020 Blatt 2: Regression (10 Punkte) Carsten Gips (FH Bielefeld), Canan Yıldız (TDU) 1 Gradientenabstieg (4 Punkte) Es sind folgende Trainingsdaten gegeben: (x(1) , y (1) ) = (1, 1), (x(2) , y (2) ) = (2, 1), (x(3) , y (3) ) = (3, 2) Es soll das Lineare Regressionsmodell h(x) = w0 + w1 x mit diesen Daten trainiert werden, wobei die zu minimierende Kostenfunktion wie folgt gegeben ist (Durchschnittliche Summe der Fehlerquadrate): m J(w) = 1 X (h(x(j) ) − y (j) )2 2m j=1 a) Geben Sie n und m an und schreiben Sie die Kostenfunktion für die gegebenen Datenpunkte explizit auf. Berechnen Sie den Gradientenvektor ∇J. b) Seien die Gewichte in einem Iterationsschritt w0 = 1, w1 = 1. Führen Sie für die Lernraten α = 0.01, α = 0.1 und α = 1, jeweils fünf aufeinanderfolgende Iterationen des Gradientenabstieg (Gradient Descent) Algorithmus durch. Nehmen Sie das Geogebra Arbeitsblatt Gradientenabstieg zu Hilfe. Erstellen Sie eine Tabelle mit den Spalten w0 , w1 , J(w), ∇J(w), α · ∇J(w) und notieren Sie die zugehörigen Werte für jede Iteration. c) Beschreiben Sie die Bedeutung des Gradientenvektors ∇J und erklären Sie, wie die Gewichtsaktualisierungen durchgeführt werden. Geben Sie die Formel für die Gewichtsaktualisierung an. d) Wie verändern sich die Kosten während des Gradientenabstieges für die unterschiedlichen Lernraten? Begründen Sie dieses Verhalten. Thema: Verständnis und Ablauf Gradientenabstieg und Lernrate 2 Logistische Regression und Entscheidungsgrenze (3 Punkte) Gegeben ist das logistische Regressionsmodell h(x) = σ(w0 + w1 x1 + w2 x2 + w3 x21 + w4 x22 ) mit w = (−1, 0, 0, 1, 1). a) Zeichnen Sie die Entscheidungsgrenze und markieren Sie den Bereich, der mit +1 klassifiziert wird. b) Werten Sie die Hypothesenfunktion h(x) für die Punkte (0, 0), (1, 1) und (1, 2) aus. Erklären Sie das Ergebnis und geben Sie an, wie diese Punkte klassifiziert werden? Zeichnen Sie die Punkte in Ihrer Graphik ein. Thema: Verständnis Interpretation Logistische Regression (Nichtlineare Entscheidungsgrenze) 3 Merkmal Skalierung (3 Punkte) Abbildung 1 und Abbildung 2 zeigen die Höhenlinien (Contour Lines) von zwei Kostenfunktionen (Quelle). a) Erklären Sie, welcher der beiden Fälle nachteilhaft für den Gradientenabstieg Algorithmus ist. Wo liegt der Nachteil? Wie kann die Merkmalskalierung dem genannten Nachteil entgegenwirken? b) Zeigen Sie unter Verwendung der Merkmale NOX und TAX des Boston-Hauspreis-Datensatzes der sklearnBibliothek, wie sich Standardisierung, Min-Max Skalierung und Normalisierung auf die Daten auswirken. Vergleichen Sie dazu die jeweiligen Streudiagramme (scatterplots). Sie können hierzu das beigefügte Jupyter Notebook als Startpunkt benutzen. Thema: Verständnis Merkmalskalierung und Gradientenabstieg INF710 - Künstliche Intelligenz, W42 – Blatt 1 Abbildung 1: J(w1 , w2 ) = w12 + w22 Abbildung 2: J(w1 , w2 ) = w12 + 30w22 2