3. ריגרסייה (regression)

advertisement
‫כריית מידע – רגרסיה‬
‫‪Regression‬‬
‫ד"ר אבי רוזנפלד‬
‫שימושי רגרסיה‬
‫‪ .1‬ניבוי‬
‫‪ .A‬יש אוסף של נתונים ואנחנו רוצים להבין מה יהיה בעתיד‬
‫‪ .B‬דוגמא‪ :‬רגרסיה לינארית (עשייתם כבר)‬
‫‪ .2‬סיווג‬
‫‪ .1‬יש אוסף של נתונים ואנחנו רוצים לקטלג אותם‬
‫‪.1‬‬
‫‪.2‬‬
‫‪.3‬‬
‫גם אפשר רגרסיה לינארית‬
‫‪)Support Vector Machine( SVM‬‬
‫‪Logistic Regression‬‬
‫‪ .2‬נושא של ההרצאה היום ‪‬‬
‫‪Regression‬‬
‫רגרסיה לינארית למען ניבוי‬
‫‪Dependent variable‬‬
‫)‪Independent variable (x‬‬
‫‪ .1‬יש לך אוסף של נתונים‬
‫‪ .2‬מכניסים קו שהוא מצמצם איזשהו מדד של טעות‬
‫‪ .3‬אם הצלחנו‪ ,‬זה כלי טוב לניבוי‬
‫דוגמא‬
?‫מה מנסים לצמצם‬
Which Objective Function?
)Least Absolute Error( ‫• טעות מוחלט‬
)Least Square Error( ‫• טעות בריבוע‬
Nonlinear Regression
‫רגרסיה לא לינארית‬
Nonlinear functions can also be fit as regressions. Common choices
include Power, Logarithmic, Exponential, and Logistic, but any
continuous function can be used.
‫רגרסיה למען סיווג – עץ החלטות‬
‫מודל פשוט יותר ‪ --‬רגרסיה‬
‫הבעיה– לא תמיד ברור איפה לחתוך‬
‫‪SVM‬‬
‫הרעיון הכללי– למקסם רווח בין הקטגוריות‬
‫הגדרת הפתרון‬
‫• קיים‪ :‬אוסף של נתונים‬
‫ש ‪ X‬הוא הוקטור של מאפיינים ו‪ Y‬הם הקטגוריות‬
‫במצב אידיאלי אנחנו רוצים‪:‬‬
‫לפי ההגדות‪...‬‬
‫אבל המציאות לא תמיד נותן‪...‬‬
‫• יש צורך להקטין את ה‪ ,HINGE LOSS‬או המופעים‬
‫שהם בצד ה"לא נכון"‬
‫• ‪ HINGE LOSS‬הוא רק פונקציה אחת של ‪LOSS‬‬
Linear SVM Mathematically

Goal: 1) Correctly classify all training data
wxi  b  1 if yi = +1
if yi = -1
wxi  b  1
yi (wxi  b)  1 for all i
2
M
2) Maximize the Margin
1 t w
same as minimize
ww
2

We can formulate a Quadratic Optimization Problem and solve for w and b

1 t
Minimize  ( w)  w w
2
subject to
yi (wxi  b)  1
i
Solving the Optimization Problem



Find w and b such that
Φ(w) =½ wTw is minimized;
and for all {(xi ,yi)}: yi (wTxi + b) ≥ 1
Need to optimize a quadratic function subject to linear constraints.
Quadratic optimization problems are a well-known class of mathematical
programming problems, and many (rather intricate) algorithms exist for
solving them.
The solution involves constructing a dual problem where a Lagrange
multiplier αi is associated with every constraint in the primary problem:
Find α1…αN such that
Q(α) =Σαi - ½ΣΣαiαjyiyjxiTxj is maximized and
(1) Σαiyi = 0
(2) αi ≥ 0 for all αi
‫שיפורים נוספים‬
‫• שימוש בפונקציה לא לינארית (‪)Kernel Trick‬‬
‫– פולינומים‬
‫– ‪GAUSIAN‬‬
‫– ועוד‪...‬‬
‫רגרסיה הסתברותית‬
‫נתחיל בפונקציה ‪LOGIT‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫בנוי מההסברות שמופע קיים בתוך הקטגוריה‬
‫בהינתן כל המאיינים שלו‬
‫יש שוב את הצורך למקסם את הפונקציה‬
‫)‪Log Likelihood (Log Odds‬‬
‫נגדל מאוד איטי!‬
‫איך הופכים הסתברויות לקטגוריות‬
‫• שימו לב ש‪ LOGISTIC REGRESSION‬מוציא בתור‬
‫פלט קטגוריות (ולא מספרים)‬
‫• ‪ LOGIT‬מוציא בתוך פלט מספר (בין ‪ 7-‬ל‪)7‬‬
‫• פתרון‪ :‬לתרגם את המספרים ל‪ log-odds‬דרך‬
‫פונקציה הפוכה = ‪Logistic Function‬‬
‫רגרסיה הסתברותית‬
Logistic Regression
‫ הסתברותי‬OBJECTIVE FUNCTION‫• שימוש ב‬
)logistic(
‫ אומר הסתברות גבוה‬-1‫ ו‬1‫• מקטלג קרוב ל‬
is the intercept where f(x)=0
controls the graph shape
‫מטרת הרגרסיה‪ :‬למקסם ה‪TRAINING DATA‬‬
‫• אם יש ‪ m‬מאפיינים יש הרבה רכיבים בתוך‬
‫הפונקציה‪:‬‬
‫• ש‬
‫• שוב יש צורך לקבוע את המשקולות של מהאפיינים‬
‫השונים (ה‪)β‬‬
‫הבדלים בדיוק בין מודלים‬
‫הבדלים עקרוניים בין המודלים‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫עצים בנויים אינקרמנטליים– שלב שלב‬
‫רגרסיה בונה משקל לכל פרמטר בו זמנית‬
‫רגרסיה מחלקת רק לפי צורת הפונקציה (לינארית‪,‬‬
‫‪ ,LOGISTIC‬וכו')‪ .‬עצים יותר גמישים‪.‬‬
‫יש יותר משמעות לפלט של העץ (הרופאים ורוב‬
‫לקוחות מעדיפים אותם)‬
‫יכול להיות שיש דיוק יותר טוב לרגרסיה‬
‫הפלט של רגרסיה‬
‫הפלט של עצים‬
‫שינויים בין המודלים ברגרסיה –‬
‫לא תמיד חלוקה לינארית‬
Download