כריית מידע – רגרסיה Regression ד"ר אבי רוזנפלד שימושי רגרסיה .1ניבוי .Aיש אוסף של נתונים ואנחנו רוצים להבין מה יהיה בעתיד .Bדוגמא :רגרסיה לינארית (עשייתם כבר) .2סיווג .1יש אוסף של נתונים ואנחנו רוצים לקטלג אותם .1 .2 .3 גם אפשר רגרסיה לינארית )Support Vector Machine( SVM Logistic Regression .2נושא של ההרצאה היום Regression רגרסיה לינארית למען ניבוי Dependent variable )Independent variable (x .1יש לך אוסף של נתונים .2מכניסים קו שהוא מצמצם איזשהו מדד של טעות .3אם הצלחנו ,זה כלי טוב לניבוי דוגמא ?מה מנסים לצמצם Which Objective Function? )Least Absolute Error( • טעות מוחלט )Least Square Error( • טעות בריבוע Nonlinear Regression רגרסיה לא לינארית Nonlinear functions can also be fit as regressions. Common choices include Power, Logarithmic, Exponential, and Logistic, but any continuous function can be used. רגרסיה למען סיווג – עץ החלטות מודל פשוט יותר --רגרסיה הבעיה– לא תמיד ברור איפה לחתוך SVM הרעיון הכללי– למקסם רווח בין הקטגוריות הגדרת הפתרון • קיים :אוסף של נתונים ש Xהוא הוקטור של מאפיינים ו Yהם הקטגוריות במצב אידיאלי אנחנו רוצים: לפי ההגדות... אבל המציאות לא תמיד נותן... • יש צורך להקטין את ה ,HINGE LOSSאו המופעים שהם בצד ה"לא נכון" • HINGE LOSSהוא רק פונקציה אחת של LOSS Linear SVM Mathematically Goal: 1) Correctly classify all training data wxi b 1 if yi = +1 if yi = -1 wxi b 1 yi (wxi b) 1 for all i 2 M 2) Maximize the Margin 1 t w same as minimize ww 2 We can formulate a Quadratic Optimization Problem and solve for w and b 1 t Minimize ( w) w w 2 subject to yi (wxi b) 1 i Solving the Optimization Problem Find w and b such that Φ(w) =½ wTw is minimized; and for all {(xi ,yi)}: yi (wTxi + b) ≥ 1 Need to optimize a quadratic function subject to linear constraints. Quadratic optimization problems are a well-known class of mathematical programming problems, and many (rather intricate) algorithms exist for solving them. The solution involves constructing a dual problem where a Lagrange multiplier αi is associated with every constraint in the primary problem: Find α1…αN such that Q(α) =Σαi - ½ΣΣαiαjyiyjxiTxj is maximized and (1) Σαiyi = 0 (2) αi ≥ 0 for all αi שיפורים נוספים • שימוש בפונקציה לא לינארית ()Kernel Trick – פולינומים – GAUSIAN – ועוד... רגרסיה הסתברותית נתחיל בפונקציה LOGIT • • • • • בנוי מההסברות שמופע קיים בתוך הקטגוריה בהינתן כל המאיינים שלו יש שוב את הצורך למקסם את הפונקציה )Log Likelihood (Log Odds נגדל מאוד איטי! איך הופכים הסתברויות לקטגוריות • שימו לב ש LOGISTIC REGRESSIONמוציא בתור פלט קטגוריות (ולא מספרים) • LOGITמוציא בתוך פלט מספר (בין 7-ל)7 • פתרון :לתרגם את המספרים ל log-oddsדרך פונקציה הפוכה = Logistic Function רגרסיה הסתברותית Logistic Regression הסתברותיOBJECTIVE FUNCTION• שימוש ב )logistic( אומר הסתברות גבוה-1 ו1• מקטלג קרוב ל is the intercept where f(x)=0 controls the graph shape מטרת הרגרסיה :למקסם הTRAINING DATA • אם יש mמאפיינים יש הרבה רכיבים בתוך הפונקציה: • ש • שוב יש צורך לקבוע את המשקולות של מהאפיינים השונים (ה)β הבדלים בדיוק בין מודלים הבדלים עקרוניים בין המודלים • • • • • עצים בנויים אינקרמנטליים– שלב שלב רגרסיה בונה משקל לכל פרמטר בו זמנית רגרסיה מחלקת רק לפי צורת הפונקציה (לינארית, ,LOGISTICוכו') .עצים יותר גמישים. יש יותר משמעות לפלט של העץ (הרופאים ורוב לקוחות מעדיפים אותם) יכול להיות שיש דיוק יותר טוב לרגרסיה הפלט של רגרסיה הפלט של עצים שינויים בין המודלים ברגרסיה – לא תמיד חלוקה לינארית