הטכניון -מכון טכנולוגי לישראל הפקולטה למדעי המחשב דו"ח סיכום פרויקט אילו תכונות ניתן ללמוד מתמונות פנים? מבצע: יוני קרן Yoni Keren מרצה: שאול מרקוביץ מתרגל: יותם אשל Shaul Markovic Yotam Eshel סמסטר רישום :אביב תשע"ז תאריך הגשה :נובמבר2018 , תוכן עניינים 1מבוא 1.1 1 .............................................................................................................................................. הקדמה 1 .............................................................................................................................................. 2עבודות קודמות 2 .......................................................................................................................................... 3האלגוריתם 3 ............................. ................................ ................................ ................................ 3.1 הקדמה-מקורות למידה 3 ....................................................................................................................... 3.2 למידה עמוקה 3 ..................................................................................................................................... 3.2.1 4 ................................................................................................ Convolution Neural Network 3.2.2 4 ................................................................................................................................... Resnet 3.3 5 ...........................................................................................Multi-Task Learning/Transfer Learning 3.4 למידה עם תיוגים חלקיים 6 .................................................................................................................... 4מאגר המידע 7 .............................................................................................................................................. 4.1 כריית המידע 7 ...................................................................................................................................... 4.2 ניקוי (פילטור) המידע 7 .......................................................................................................................... 4.3 נתונים טכניים על המאגר 8 .................................................................................................................... 4.4 התפלגות המידע 9 ................................................................................................................................. 4.5 4.4.1 לפי גילאים 9 .......................................................................................................................... 4.4.2 לפי נטיה מינית 10 ............................................................................................................. 4.4.3 לפי מבנה גוף 10 .................................................................................................................. 4.4.4 לפי מוצא אתני 12 ............................................................................................................. 4.4.5 לפי רמת השכלה 13 ......................................................................................................... חלוקת ה Datasetל15 .................................................................................... Training,Validation,Test 5ניסויים מעניינים וכושלים 16 .......................................................................................................................... 5.1 אימון תוך כפיית תדירות השנתונים בהתאם ל datasetעליו נבחנים 16 ...................................................... 5.2 התחשבות ברזולוציה ע"י מנגנון 17 ........................................................................................ attention 6אימון הרשת 18 ............................................................................................................................................ 6.1 Random Searchלעומת 18 ............................................................................................... Grid Search 6.2 ניסויים טכניים-מציאת hyper-parametersמתאימים 19 ........................................................................... 6.3 פרטים טכניים-בחירת הרשת ואימון הרשת 21 ........................................................................................ 7ניסויים עקרוניים-תכונות 22 ........................................................................................................................... 7.1 נטיה מינית 22 ....................................................................................................................................... 7.1.1 הביצוע האנושי בקטגוריה זו (22 ................................. )Human performance 7.1.2 ניסוי נאיבי ראשון -אימון על כל ה23 ............................ Training Set 7.1.3 ניסוי שני -אימון על Datasetשאינו 23 .............................................................. Biased 7.1.4 ניסוי שלישי-מדידת המסווג באותה שיטה כמו המאמר 24 7.2 7.1.5 ניסוי רביעי-סיווג לפי מספר תמונות לאדם 27 ................................ 7.1.6 ניסוי חמישי-שימוש ב29 ............................................. Selective Classification מבנה גוף32 ................................................................................................................................. \BMI 7.2.1 ניסוי ראשון-סיווג לפי מבנה גוף 32 .............................................................. 7.2.2 ניסוי שני :סיווג ללא מבנה גוף ממוצע 34 ............................................. 7.2.3 7.3 7.4 הגדרת 35 ........................................................................................................................... BMI 7.2.4 סיכום העבודה הקודמת בנושא 36 ................................................................ 7.2.5 המשך עבודה על ה36 ................................................................... Face to BMI Dataset 7.2.6 סיווג לפי הקטגוריות הרפואיות 38 ............................................................... 7.2.7 השוואה לביצוע האנושי 39 ..................................................................................... 7.2.8 השוואה לביצוע האנושי והתוצאות של העבודה הקודמת 39 מוצא אתני 43 ........................................................................................................................................ 7.3.1 עבודות קודמות 43 ........................................................................................................... 7.3.2 ניסוי ראשון-מסווג נאיבי 43 ................................................................................. מזלות49 ............................................................................................................................................... 7.4.1 7.5 ניסוי-מסווג נאיבי 49 ..................................................................................................... אינטלגנציה\השכלה 50 .......................................................................................................................... 7.5.1 עבודות קודמות 50 ........................................................................................................... 7.5.2 ניסויים-שיערוך רמת האינטלגנציה באמצעות רמת ההשכלה 50 7.5.3 התוצאות על המסווג הנאיבי50 ............................................................…………. 7.5.4 ניסוי שני-האם ישנו אות משמעותי? 51 ................................................... 8תוצאות-סיכום 54 .......................................................................................................................................... 8.1 השוואה ל Microsoftו54 .......................................................................................................... Amazon 8.2 הערה קטנה 55 ..................................................................................................................................... 9עבודות המשך אפשריות56 ........................................................................................................................... רשימת מקורות 57 תקציר בפרוייקט זה נשאל אילו תכונות ניתן ללמוד מתמונות פנים. במהלך הפרוייקט: .1יצרתי Datasetמתוייג הרבה יותר גדול מ( ImageNetמבחינת מספר התמונות). .2למדתי מספר דברים על למידה מעבר לחומר הקורס .3בחנתי אילו תכונות,נכון להיום,ניתן ללמוד מתמונות פנים בלבד .4העליתי את הרשת שאימנתי לענןhow-look.com - 1מבוא 1.1הקדמה נושא שמעניין אותי הוא -מה אפשר לומר על אדם בהינתן תמונה שלו? עיניין זה הוביל אותי לכאן. הרבה עבודות בפרוייקט בבינה מלאכותית לוקחות איזהשהוא אובייקט (למשל שחקן נ.ב.א) ומנסות לחזות דבר מה (למשל מספר הנקודות למשחק שהוא יקלע בעונה הבאה) ואז שואלות-מאילו תכונות נוכל ללמוד? למשל,הממוצע בעונה קודמת,תפקיד,גיל וכו' וכו'. עבודה זו יחודית מהבחינה הזו שהכיוון בעיקרון הוא הפוך-אני שואל אילו תכונות ניתן ללמוד! היא גם יחודית הן התכונות שהיא בוחנת,שנבדקו מעט או בכלל לא- נטיה מינית,רמת השכלה/אינטלגנציה,מזל,מוצא אתני ומבנה גוף והן בגלל כמות המידע שהיתה ברשותי. למעשה,זו התמונה שעמדה לנגד עיניי: איור -1ביצועים כפונקציה של גודל המידע (אציין שבהנתן מודל ספציפי כמות המידע יכולה לשפר רק את שגיאת ה Varianceאך הגרף נכון מכיוון שלמידה עמוקה היא משפחה של מודלים) ולכן גם אם ניסיתי לחדש מבחינה אלגוריתמית (ראה את הפרק ניסויים מעניינים וכושלים) נקטתי בעבודה זו בשיטת " "Brute Forceע"י כך שהשגתי מידע בסדר גודל חסר תקדים (לפי מיטב ידיעתי). 2עבודות קודמות עבודה זו כתובה במעין "מיני מאמרים" (ראה פרק 7ניסויים עקרוניים-תכונות). לנוחיות הקורא ,בחרתי לתת פרטים רלוונטיים נוספים על העבודות הקודמות כאשר אכתוב על הנושאים המתאימים (למשל,לציין עבודות קודמות על הערכת BMIכאשר אכתוב על הנושא) במקום לחזור על עצמי או שהקורא יצטרך לדפדף בחזרה לפה. 3האלגוריתם בפרק זה אתן הסבר קצר ותמציתי על הדברים העיקריים שלמדתי בנוסף לקורס "מבוא לבינה מלאכותית" שחשובים להבנת עבודה זו .אם המונחים שמופיעים בראשי הפרקים המוזכרים אינם זרים לך,הרגש/י חופשי/ה לדלג על פרק זה לחלוטין. 3.1הקדמה-מקורות למידה ישנם הרבה מקורות גרועים ללמידה באינטרנט נכון להיום בנושאים אלו-אז חשוב לי לציין את המקורות מהם למדתי,למקרה שיהיה מישהו שקורא עבודה זו ומעוניין להעמיק בלמידה על למידה: -Machine Learning-Coursera(Andrew Ng) .1קורס פחות מתמטי וקליל(לקח לי 3ימים) אבל נותן אינטואיציות שמרצים אחרים לא נותנים (יש למרצה ידע תיאורטי ופרקטי נרחב במיוחד) -Stanford’s CS229 .2קורס מתמטי מאוד ועמוק על למידה בסיסית -עוזר להעמיק את ההבנה Stanford’s CS231N .3קורס שסטנפורד פירסמו בו את כל ההרצאות וגם שיעורי בית (הם לקחו לי בערך חודש לעשות,אבל הם תורמים המון להבנה הבסיסית של מספר נושאים חשובים) -Deep Learning-Answer Ng(Coursera) .4קורסים קלילים במיוחד ,אבל יש בהם נושאים פרקטיים שלא נתקלתי בהם בקורסים באקדמיה ועזרו לי מאוד (למשל תכנון ובדיקת מודלים.)Multi-tasking, 3.2למידה עמוקה למידה עמוקה זהו שם "סקסי" עבור התקשורת לרשת ניורונים בעלת יותר משכבה אחת בין הכניסה ליציאה. זהו,אין בזה שום דבר מיסטי או קשה. רשת ניורונים זהו פשוט אלגוריתם למידה (כמו שעץ או knnהם אלגוריתמי למידה שנלמדו בכיתה) שמקבל תשומת לב גדולה (ולדעת רבים וטובים אולי יתרה) מכיוון שזהו אלגוריתם שטוב בלמידה על unstructured data (דוגמאות למידע שכזה-תמונה,וידאו,קטע אודיו) .זהו אלגוריתם (טכנית,משפחה של אלגוריתמים) איננו מסובך בכלל -קישור להסבר טוב. Convolution Neural Network 1.2.3 או בקצרה CNNהיא קבוצה של אלגוריתמי למידה (תת קבוצה של "רשתות ניורונים") בעלת אריכטקטורה שמתחשבת במבנה הפיזי של התמונה (במיקום של הפיקסלים-ליתר דיוק ולמי שלמד ראיה ממוחשבת-מדובר פשוט במספר מסננים (או בעברית קרנלים) בכל שכבה שמשקליהם נלמדים באופן אוטומטי,כאשר כמובן ישנה פונקציית אקטיבציה לא לינארית בין שכבה לשכבה [אחרת מספר שכבות קונבולוציה שקולות לשכבה אחת]). Resnet 1.2.2 היא קבוצת אלגוריתמי למידה -בעיקרון תת קבוצה של "רשתות ניורונים",שלראשונה נוצלה ב 2015על מנת לזכות בתחרות .Imagenet איור -2הרעיון הבסיסי של Resnet הרעיון הבסיסי הוא-החוקרים ( )Microsoft Asiaגילו שמנקודה מסויימת,ככל שמוסיפים שכבות לרשת,הביצועים יורדים .אבל זה לא היה קורה אם במקום השכבות הנוספות היינו שמים את פונקציית הזהות. ה Skip connectionשמוצג באיור לעיל נועד לכך שבמידת הצורך עבור כל שכבה פונקציית הזהות תוכל להלמד יותר בקלות,ואכן בכנס (זמין ב )Youtubeובמאמר הם הראו אמפירית שבארכיטקטורה זו באופן כללי הביצועים הם פונקצייה מונוטונית לא יורדת של מספר השכבות. כאשר אזכיר במהלך העבודה Resnetומספר,למשל ,Resnet18הכוונה היא לרשת קונבולוציה שהבלוקים הבסיסיים שלה הם עם Skip connectionומספר השכבות הכולל של הרשת הוא .18 Multi-Task Learning/Transfer Learning 3.3 ארחיב מהם ומתי (לפי מיטב הבנתי) להשתמש בכל אחד מהם: :Transfer Learningהעברת ה"ידע" שנלמד ממשימה אחת למשימה אחרת. נניח שאימנת רשת שמזהה חתולים (מוציאה הסתברויות למצבים ,1 0כאשר המצבים 1 0הם "אין חתול בתמונה,ו"יש רק חתול בתמונה" בהתאמה)[לצורך הפשטות נניח שלא יתכן יותר מבע"ח אחד ב datasetשלנו וגם לא במטרה שלשמה המערכת מאומנת],ועכשיו עליך לאמן רשת שמזהה פינגווינים .אם מספר הדוגמאות של תמונות של חתולים גדול מאוד יחסית למספר התמונות בהם יש פינגווינים (ונניח שמספר זה הוא מצומצם מספיק כך שאי אפשר לאמן רשת רק על פינגווינים ולקבל תוצאות טובות)-אז זהו מצב קלאסי ל :Transfer Learningפשוט עליך לקחת את הרשת שאומנה על חתולים,ולאמן אותה לזהות פינגווינים (במקום להגריל משקלים לרשת זיהוי הפינגווינים,פשוט להחליף חלק מהשכבות האחרונות ברשת שאומנה על חתולים ולאמן רק אותן,או לאמן עם קצב למידה נמוך עבור השכבות הראשונות). מדוע זה עובד? מכיוון שהקלט דומה(תמונה של בע"ח או שלא),וגם חלק מהמאפיינים דומים(מאפיינים של בע"ח- עיניים וכדומה -בפועל מדובר במאפיינים אבסטרקטיים אשר בד"כ איננו יכולים להבינם) כל שאנו מצפים שהמאפיינים שנלמדו בשכבות הראשונות יהיו דומים עבור שתי המשימות. יש להשתמש בכלי זה כאשר ישנה משימה עם פחות דוגמאות בהרבה ממשימות אחרות שמהן נעביר את הידע. :Multi-Task Learningלמידה של מספר משימות במקביל .בדוגמא האחרונה,אם יש לך מספיק זמן לאימון,ומספר התמונות של פינגווינים הוא דומה למספר התמונות של חתולים,תוכל ללמוד גם את משימת הפינגווינים וגם את משימת החתולים ביחד. יש להשתמש בכלי זה כאשר ישנן מספר משימות דומות עם מספר דוגמאות דומה לכל משימההחלק שעיניין אותי במיוחד-העובדה שאם הרשת רחבה דיה ,אימון על מספר משימות במקביל באופן כללי משפר (או לא מפחית) את ביצועי הרשת,לעומת רשת שאומנה רק עבור משימה ספציפית אחת! ][1 3.3למידה עם תיוגים חלקיים הרכבתי את מאגר המידע ממספר מקורות,כאשר למספר אתרים לא היו חלק מהתיוגים (למשל,ככל שידוע לי,באופן כללי ארה"ב לא מפרסמת את הנטיה המינית של העצורים). מכיוון שיש ברשותי כמות גדולה של תמונות עם תיוגים חלקיים,היה עליי להתחשב בכך: איור multi task Learning-3 נניח שעבור בעיית הלמידה יש לנו 3תיוגים אפשריים (מגדר,נטיה מינית,מבנה גוף) עבור שלוש משימות,אבל בפועל עבור תמונה ספציפית יש לנו רק 2תיוגים (מגדר ומבנה גוף),למשל התיוגים עבור התמונה יכולים להיות (זכר,???,אתלטי),כאשר ??? מסמן תיוג חסר .זהו מצב שכאמור נתקלתי בו הרבה. כל מה שעלינו לעשות הוא לאפס את ה Lossעבור המשימה שאין לנו עבורה תיוג (טכנית,גם כל קבוע יעבוד- הגרדיאנט עבור המשימה יהיה -.)...0כלומר "להתעלם" מהמשימה עליה אין לנו תיוג (במקרה זה נטיה מינית),אבל ללמוד את שאר המשימות "כרגיל" .בצורה כזו הרשת תוכל ללמוד משאר המשימות. 3מאגר המידע 3.1כריית המידע בפרק זה אפרט (עד כמה שאני יכול) על יצירת מאגר המידע. כריתי מידע ממספר אתרים גדולים,שיש בהם קונספט של פרופיל ,כלומר,קיים אדם אחד עבור כל פרופיל ,ומספר תמונות עבור כל פרופיל שכזה .מספר דוגמאות לאתרים בהם יש קונספט של פרופיל (לא בהכרח כריתי מאף אחד מהם).Facebook,Twitter,Instagram,OKCupid,Twitter,Linkedin- לכל אתר יש את ה biasשלו,למשל כאמור עבור מספר אתרים מארה"ב בהם מופיעים תמונות של עצירים,יופיעו בעיקר גברים וגם ההתפלגות האתנית מאוד נטויה (.)biased לכן במהלך כריית המידע השתדלתי לקחת אתרים "משלימים" במידת האפשר .לדוגמא,כאשר לקחתי תמונות מאתר היכרויות ,מכיוון שהגילאים באתר ההיכרויות הם מגיל 18ומעלה ,מצאתי מקור לתמונות של ילדים ובני נוער אשר הן מתוייגות,על מנת שהאלגוריתם יוכל ללמוד גם על קבוצה זו. הכריה עצמה מתבצעת תוך ניצול המבנה הפנימי של כל אתר ,או מבנה ה DOMשנוצר . אתן מספר דוגמאות לאופ ן הבחירה שלי באיזה מידע להשתמש ומתי (כאמור,קיימים אוקיינוסים מאוד עמוקים של מידע מתוייג ונגיש) במהלך כתיבת העבודה. 3.2ניקוי (פילטור) המידע עבור כל פרופיל,הנחת היסוד היא שיתכנו מספר תמונות בפרופיל שבהן בעל הפרופיל לא יופיע ,כלומר יתכן שהאדם יעלה תמונות של ילדיו,חיות המחמד שלו ,או כל דבר אחר. על מנת לנקות את המידע,השתמשתי בשני כלים: .1מזהה פנים( Face detector-מסיפריה פתוחה )dlib - Face Recognition. .2אלגוריתם שפייסבוק פיתחו (הפרוייקט עצמו נקרא )Open Face כדי לזהות את האדם שמופיע הכי הרבה בתמונות עבור פרופיל ספציפי. אם לא קיים אדם "מובהק" שכזה ,בגלל שיש לי המון מידע ורציתי תיוג נקי ככל האפשר ,פשוט התעלמתי מכל התמונות באותו פרופיל .אם קיים אדם שכזה,ההנחה היא שהוא בעל הפרופיל .מבדיקה ידנית שערכתי על כמה אלפי תמונות,כמות הרעש במאגר (תמונות שמתוייגות לא נכון) היא פחות מאחוז-ניקיון גדול הרבה יותר ממאגרים מפורסמים (של תמונות מתוייגות). 3.3נתונים טכניים על המאגר גודל מאגר המידע שהתקבל הינו מעל 40מיליון תמונות,כאשר לאחר הניקיון שצויין לעיל,נשארות בסביבות ה 70%של התמונות (יותר מ 28מיליון תמונות). לשם השוואה ,הנה השוואה למאגרי מידע מפורסמים: Name Labelled by #Labels/Example #Examples By Hand ~1 14,197,122 Stanford ImageNet Mixed ~5 ~330,000 Microsoft COCO )Auto (most ~1.2 ~9,000,000 URLS Google Open Images *Hand >15 41,829,115 Technion Ours איור 4-השוואה למאגרי תמונות מתוייגות גדולים כלומר,במילים אחרות,גם אחרי פילטור המאגר ,מבחינת מספר התמונות,יש לי מספר שיותר גדול ממה שגופים כמו גוגל,סטנפורד וממיקרוסופט פירסמו .ביחד. 3.3התפלגות המידע בחרתי להביא את התפלגות המידע פה,ולא בתת הנושא המתאים-כדי שפרק 7הקורא יוכל לראות את התוצאות ביחד (אחרת מרוב דיאגרמות לא רואים את התוכן). 3.3.1לפי גילאים הנה התפלגות מאגר המידע לפי גילאים: איור 5התפלגות המידע במאגר שכריתי לפי גילאים כפי שניתן לראות באיור 5התפלגות המידע במאגר שכריתי לפי גילאים,המאגר עצמו הוא מאוד biasedוישנם הרבה פחות בני נוער או אנשים מבוגרים (.)+70 מצד שני,יש לשים לב שלמשל בגילאי הנוער בהם ישנן פחות דוגמאות,מדובר ביותר מ 5000דוגמאות לכל שנתון. בתחום הפופולארי של חיזוי גיל,נכון להיום,כאשר יש datasetשל 20,000תמונות לכל השנתונים ביחד מכנים אותו "גדול". מבחינה פרקטית,ההשפעה של biasשכזה על תוצאות המסווג אותו אימנתי,גם אם אינן זניחות ,הן לא משמעותיות כפי שחשבתי שיקרה .אפשר לראות זאת מבחינה פרקטית באתר-להעלות תמונות של בני נוער,למשל. 3.3.2לפי נטיה מינית הנה החלוקה לפי נטיה מינית: 1400000 1169379 1123566 1200000 1000000 800000 600000 #Images 400000 200000 100508 38901 0 Gay Men Gay Women Straight Men Straight Women איור -6התפלגות המידע לפי נטיה מינית כפי שנראה בהמשך,ל biasזה תהיה השפעה גדולה על המסווג הנאיבי-אך מספרים אלה עקביים עם הערכות קודמות ] [2לגבי יחס האוכלוסיות הסטרייטיות והגאות. 3.3.3לפי מבנה גוף אפשר לכתוב מספר עמודים רק על הסטטיסטיקה של מבנה גוף כפונקציה של תכונות שונות כגון: מוצא אתני,מיקום,גיל,אבל בחרתי להביא את הסטטיסטיקה כפונקציה של מגדר: Women by body type 600000 513318 500000 400000 330493 300000 200000 100000 69707 140875 106624 0 Thin Athletic Average Slightly overweight Overweight #Images התפלגות נשים לפי מבנה גוף-7 איור Men by body type 600000 493499 500000 365725 400000 300000 200000 100000 93388 76880 16083 0 Thin Athletic Average Slightly overweight Overweight #Images התפלגות גברים לפי מבנה גוף-8 איור .אכתוב בהרחבה על מידע זה בחלק "ניסויים עקרוניים" בעבודה 3.3.3לפי מוצא אתני אכתוב את הסטטוס של התפלגות המידע לפני הניסויים-אך כפי שנראה במהלך הניסויים -אני אדלה עוד מידע כתוצאה ישירה מהניסויים. Males by ethnicity 682129 210583 10009 Indian 126742 69395 Latino 16689 6206 Black Native American White Asian 800000 700000 600000 500000 400000 300000 200000 100000 0 Mixed #Images איור -9התפלגות הגברים לפי מוצא אתני Females by ethnicity 700000 604332 600000 500000 430270 400000 300000 97243 92463 8800 2432 8543 200000 100000 0 Indian Latino Black Native American White Asian #Images איור -10התפלגות הנשים לפי מוצא אתני Mixed איכותית ניתן לראות שהתפלגות שתי האוכלוסיות דומה אך קיימים ההבדלים הבאים: .1מספר הנשים ההודיות שקיימות במאגר-רק קצת יותר מ.2000 .2ישנן באופן יחסי,הרבה יותר נשים שחורות מגברים שחורים במאגר. .3יש מספר זעום של אנשים ממוצא אסיאתי,כאשר מספר הגברים בקטגוריה זו כפול ממספר הנשים. נראה את ההשפעה של הבדלים אלו על התוצאות בהמשך. 3.3.4לפי רמת השכלה אני חושב שיש הרבה מאוד גורמים שיכולים להשפיע על רמת ההשכלה :מגדר,גיל,רקע סוציו-אקונומי,נסיבות חיים ועוד ועוד .כהרגלי בקודש,אפריד בשלב זה את הגרפים רק ע"פ המגדר. Women by education level 425842 379811 450000 400000 350000 300000 250000 172635 172635 200000 150000 100000 53999 50000 4347 0 Phd Masters BA College High school Attended university איור -11התפלגות הנשים לפי רמת ההשכלה Men by education level 600000 491128 500000 400000 300000 205059 150824 5568 173931 200000 100000 39833 0 Phd Masters BA College High school Attended university איור -12התפלגות הגברים לפי רמת ההשכלה בפרק 7נראה מהן תוצאות הסיווג הנאיביות,וכיצד נפרש אותן בדרך מעניינת. 3.4חלוקת ה DatasetלTraining,Validation,Test על מנת לוודא שאין זליגה של מידע ל validation/testכלומר,לוודא שהמידע שעליו אנחנו נבחנים שונה ( (Testאו מכווננים את ה) hyper-parameters(Validationדאגתי לכך שיהיו פרופילים שונים ממש בין כל סט וסט (כך שאדם מסויים יוכל להופיע רק באחד מתוך שלושת הסטים). בנוסף ישנה נקודה מעניינת לגבי חלוקת המידע :ישנו כלל אצבע של חלוקת המידע בין הסטים-אימון ולידציה ובוחן ,ל 20 60ו 20אחוזים בהתאמה .אך מתברר (למדתי זאת בקורס של Andrew Wangעל למידה עמוקה) שכאשר ישנו מספר עצום של דוגמאות,ומכיוון שהדבר שחשוב לנו בסט הבוחן והולידציה הוא שסטים אלו ייצגו מספיק טוב את האוכלוסיה שמעניינת אותנו ,ניתן לקחת כמות קבועה וגדולה דיה של תמונות עבור סטים אלו ולהתאמן על כל שאר התמונות (כלומר,חלוקה של 0.005,0.005 99.9היא מצויינת כל עוד סטי הבוחן והולידציה מייצגים את האוכלוסיה הכללית בצורה טובה). על מנת לוודא שסטים אלו ייצגו היטב את האוכלוסיה,בחרתי גודל זה להיות המינימום מבין 15,000ל 20%עבור כל אחת מהאוכלוסיות שכריתי (ילדים,בני נוער,מבוגרים) 15,000 .הוא מספר שרירותי-בחרתי אותו כך שיהיה שווה לגודל סט בוחן המקסימלי מבין כל ה Datasetsשהאקדמיה משתמשת בהן במאפיין הפופולארי ביותר מבין כל אלה שאימנתי עליהם (גיל). 4ניסויים מעניינים וכושלים בפרק זה אתאר בקצרה מספר ניסיונות שלאו דווקא צלחו,אך למדתי מהם ,תוך כדי הפרוייקט: 4.1אימון תוך כפיית תדירות השנתונים בהתאם ל datasetעליו נבחנים כותרת קצת מסורבלת -אך אחד הרעיונות המעניינים היה כזה: חלק מההבדל שנוצר בין השגיאה על ה training setוה validation setאו ה test setיכול להיווצר כתוצאה מהתפלגות שונה של המידע .במקרה הזה למשל,חשבתי שאם למשל ב datasetשעליו נתאמן תהיה לצורך ההמחשה הרבה יותק מבוגרים מילדים,אך אנו נבחנים כאשר יש הרבה יותר ילדים ממבוגרים,שגיאת הבוחן יכולה להיות יותר גדולה בגלל זה. לכן ניסיתי ל"כפות" את המי דע ,כך שיהיה מפולג בדיוק כמו סט הבוחן (אפשר לדון אם זה סוג של זליגת מידע או לא) .הדרך שבה עשיתי זאת היא-עבור כל קבוצה שמופיעה באופן יותר תדיר באופן יחסי לקבוצה שמופיעה בתדירות הנמוכה ביותר,הגרלתי את התמונות עליהן נתאמן ב epochזה כך שמספר התמונות בקבוצה זו תהיה באותה תדירות כמו סט הבוחן .כך נוצר מצב שבכל epochהמערכת התאמנה על אותה התפלגות כמו סט הבוחן. בכל אופן,לאחר מספר שבועות של ניסויים הסתבר לי שהעיניין הזה לא משפר כלל את ביצועי המערכת (כנראה שסה"כ הביצועים יורדים קצת באופן הזה). באותו נושא (אופן ההכ ללה של רשתות) הופתעתי לגלות שהמערכת יכולה לזהות בני נוער בצורה טובה ,למרות שבאופן יחסי (כפי שהראיתי ב )Error! Reference source not found.מספר בני הנוער הוא נמוך בצורה משמעותית. משני הדברים האלו (שהפתיעו אותי) אפשר לראות שכאשר מדובר במספר עצום של תמונות,כנראה שיכולת ההכללה של המערכת פחות רגישה להתפלגות המידע (לפחות לא על פני הגילאים). 4.2התחשבות ברזולוציה ע"י מנגנון attention רעיון מעניין אחר הוא התחשבות ברזולוציה. כאשר ה face detectorמזהה פנים,ולפני שמזינים את הפנים למערכת,הרי ידועה לנו הרזולוציה (או גודל ה ) bounding boxשממנה נלקחו הפנים .אם גודל המרובע הזה הוא קטן ,אז הקלט למערכת יהיה שונה מאוד מאשר מרובע גדול (רזולוציה נמוכה לעומת רזולוציה גבוהה). אם כך,חשבתי לנסות רשת שבה כל הפילטרים (בכל שכבה) מוכפלים ביציאה של מנגנון attentionשמתאים לשכבה זו (הרעיון הוא שיש פילטרים שיותר חשובים כאשר הרזולוציה גבוהה ויש כאלה שיותר חשובים כאשר הרזולוציה נמוכה),כאשר המפתח למנגנון ה attentionבכל שכבה הוא קבועה ושווה לרזולוציה (כמובן שביצעתי rescalingלתחום ] .) [-1,1התוצאות שקיבלתי היו קצת יותר טובות,אבל לא מספיק לטעמי יותר טובות באופן יחסי למספר הפרמטרים שהוספו. 6אימון הרשת בפרק זה ארחיב על מספר פרטים טכניים על אימון הרשת Random Search 6.1לעומת Grid Search ישנו תחום חשוב (והוא עדיין "חם" מבחינת מחקר) של אופטימיזציה של היפר פרמטרים. היפרפרמטרים הם פרמטרים שלא נלמדים ישירות מהמידע,אך השפעתם בד"כ קריטית על תוצאות האימון. דוגמאות :קצב למידה ,מידת הרגולריזציה ,הארכיטקטורה של הרשת. במאמר ידוע ] [3מ 2012הוסבר ההבדל בין random searchלבין :grid search איור -13איור מתוך המאמר ] [3שמבהיר את העיניין Grid searchהיא הדרך הכי נאיבית לבצע אופטימיזציה של ההיפר פרמטרים .כלומר עבור כל hyper parameters קובעים מראש סט מסויים של ערכים שעוברים עליהם .הדבר דומה ללולאות forמקוננות,כאשר גודל הקינון שווה למספר ה hyper parametersעליהם מעוניינים לבצע אופטימיזציה-החישוביות מאוד כבדה במיוחד כאשר יש מספר גדול של hyper-parametersשעליהם מעוניינים לבצע אופטימיזציה. לעומת זאת ב Random Searchמגרילים את כל ערכי ה .hyper parameters נשמע אומנם מוזר ,אך האיור איור -13איור מתוך המאמר שמבהיר את העיניין מסביר מדוע זה יותר טוב: בד"כ יש hyper parametersהרבה יותר חשובים (למשל קצב למידה) וכאלה שהרבה פחות חשובים,וכאשר מגרילים את הערכים,בעצם עורכים יותר ניסויים עם ערכים שונים עבור אלה היותר חשובים. אם למשל התקציב שלנו עבור אופטימיזציה של hyper parameters 2מספיק ל n2ניסויים,ב grid searchנעבור (איכותית) על nערכים עבור כל אחד משני ה hyper parametersב ,grid searchו n2ערכים שונים עבור כל אחד מהם ב.random search (וההבדל כמובן מתחדד כאשר מספר ה hyper parametersגדל). 6.2ניסויים טכניים-מציאת hyper-parametersמתאימים הנה שני איורים שמבהירים איך נעשה הדבר בצורה פרקטית: איור -14דיוק אחרי 2אפוקים כפונקציה של קצב הלמידה איור -15דיוק אחרי 2אפוקים כפונקציה של מידת הרגולריזציה()L2 ההקשר בהדגמה זו הוא חיזוי מגדר כאשר הדיוק הוא מספר התמונות עבורן המסווג צודק חלקי סך התמונות. בכל אופן ,כל נקודה בשני הגרפים מייצגת בעצם רשת שונה שאומנה עבור שני epochsמלאים. ניתן לראות מאיור -14דיוק אחרי 2אפוקים כפונקציה של קצב הלמידה שהטווח בו יש להתמקד הוא ))-3,-4.5 בחיפוש עצמו (יש לשים לב שזו סקלה לוגריתמית כלומר 10בחזקת ....אבל לצורך ההבנה זה לא מהותי),ומאיור -15דיוק אחרי 2אפוקים כפונקציה של מידת הרגולריזציה()L2אפשר לראות שאפשר להתמקד בסדרת הניסויים הבאה ברגולריזציה שקטמה מ .-2סדרת הניסויים הבאה תתמקד בערכים שציינתי,עם יותר .epochs בדרך זו בחרתי את ערכי ה hyper parametersאיתם אימנתי את הרשת. 6.3פרטים טכניים-בחירת הרשת ואימון הרשת השתמשתי ב( Pytorchלמדתי גם TensorFlowבמסגרת הפרוייקט,אבל עברתי ל Pytorchולדעתי זה אכן frameworkהרבה יותר מוצלח מהרבה מאוד בחינות). בהמלצת אלעד הופר,בחרתי ארכיטקטורה ש"הוכיחה" את עצמה -ספציפית resnet 18ו.resnet 34 בחרתי ברשתות פחות עמוקות(למרות שאני מודע לכך שככל שהרשת יותר עמוקה,באופן כללי התוצאות יכולות להיות יותר טובות) בגלל סיבות פרקטיות-עם המספר העצום של התמונות שהיו ברשותי ועם החומרה הקיימת,גם כך רק להריץ את הניסויים שציינתי בסעיף הקודם לוקח מספר שבועות! לשם שלמות ההסבר,אציין שהמעבד הגרפי היה ,Nvidia GeForce GTX 1080 Tiומספר התמונות בהן השתמשתי בפועל עמד על קצת יותר מ 3מיליון (אציין שמכיוון שההבדל בין ביצוע הרשת על ה training setוהvalidation set לגבי גיל היה קטן יחסית-שזו אינדיקציה ל varianceנמוך-עבור הרשתות היחסית קטנות,גם הוספה של מספר גדול יותר של תמונות לא היתה משפרת את ביצועי הרשת בקטגוריה זו) .ה optimizierבו השתמשתי היה .Adam הרשת,אותה בפרק הבא אכנה "המסווג הנאיבי" ) (Resnet34למדה באמצעות Multi-task Learningכאשר עבור כל משימה יש ראש ) Fully Connected(FCנפרד,ושאר המשקלים של הרשת משותפים לכל המשימות. 7ניסויים עקרוניים-תכונות בפרק זה אתאר את הניסויים (וההחלטות) שקיבלתי כאשר אימנתי את המערכת לזהות את התכונות- נטיה מינית,מבנה גוף,רמת השכלה מזל ומוצא אתני,תשובה לכל קטגוריה לחוד לשאלה "האם ניתן ללמוד מתמונות פנים בלבד,בעזרת האלגוריתמים הקיימים היום על התכונה יותר מאשר מסווג אקראי לחלוטין" (או כזה שפועל לפי התפלגות האוכלוסיה בלי קשר לתמונה עצמה). בתחילת כל פרק אשתמש באותו מסווג בדיוק שאימנתי בעזרת ( Multi-Task Learningאותו אחד שציינתי בסוף הפרק הקודם) שאומן על קצת יותר מ 3מיליון תמונות,אנתח ואשפר במידת הצורך. 7.1נטיה מינית בעבודה שפורסמה עליה כתבה בגארדיאן ] [4ונכתבה ב ,Stanfordלקחו 35,326תמונות פנים (שחציים סטרייטים וחציים לא),הכניסו כל תמונה ל (VGG-Face) Face recognitionשמוצאו הוא וקטור של 4096מספרים,הורידו את המימדיות של וקטור זה בעזרת SVDלוקטור של 500מספרים, ועל וקטור זה אימנו מסווג מסוג Logistic regressionבנפרד עבור גברים ועבור נשים ( 2מסווגים שונים עבור שני המגדרים). כאשר בחנו את ביצועי האלגוריתם(והשוו אותם לביצועי אנשים),לקחו שתי תמונות :תמונה אחת של סטרייט ותמונה אחת של גיי,ושאלו (את האלגוריתם\את האנשים) מי הוא הסטרייט\גיי בתמונה. נוסח בדיקה זו יהיה חשוב בהמשך כאשר ארצה להשוות תוצאות (במידת האפשר),אך המטרה שלי היא -בהינתן תמונה אחת,כאשר לא ידוע שום דבר על האדם שבתמונה,אני מעוניין להשיג את הביצועים ה"טובים ביותר" (נראה עוד מעט שספציפית בנושא זה ישנן נקודות מאוד עדינות). 7.1.1הביצוע האנושי בקטגוריה זו ()Human performance כדי לתת הערכה ראשונית לגבי שגיאת בייס (השגיאה של המסווג הטוב ביותר האפשרי לגבי האוכלוסיה הכללית) עבור קטגוריה זו אשתמש בביצוע האנושי (כך נחסום מלמעלה את שגיאת בייס),ולכן אזכיר בקצרה ,שהביצוע האנושי בקטגוריה זו נע בין 55%ל [5] [6] [7] [4] 65%יש כאמור לשים לב בקריאת המאמר לדרך המדידה (למשל יש לשים לב אם זו הערכה בהינתן שתי תמונות שידוע שאחת מהן הוא של סטרייט והשניה של גאה ,או תמונה אחת). 7.1.2ניסוי נאיבי ראשון -אימון על כל הTraining Set בתחילה אבחן את ביצועי המסווג שציינתי בתחילת הפרק,שאומן על יותר מ 3מיליון תמונות. ניסיון זה מוביל למסווג אשר יש לו על סט הולידציה דיוק של ,96.6%אך אינני מרוצה מביצועיו בכלל. מדוע? ובכן,הוא השיג דיוק של 99.4%על הסטרייטים,ודיוק של 11.5%על הגאים(!). כלומר,בגלל שהרוב המוחלט של האוכלוסיה עליה אימנתי הינם סטרייטים,הרשת למדה (איכותית) לומר שגברים כמעט תמיד רוצים נשים,ונשים כמעט תמיד רוצות גברים. במונחים מקצועיים Accuracy,איננו המדד הנכון היחיד במקרה זה. ה TP/(TP+FN) -Recallבמקרה הנ"ל הינו כאמור .11.5%למרות שגם Recallאיננו המדד הרלוונטי היחיד,ברור שלא נרצה מסווג שאומר על הרוב המוחלט של האנשים שהם סטרייטים. 7.1.3ניסוי שני -אימון על Datasetשאינו Biased מתוצאות הניסוי הראשון תכננתי את הניסוי השני ,כך שהפעם ב Datasetלא ניתן יהיה לדעת את הנטיה המינית בהינתן המגדר .לכן לקחתי מספר זהה של סטרייטים וגאים גם עבור גברים וגם עבור נשים (כלומר,חצי הגברים סטרייטים וחצי מהנשים סטרייטיות)-מספר התמונות הכולל הינו 278,818ואז אימנתי Resnet18על Datasetזה. כעת קיבלתי תוצאות מעניינות .בתחילה בדקתי את הדיוק על סט הולידציה לפי קטגוריות שונות: סטרייטים גאים סטרייטיות גאות 77.6% 65.1% 68.1% 63.1% איור -16תוצאות נטיה מינית על סט הולידציה אלו תוצאות מפתיעות וגבוהות ביחס לביצוע האנושי ולכן החלטתי לבדוק בשלב זה את התוצאות על סט הבוחן ששמתי בצד (לא השתמשתי בסט הבוחן כלל עד שלב זה,לרבות כיוונון היפר פרמטרים או בחינה כלשהיא): סטרייטים גאים סטרייטיות גאות 76.6% 73.2% 67.1% 62.7% איור -17תוצאות נטיה מינית על סט הבוחן כלומר,מבחינה פרקטית התוצאות זהות על סט הולידציה וסט הבוחן -לא היה איזהשהוא overfittingגדול של הרשת על סט הולידציה ביחס לסט הבוחן! 7.1.3ניסוי שלישי-מדידת המסווג באותה שיטה כמו המאמר בניסוי זה אשווה בין התוצאות שהמאמר ] [4פירסם,לבין המסווג שקיבלתי,כאשר אשתמש באותה שיטת מדידה כמו המאמר-כאמור,המאמר השווה בין שני אנשים שונים שידוע שאחד מהם הוא סטרייט והשני גאה בכל איטרציה של הניסוי. כמו כן,המאמר לקח מספר משתנה של תמונות עבור כל אדם (מ 1עד )5ולמשל במקרה של 5תמונות לאדם מיצע את 5הסיכויים שהמסווג הוציא עבור 5התמונות. מכיוון שיש הרבה זוגות שאפשר לבחור ,מה שעשיתי הוא כאשר ביצעתי את הניסוי עבור nתמונות לאדם הוא- מבין כל הפרופילים שיש להם nתמונות ומעלה הגרלתי בהסתברות שווה (ביחס לפרופילים ולא ביחס למספר התמונות -על מנת שלא יווצר מצב בו אדם משפיע יותר כאשר יש לו בפרופיל יותר תמונות) סטרייט וגאה,ועל שני פרופילים אלה מדדתי את ביצועי המסווג בדרך שצויינה לעיל .חזרתי על ניסוי זה 40,000פעמים עבור כל מגדר. הנה התוצאות שקיבלתי עבור נשים: Women-Accuracy 77.00% 76.00% 75.00% 74.00% 73.00% 72.00% 71.00% 70.00% 8 7 6 5 4 3 2 1 #Images per person איור -18תוצאות המסווג בדרך המדידה של המאמר-נשים ואלה התוצאות עבור גברים Men-Accuracy 92.00% 90.00% 88.00% 86.00% 84.00% 82.00% 80.00% 78.00% 8 7 6 5 4 3 2 #Images Per person איור -19תוצאות המסווג בדרך המדידה של המאמר-גברים 1 כמו שניתן לראות מאיור -19תוצאות המסווג בדרך המדידה של המאמר -קיבלתי עבור גאים תוצאה שעוברת את ה( 90%למרות שמספר הדוגמאות עבור נשים היה גבוה יותר) אך יש לזכור-התנאים הם 2nתמונות (למשל 5 תמונות עבור כל אחד מהם-ולכן 10תמונות) וגם ידע מוקדם שאחד מהנבדקים סטרייט והשני לא. אנצל הזדמנות זו ואסביר את ההבדל בין התוצאות שאני קיבלתי לבין המסווג שהמאמר ] [4מדבר עליו איכותית וכמותית :קיבלתי תוצאה קצת פחות "טובה" ממה שהמאמר מציין ( 90.55%לעומת 91%מקסימלי אצל גברים 76.3%,דיוק מקסימלי אצל נשים לעומת 83%במאמר) אבל: . 1מאגרי המידע שונים,ובפרט בניגוד למאמר לא הגבלתי את איכות התמונה וגם לא את זויות הפנים. במאמר בחרו רק פנים מיושרות למצלמה ורק תמונות איכותיות יחסית,ובנוסף לכך הגבילו את מוצא האנשים שבתמונה לאנשים לבנים ( )Caucasiansבלבד בעוד שאני לא הגבלתי את מאגר התמונות שלי. כלומר מאגר המידע שלי (לפי מה שמתואר במאמר) הוא יותר "אמיתי" ולכן יותר "קשה" ללמידה-וגם סט הבוחן קשה יותר באותו אופן. .2במאמר השתמשו ב Face Recognitionועליו בנו .Logistic Regression היתרון בשיטה שלהם הוא שעבור אותו אדם ספציפי ועבור תמונות שונות,פלט המסווג יהיה כנראה עם שונות הרבה יותר נמוכה .החיסרון הוא שבאימון שאינו מקצה לקצה כמו שבוצע פה (ובהינתן שיש "מספיק" דוגמאות לאימון מקצה לקצה) יהיו ( featuresתכונות אבסטרקטיות שהרשת לומדת) שהרשת לא יכולה ללמוד כלל (כי זה לא אימון מקצה לקצה). אני לא בטוח מדוע במאמר לא ניסו לאמן רשת מקצה לקצה -הם רק כתבו בקצרה שהם עשו זאת אך חששו מ .Overfittingבעיניי זו טענה מוזרה,הרי בדיוק לצורך זה יש סט ולידציה(וסט בוחן),וגם אם מספר התמונות שלהם היה קטן משלי (עבור קטגוריה זו) פי ,8ובהנחה שהם לא היו בטוחים -ניתן היה לבצע .Cross validation 7.1.4ניסוי רביעי-סיווג לפי מספר תמונות לאדם בניסוי זה אבחן את ביצועי המסווג,כאשר מוזנות מספר תמונות לאותו אדם ,אך ללא אדם נוסף (בניגוד למאמר). בחרתי לצורך השלמות להציג את המידע עבור כל אחת מ 4האוכלוסיות (גבר/אישה)(סטרייט/גאה) בנפרד: Male-Straight 0.88 0.86 0.84 0.82 0.8 0.78 0.76 0.74 0.72 0.7 8 7 8 7 6 4 5 3 2 1 #Images איור -20הדיוק עבור אוכלוסיית הגברים הסטרייטים Male-Gay 0.84 0.82 0.8 0.78 0.76 0.74 0.72 0.7 0.68 6 4 5 3 #Images איור -21הדיוק עבור גברים גאים 2 1 Female-straight 0.73 0.72 0.71 0.7 0.69 0.68 0.67 0.66 8 7 8 7 6 4 5 3 2 1 #Images איור -22הדיוק עבור נשים סטרייטיות Female-Gay 0.68 0.67 0.66 0.65 0.64 0.63 0.62 0.61 0.6 6 4 5 3 2 1 #Images איור -23הדיוק עבור נשים גאות מהאיורים ניתן לראות שבאופן כללי,ניתן לסווג בצורה יותר טובה עבור כל האוכלוסיות כאשר ישנה יותר מתמונה אחת,אך ההבדל בין סיווג בעזרת 3-4תמונות או בעזרת הרבה יותר תמונות הוא זניח יחסית-לעיתים הרעש היה גדול יותר מהבדל זה .אציין שיש הבדל גדול מאוד בין איורים אלה לאיורים מהסעיף הקודם (שמשווה למאמר): פה למשל עבור 5תמונות,באמת מדובר ב 5תמונות (יש אדם אחד בלבד) ,ואילו בסעיף הקודם מדובר היה ב5 תמונות לאדם (יש לזכור שכל ניסוי שם עירב שני אנשים) ולכן למעשה הסיווג בוצע בעזרת 10תמונות. 7.1.6ניסוי חמישי-שימוש בSelective Classification הכיוון שלי הוא לפרסם את העבודה שלי באתר ,ועדיף שלא (מבחינת חויית משתמש) לבקש מספר תמונות מכל אדם כדי לבצע סיווג סביר ,ובנוסף נרצה כמה שפחות לפגוע ברגשותיהם של המשתמשים-נרצה לבצע כמה שפחות טעויות. קיים מאמר שיצא לפני כשנה שנכתב ע"י דוקטורנט מהטכניון ] [8בדיוק על נושא זה (התחום קיים כבר כמה עשרות שנים). בצורה תמציתית,פשוט ניתן לבחור לא לסווג ( )Rejectכאשר הרשת לא בטוחה "מספיק" בסיווגה. למשל בסיווג מגדר(גבר\אישה) ,אם פלט המסווג הוא "הסתברות" של 51.5%שבתמונה יש גבר,אז אולי הרשת לא בטוחה מספיק,ואז אפשר לפרש את פלט הרשת כ"לא יודעת" ואם ההסתברות היא 98.8%אז הרשת בטוחה ולכן נסכים להוציא תוצאה-יש לבחון את ה Thresholdשממנו והלאה נסכים לסווג. המאמר מציע חיפוש בינארי בהינתן רמת ביטחון מבוקשת ,אך בבעיה הזו מדובר במשהו דינמי -ההחלטה לגבי הסף של רמת הביטחון שתקבע בסיווג תלויה בכמה מהאוכלוסיה יהיה עליי ל"וותר". לכן בחרתי בדרך שונה מאשר המאמר: מיינתי את התמונות לפי רמת הביטחון של הרשת בסיווג .מכיוון שפה מדובר בבעיית סיווג בינארית הגדרתי זאת להיות פשוט ) max(p1,p2כאשר p1,p2הן ההסתברויות של האדם להיותו סטרייט וגאה בהתאמה)p1+p2=1( . לאחר מכן ציירתי גרפים של הדיוק על כל אחת מהאוכלוסיות כפונקציה של מספר התמונות אותן לא סיווגנו ,כאשר נפטרים קודם מהתמונות עליהן המסווג הכי פחות בטוח .לבסוף עליי לציין שמכיוון שאני תופס את הסף של רמת הביטחון בתור היפר פרמטר,ביצעתי את הבחירה הזו על סט הולידציה .הנה התוצאות: Straight Women 100.00% 80.00% 60.00% 40.00% 20.00% 0.00% 1 625 1249 1873 2497 3121 3745 4369 4993 5617 6241 6865 7489 8113 8737 9361 9985 10609 11233 11857 12481 13105 13729 14353 #Images discarded איור -24דיוק על נשים סטרייטיות כפונקציה של מספר התמונות אותן בחרנו לא לסווג Gay Women 100.00% 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% 1 626 1251 1876 2501 3126 3751 4376 5001 5626 6251 6876 7501 8126 8751 9376 10001 10626 11251 11876 12501 13126 13751 14376 #Images discarded איור -25דיוק על נשים גאות כפונקציה של מספר התמונות אותן בחרנו לא לסווג Straight Men 100.00% 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% 1 587 1173 1759 2345 2931 3517 4103 4689 5275 5861 6447 7033 7619 8205 8791 9377 9963 10549 11135 11721 12307 12893 13479 #Images discarded איור -26דיוק על גברים סטרייטים כפונקציה של מספר התמונות אותן בחרנו לא לסווג Gay Men 100.00% 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% 1 626 1251 1876 2501 3126 3751 4376 5001 5626 6251 6876 7501 8126 8751 9376 10001 10626 11251 11876 12501 13126 13751 14376 #Images discarded איור -27דיוק על גברים גאים כפונקציה של מספר התמונות אותן בחרנו לא לסווג מהאיורים אפשר לראות מספר תופעות מעניינות: . 1באופן כללי,אפשר לומר שכאשר "נפטרים" מתמונות עליהן המסווג פחות "בטוח בעצמו",הביצועים עולים. . 2מקרה חריג ויוצא דופן היא אוכלוסיית הגברים הסטרייטים .אפשר לראות שמשום מה עבור אוכלוסיה זו ,קיים מצב "כשל" שבו הרשת בטוחה יחסית בתחזיותיה,אך טועה! תופעה דומה קיימת ב"זנב" אוכלוסיית הנשים הסטרייטיות (דווקא בתמונות בהן המסווג מאוד בטוח באופן יחסי הוא טועה יותר) .3לצערי,באופן כללי השיפוע עולה ולכן לא ניתן לבחור thresholdשיגלם פשרה בין רמת ביטחון ורמת דיוק עבור הרשת/בעיה הספציפית הזו. יחד עם זאת,תובנה מעניינת מאוד לגבי המסווג שהתקבל הוא-כאשר המסווג מאוד מאוד בטוח בעצמו,יתכן שהוא טועה .לכן ניתן לתת חיווי עד כמה אנו בטוחים בביצועי המסווג ,וחיווי זה יהיה שונה (ולא פונקציה מונוטונית של) מפלט המסווג -כאמור יש רוויה (או אפילו ירידה-תלוי באוכלוסיה) ברמות היותר גבוהות של "ביטחון" שמפגין המסווג עצמו. 7.2מבנה גוף\BMI למה לחזות בכלל מבנה גוף לפי פנים? לא עדיף לחזות מבנה גוף...לפי תמונת גוף? אז ככה: קודם כל זה כיוון מחקר עתידי שלי ,אך בטכנולוגיה הכי טובה שידועה לי שקיימת כרגע ( )Mask-Rcnnשמתיימרתלקחת מהתמונה את כל הפיקסלים של אדם מסוים כולל הגוף שלו,ובכן,לדעתי היא לא קרובה לFace detectors שקיימים כרגע מבחינת הדיוק,ויותר חשוב-מבחינה פרקטית עדיין אינה מספיק טובה כדי לעבוד עם מוצר אמיתי. פעמים רבות מידי המערכת הזו לוקחת רק חלק מאדם מסויים,או מתייגת איחוד של שני אנשים בתור אדם אחד. לעיתים קרובות תמונת הגוף לא קיימת,ויש רק תמונת פנים שעל פיה עלינו לשפוט.בפרט,באתרי היכרויות או אפליקציות כמו ,Tinderקיימים אנשים רבים שמספקים רק תמונת פנים. אפשר לראות את התפלגות המידע שעליה אימנתי את המערכת באיור -7התפלגות נשים לפי מבנה גוף ואיור -8 התפלגות גברים לפי מבנה גוף בפרק על מאגר המידע. חשוב לי בשלב זה לציין פרט קריטי :התיוגים נעשו ע"י המשתמשים עצמם ובמילים אחרות- אדם אשר יש לו עודף משקל,יכל לסווג את עצמו כבעל מבנה גוף ממוצע,אתלטי או עודף משקל קל. לכן,מצב זה בעייתי יותר מהמצב שהיה קיים בנטיה מינית-התיוגים עצמם רועשים יותר. בנוסף כפי שניתן לראות בהתפלגות המידע-התיוג הכי פופולרי הוא "מבנה גוף ממוצע". החלטתי אם כך בנוסף לאמן רשת שתעריך את ה BMIשל אדם מסויים. עשיתי זאת כאשר מצאתי עבודה קודמת שנעשתה ב,[9] MITוארחיב עליה בהמשך. נתחיל בניסויים: 7.2.1ניסוי ראשון-סיווג לפי מבנה גוף בניסוי זה נסתכל על ביצועי הרשת שציינתי בתחילת הפרק. מכיוון שזהו כבר לא מסווג בינארי (ישנן 5מחלקות כאשר מדובר בסוג גוף) בחרתי להביא את המידע בצורת .Confusion Matrixמשמעות "סיווג" פה היא-המחלקה לה ניתנה ה"הסתברות" הגבוהה ביותר ע"י הרשת .עשיתי ניסוי זה על סט הולידציה .הנה התוצאות עבור נשים: Classified slightly Truth Overweight overweight Average Athletic Thin 0 9 787 73 34 Thin 2 44 1134 158 21 Athletic 54 1055 5039 91 36 Average 240 1670 1839 1 0 overweight 408 758 378 0 0 Overweight slightly איור -28ה Confusion Matrixעבור נשים והנה התוצאות עבור גברים: Classified slightly Truth Overweight overweight Average Athletic Thin 0 6 262 418 24 Thin 0 44 2298 3817 25 Athletic 2 186 3733 1642 23 Average 2 295 982 99 0 overweight 3 93 119 28 0 Overweight slightly איור -29ה Confusion Matrixעבור גברים משני איורים אלה אפשר לראות ש: .1ברוב המחלקות,אפשר לראות כי בדומה ל,Priorהמחלקה לה המסווג נתן את המשקל הגדול ביותר היא בד"כ "מבנה גוף ממוצע" .יחד עם זאת,עבור אנשים שתייגו עצמם כבעלי עודף משקל לא קל,ניתן לראות כי עבור נשים המסווג נטה לסווג בעזרת המחלקות של אנשים בעלי עודף משקל,אפילו יותר מאשר "ממוצע". . 2עבור נשים שסיווגו עצמן כבעלות עודף משקל,קיימת רק תמונה אחת (מתוך )15000שלא סווגה ע"י אחת המחלקות שמתאימות לנשים בעלות עודף משקל או סוג גוף ממוצע. .3לעומת זאת אצל גברים,מעבר למחלקה ה"טריוויאלית" (מבנה גוף ממוצע),שתי המחלקות שהמסווג סיווג בפועל אליהן הן "אתלטי" או "עודף משקל נמוך" .אפשר להבין למה זה "משתלם" לרשת באיור -8התפלגות גברים לפי מבנה גוף :ישנם הרבה (באופן יחסי לנשים) גברים שסיווגו עצמם כבעלי מבנה גוף אתלטי. -באופן כללי אני חושב שככל שהמסווג פחות בטוח בעצמו,כך הסיווג יתקרב יותר ויותר ל.Prior 7.2.2ניסוי שני :סיווג ללא מבנה גוף ממוצע כמסקנה מתוצאות הניסוי הראשון("מבנה גוף ממוצע" יותר מדי דומיננטי)בניתי את הניסוי השני בצורה הבאה: הגדרתי את המחלקה שסווגה ככזו שיש לה ה"הסתברות" הגבוהה ביותר מבין המחלקות שאינן "מבנה גוףממוצע" .כל השאר ללא שינוי (הרשת,התוצאות מוצגות על סט הולידציה). Classified slightly Truth Overweight overweight Athletic Thin 1 251 437 199 Thin 2 448 767 121 Athletic 51 4291 1538 256 Average 240 3244 226 12 overweight 395 1114 27 2 Overweight slightly איור -30ה Confusion Matrixעבור נשים(ללא "מבנה גוף ממוצע") Classified slightly Truth Overweight overweight Athletic Thin 0 19 647 39 Thin 0 302 5799 43 Athletic 1 1117 4325 76 Average 0 848 502 8 slightly overweight 160 3 0 80 Overweight איור -31ה Confusion Matrixעבור גברים(ללא "מבנה גוף ממוצע") מהנתונים אפשר להסיק מספר דברים מעניינים: .1עבור נשים שתייגו עצמן כבעלות יתר משקל (ולמרות שלא איפשרתי סיווג ל"מבנה גוף ממוצע"),עדיין קיימות מעט מאוד נשים שהמסווג מסווגן כבעלות מבנה גוף רזה\אתלטי,ולהיפך. .2עבור גברים קיים למסווג קושי להבחין בין משקל יתר קטן לבין מבנה גוף אתלטי-אני לא בטוח אם זה בגלל האוכלוסיה (ראה איור -8התפלגות גברים לפי מבנה גוף) או בגלל משהו פיזיולוגי. .3עבור נשים שהגדירו את עצמן כבעלות מבנה גוף ממוצע ,המסווג נוטה לתייגן מחדש (לעומת ה)Prior כבעלות עודף משקל .לעומת זאת,גברים שהגדירו עצמם כך הוא מסווג ממש לפי ה( Priorאותה התפלגות של בעלי עודף משקל לעומת בעלי מבנה גוף אתלטי)-יתכן שהעיניין נובע ישירות מהקושי שציינתי בסעיף הקודם. בשלב זה רציתי לקבל תוצאות יותר איכותיות,ולכן עברתי לאמן משערך .BMI אתייחס לעבודה הקודמת שמצאתי על נושא זה ] [10אך קודם לכן,מה זה בכלל ?BMI 3.2.1הגדרת BMI BMIהינו מדד רפואי המוגדר כמשקל של אדם(בקילו) חלקי הגובה שלו(במטרים) בריבוע ]𝑔𝑘[𝑡𝑊𝑒𝑖𝑔ℎ ] 𝐻𝑒𝑖𝑔ℎ𝑡 2 [𝑚2 כאשר לפי ספרות הרפואית באופן כללי: BMI<18.5הוא תת משקל 18.5=>BMI<=24.9הוא מדד תקין = 𝐼𝑀𝐵 25=>BMI<=29.9הוא מצב של עודף משקל 30=>BMIהוא עודף משקל קיצוני. 7.2.3סיכום העבודה הקודמת בנושא מחברי העבודה ] [10השיגו 4206תמונות פנים עם תיוגים מדוייקים לגבי ה BMIשל כל תמונת פנים,ואימנו על גבי הפלט של ) Face recognition(VGG-Faceמסווג לינארי (.)SVM החיסרון לדעתי בשיטה שלהם הוא שמערכת זיהוי הפנים אומנה למזער את ההבדל בין שני פלטים על שתי תמונות של אותו אדם (או להגדיל את ההבדל כאשר אלו שתי תמונות של שני אנשים שונים) -כלומר,באופן עקרוני עבור אדם שהרזה או השמין מאוד ועבור שתי תמונות שלו לפני ואחרי -מערכת זיהוי הפנים אומנה להוציא פלט דומה. בנוסף עליי לציין שהתמונות בעלות Biasחמור-ישנן מספר ספור של תמונות של "תת משקל" (ראה התפלגות המידע בהמשך)-כפי שנראה בהמשך,אתקן את העיניין ע"י לקיחת דוגמאות יותר מתאימות ל"עולם האמיתי". 7.2.4המשך עבודה על הFace to BMI Dataset בכל אופן,ביקשתי וקיבלתי את ה Datasetשל MITמהכותב הראשי (,)Enesומכיוון שמספר התמונות קטן מאוד ביחס למספר התמונות שקיימות על שאר המשימות(כאמור 4206לעומת יותר מ 3מיליון), החלטתי לבצע Transfer Learningעל הרשת המקורית שאומנה על כל המידע ( 3מיליון תמונות פנים) ועם משימות בעלות קורלציה גבוהה ככל הנראה ( BMI/Body typeהן שתי משימות עם קורלציה גבוהה ביניהן). באופן פרקטי,הקפאתי את כל משקלי הרשת שאימנתי (,)Resnet34והוספתי עוד ראש FCעבור המשימה החדשה. מהניסיון שיש לי עם הערכת גיל,השתמשתי בארכיטקטורה אותה הציעו בעבודה ] [11אבל עבור .BMI בקצרה,אם נבצע רגרסיה (מוצא הרשת הוא מספר ממשי),הרשת נוטה ל"התכנס" לכיוון הממוצע ככל שהיא אינה "בטוחה" בעצמה-במשימה הערכת גיל זה מתבטא באנשים מבוגרים שההערכה לגביהם היא מספר שנים פחות (לעומת התוצאות בעבודה ] )[11ולהיפך (לילדים "נוספים" מספר שנים) .לעומת זאת בארכיטקטורה בה אני אשתמש,כל תיוג BMIמעוגל למספר השלם הכי קרוב לו,ועבור כל מספר שלם בין 17ל 50יצרתי מחלקה (הבעיה מנוסחת כל כבעיית סיווג -סה"כ 34מחלקות),ואז שערוך הגיל הוא פשוט ה"תוחלת" לפי התפלגות ה"הסתברויות" שהמסווג מוציא כפלט .החלטתי לקטוע את התיוגים במספרים אלו בגלל מיעוט הדוגמאות בטווחים שקטנים מ17 וגדולים מ .50הנה התפלגות המידע על כל מאגר המידע הזה: Face2BMI distribution 300 250 200 150 #Images 100 50 0 100 80 40 60 20 BMI 0 -50 איור -32התפלגות המידע של Face2BMIכפונקציה של הBMI כאשר אימנתי,הסתכלתי על ה Mean Absolute Errorבין התיוגים האמיתיים לבין מה שהרשת מתייגת .על ה Training setמדובר ב 3.3בערך ועל ה Validation setמדובר ב.3.88 אני לא יודע אם א לו תוצאות טובות או גרועות (לא מצאתי מקור שמעריך ביצועי אנשים בהערכת BMIבאופן ישיר ובטח שלא על המאגר הזה),אז אערוך את שני הניסויים הבאים כדי להעריך את הביצועים בכל זאת .1סיווג לפי הקטגוריות המוגדרות בסעיף הגדרת BMI .2השוואה לתוצאות אותן קיבלו החבר'ה מ [9] MITכאשר הם הישוו את ביצועי המסווג לביצוע האנושי (ובאותה הזדמנות אכתוב על המתודולוגיה בה הם השתמשו בניסויים). 7.2.6סיווג לפי הקטגוריות הרפואיות בניסוי זה,לקחתי את המסווג שקיבלתי בסעיף הקודם,ובחנתי (ע"י )Confusion Matrixאת ביצועיו,כאשר במקום לקחת את הערך המוחלט של ההפרש בין התיוג האמיתי לשערוך (ה,)MAEחילקתי את ה BMIלקבוצות (כפי שמוגדר בספרות הרפואית-ראה )7.2.3וניסיתי לראות איך המסווג טועה: Classified Obese Overweight Normal 12 66 30 Normal 65 117 18 Overweight 410 58 3 Obese Truth איור -33ה Confusion matrixעבור משערך ה.BMI אז קודם כל,יש לשים לב שאין את הקטגוריה "תת משקל"-וזו לא טעות .בכל מאגר המידע ישנן 4תמונות שיכולות להיחשב "תת משקל"-בסט הבוחן היו בדיוק 0כאלו,ובנוסף המסווג לא שיערך אף אחת מהתמונות בתור כזו שמתאימה לקטגוריה תת משקל. מה Confusion matrixניתן ללמוד מספר דברים: .1עבור אנשים בעלי BMIנורמלי-רובם מסווגים כבעלי עודף משקל .תכונה מאוד לא רצויה. . 2אנשים בעלי עודף משקל גבוה מסווגים לרוב ככאלה,וכאשר המסווג "מתבלבל" זה בד"כ עם המחלקה השכנה (לוגית) היחידה שלו (עודף משקל רגיל). . 3רוב האנשים בעלי עודף משקל לא קיצוני מסווגים ככאלה,וכאשר המסווג טועה,הוא נוטה לטעות לכיוון "מעלה" (עודף משקל קיצוני). 7.2.7השוואה לביצוע האנושי מקור המידע היחיד שיש לי לגבי הביצוע האנושי בקטגוריה זו הוא אותה עבודה ] .[10אפרט את שיטת הניסוי והמדידה שלהם ואשווה את התוצאות למסווג שאני אימנתי. 7.2.7השוואה לביצוע האנושי והתוצאות של העבודה הקודמת כדי להשוות לביצוע האנושי ,בעבודה הקודמת ]( [10ובאופן דומה למתולוגיה של המאמר מסטנפורד ],)[4הם לקחו זוגות של אנשים אשר קיים ביניהם הפרש מסוים של BMIושאלו את האנשים\האלגוריתם מיהו האדם היותר שמן ומיהו היותר רזה .במאמר עצמו הם הביאו את הנתונים לגבי הדיוק כפונקציה של הפרש ה BMIעבור 3קבוצות "הפרשים" (מתחת ל,5.5בין 5.5ל 10.5ובין 10.5ל )15.5ועל מנת להשוות את התוצאות,אלה הנתונים שהסתכלתי עליהם הפעם .הנה התוצאות: Accuracy-BMI difference 100.00% 89.60% 84.30%82.70% 90.00% 81.40% 78.90% 75.20% 80.00% 63.50% 61.50% 56.20% Human 70.00% 60.00% 50.00% MIT 40.00% Technion 30.00% 20.00% 10.00% 0.00% 10.5-15.5 5.5-10.5 0.5-5.5 BMI difference איור -34המשערך שלי לעומת המשערך של החבר'ה מ MITולעומת הביצוע האנושי מהאיור ניתן לראות שהמשערך BMIשלי-ובכל שלושת הקטגוריות שנמדדו-מתפקד יותר טוב גם מהמשערך של MITוגם מהביצוע האנושי כפי שנמדד על ידם. תוצאה זו לא מפתיעה -אני ביצעתי Transfer Learningעל אלגוריתם שלמד,בין היתר,להבדיל בין סוגי גוף שונים ,בעוד שהם לקחו featuresמאלגוריתם שמטרתו למזער את ההבדל בין שני הפלטים שלו עבור שתי תמונות של אותו אדם (וכאמור בפרט גם תמונות לפני ואחרי הדיאטה,כלומר לא בהכרח רגיש למבנה גוף). יחד עם זאת,חשוב לי לציין שבשלב זה ביצועי המשערך אינם משביעים את רצוני בכלל-מהניסוי הקודם עולה שהמשערך יקטלג את רוב האנשים שאינם בעלי עודף משקל,כבעלי עודף משקל .מובן מדוע בשלב זה לא אפרסם דבר כזה באתר זה נובע,בין היתר,מה(Priorראה איור -32התפלגות המידע של Face2BMIכפונקציה של ה.)BMI מכיוון שהמשערך הראה שיתכנו ביצועים גבוהים בתחום זה,ומכיוון שאני לא רוצה להעליב את אוכלוסיית אלה שאינם בעלי עודף משקל,החלטתי לייצר מאגר מתוייג של BMIמדוייק,כאשר האוכלוסיה היא לא בהכרח אנשים שהרזו כמו שנעשה עד כה (ואז יש Biasלכיוון אוכלוסיית בעלי עודף המשקל כפי שראינו בניסוי קודם). יש עוד מאמר בנושא ] [12שבלשון המעטה לא לטעמי (הסיבות לדעה שלי הן מחוץ למסגרת עבודה זו),אך הם השתמשו במאגר מפורסם של תמונות אסירים שנקרא [13] Morph2שמכיל קצת יותר מ 55,000תמונות של אסירים (יותר מ 80%מהם שחורים,ומעל 85%גברים) כאשר גישה למאגר נמכרת ב .$199יחד עם זאת,המידע על ה BMIשל האסירים לא מפורסם כחלק מהמאגר (הגישה למידע זה היתה רק לכותבי המאמר ].)[12 כהערת אגב,המאגר הזה נמצא בשימוש כבר יותר מ 12שנים עבור הערכת גיל באקדמיה (כולל מאמרים שפורסמו למשל ב )cvpr2018למרות שהוא מאוד מאוד biasedגם מבחינת הגילאים (יש שונות נמוכה ובנוסף אין נוער או ילדים),וגם מבחינת ההרכב האתני/מגדרי. בדקתי בעצמי,ומסתבר שבארה"ב למשל המצב הוא שלכל Stateיש מאגר אסירים,וחלק ממאגרים אלה פתוחים לגמרי-לרבות תמונת האסיר,הגובה והמשקל שלו כאשר התמונה נלקחה,תאריך לידה מדוייק והתאריך כאשר נלקחה התמונה,המוצא האתני ורשימת העבירות שבוצעו לאורך השנים ע"י אותו אסיר. הגובה והמשקל המדוייקים הם בדיוק מה שהייתי צריך בשלב הזה של העבודה. לכן ובאופן טבעי,הכנתי מאגר משלי של תמונות אסירים (מכיל מעל 230,000תמונות),עם תיוגים מדוייקים של משקל\גובה ובנוסף ישנם באופן יחסי הרבה יותר לבנים בתמונות (ההתפלגות היא בערך .)40\60 הנה התפלגות המידע של מאגר זה כפונקציה של ה:BMI Prisoners BMI distribution 30000 25000 20000 15000 #Images 10000 5000 0 100 80 40 60 0 20 BMI איור -35התפלגות הBMIשל האסירים כפי שניתן לראות,אם נשווה עם המאגר שבו MITהשתמשו: .1מאגר זה גדול פי יותר מ100 .2קיימים אנשים בתת משקל (כלומר,יותר מ 4דוגמאות) .3אין biasלעודף משקל,ולמעשה יצא גרף שנראה כמו התפלגות נורמלית עם ממוצע של 24בערך. לאחר Finetuning/Transfer Learningעל המידע הזה,אלה התוצאות על ה Test setשל ( MITרציתי להשוות את אותן תמונות בדיוק): Classified Obese Overweight Normal 1 57 50 Normal 23 126 51 Overweight 289 174 8 Obese Truth ניתן לראות שהדיוק (מבחינת הסיווג) על אנשים אשר ה BMIשלהם נורמלי עלה,בעוד שהדיוק על אנשים בעלי עודף משקל כבד ירד-שוב זה כתוצאה ישירה מהתפלגות המידע עליו המערכת למדה .בשלב זה לא הייתי מסופק מכיוון שהטעות על אנשים שאינם בעלי עודף משקל היא עדיין גדולה ולכן החלטתי לאמן את כל המערכת מחדש,כאשר BMIהוא המשימה ה"חדשה" שהתווספה לשאר המשימות,ואז התוצאות הן: Classified Obese Overweight Normal 0 14 94 Normal 1 45 154 Overweight 29 287 155 Obese Truth ניתן לראות שקיימת כעת נטיה עבור המסווג לטובת BMIתקין(נורמלי)-שוב,מכיוון שכך היא האוכלוסיה. את רוב האנשים בעלי משקל תקין הרשת סיווגה נכון,אך את רוב אלה בעלי עודף משקל קל,היא עדיין סיווגה בתור עודף משקל תקין,בעוד שאת אלה בעלי עודף משקל כבד היא סיווגה בתור בעלי עודף משקל קל. למרות אחוז ה"דיוק" הנמוך יותר עבור רשת זו עבור ה Test setשל (MITזה קורה מכיוון שהקטגוריה הדומיננטית שם היא בעלי עודף משקל כבד),אעדיף אותה על פני הרשת הראשונה,שנוטה מאוד לטובת BMIשמתאים לעודף משקל כבד-בכל מקרה אינני מרוצה לגמרי מאף אחת מהתוצאות של הרשתות אותן אימנתי בקטגוריה זו. למרות זאת,בכל מקרה אני אסיק מכל האמור לעיל (ראה איור -34המשערך שלי לעומת המשערך של החבר'ה מ MITולעומת הביצוע האנושי) שזוהי תכונה ניתנת ללמידה-גם אם ההרגשה שלי היא שאפשר לעשות יותר. 7.3מוצא אתני 7.3.1עבודות קודמות ככל הידוע לי,לא קיימות עבודות קודמות שקרובות לעבודה זו. העבודה הקרובה ביותר שמצאתי ] [14יצרה Datasetקטן ( 675תמונות) והשתמשה בשיטות למידה שמתאימות לגודל הקטן ( )PCA+SVMואז ניסתה לייצר מסווג בינארי עבור השאלה "האם זהו בריטי פקיסטני או לא?". 7.3.2ניסוי ראשון-מסווג נאיבי כהרגלי,אסתכל על ביצועי המסווג שהזכרתי בתחילת הפרק,ואמשיך משם לפי התוצאות שהתקבלו ממסווג זה. כאשר הצגתי את התפלגות האוכלוסיה לפי מוצא אתני (ראה איור -9התפלגות הגברים לפי מוצא אתני איור -10 התפלגות הנשים לפי מוצא אתני ) כתבתי שכפי שניתן לראות התפלגות הגברים והנשים לפי מוצא אתני דומה אך ההבדלים הם: .1מספר הנשים ההודיות שקיימות במאגר-רק קצת יותר מ( 2000לעומת יותר מ 10אלף גברים). .2ישנן באופן יחסי,הרבה יותר נשים שחורות מגברים שחורים במאגר. .3יש מספר זעום של אנשים ממוצא אסיאתי,כאשר מספר הגברים בקטגוריה זו כפול ממספר הנשים. כעת נראה אם וכיצד הבדלים אלו משחקים תפקיד עבור המסווג הנאיבי. אציין בקצרה את ביצועי הרשת (מבחינת דיוק,למרות שהתמונה האמיתית מתבהרת כאשר מסתכלים על ה :)confusion matrixעבור גברים הביצועים (דיוק) הם 85.7%ועבור נשים .87.1% בניתי Confusion matrixעל סט הולידציה,ובנוסף רציתי לראות את ההבדל בין גברים לנשים (ניתן לחלק את המידע לעוד הרבה מאוד קטגוריות-אבל רציתי רק לגעת בנושא [גם כך הנגיעה שלי הרבה יותר עמוקה מהמאמר ] )] [14ולכן הרצתי בנפרד את הרשת עבור גברים ועבור נשים. Classified Native Truth Mixed Asian White American Black Latino Indian Mixed 130 28 236 0 333 111 10 Asian 11 89 25 0 7 11 12 White 9 17 8159 0 42 88 7 3 2 50 0 57 7 1 Black 75 0 47 0 3513 34 3 Latino 80 28 600 0 76 519 15 Indian 6 7 15 0 5 5 42 Native American עבור גבריםConfusion matrixה-36 איור Classified Native Truth Mixed Asian White American Black Latino Indian Mixed 208 20 188 0 478 286 0 Asian 8 75 12 0 5 37 0 White 17 1 7329 0 23 164 0 5 0 45 0 23 23 0 Black 82 3 42 0 4415 43 0 Latino 53 0 259 0 36 746 2 Indian 4 12 0 14 9 1 Native American עבור נשיםConfusion Matrixה-37 איור אפשר ללמוד הרבה מאוד ממטריצות אלה .הדברים שבולטים בעיניי: .1המסווג לא הכליל עבור נשים הודיות ( -ישנן 2000נשים הודיות ו 10000גברים הודים במאגר -שניהם הם אחוזים זעומים במאגר הכללי) –אחוז הדיוק עבור נשים הודיות הוא אפסי (סיווג נכון רק הודית אחת),בעוד שאת רוב הגברים ההודיים המסווג סיווג נכון .זה מצביע על נקודת חולשה בולטת מבחינת יכולת ההכללה בנושא "גברים-נשים" ואותו רקע אתני. .2המסווג יודע לזהות בצורה יותר טובה נשים לטיניות לעומת גברים לטיניים (למעשה הדיוק עבור גברים לטיניים קטן מ -50%והוא נוטה להתבלבל עם גברים שחורים) .זו תוצאה מעניינת :אומנם במאגר יש באופן יחסי פחות גברים לטיניים (לעומת נשים לטיניות) אבל הרבה יותר נשים שחורות(יותר מ 400אלף לעומת יותר מ 200אלף גברים שחורים) ולכן הייתי מצפה שיהיה למסווג יותר "משתלם" "להתבלבל" לכיוון נשים שחורות .הדבר עשוי להצביע על סוג של "רוויה"-כלומר במקרה הספציפי הזה,מעל מספר מסויים של תמונות,עוד תמונות לא מלמדות "הרבה" את המסווג. .3באופן יחסי למספר הזעום של אסיאתים במאגר,המסווג נותן ביצועים מצויינים בקטגוריה זו,וכצפוי עבור גברים הביצועים הם יותר גבוהים מאשר עבור נשים. .4המסווג לא סיווג אפילו תמונה אחת בתור אינדיאני (-)Native Americanוזאת למרות שמספר הדוגמאות שיש למסווג באותו סדר גודל של האנשים האסיאתיים(ישנן יותר נשים אינדיאניות מאסיאתיות) .ניתן להסיק מכך שזו משימה יותר קשה. מסקנות מהניסוי הראשוני (רשימת ה"קניות" על מנת שהמסווג יהיה ברמה גבוהה): עליי להוסיף עוד תמונות של נשים הודיות באופן דחוף (עוד תמונות של הודים בהחלט לא יזיקו)עליי להוסיף עוד תמונות של עוד גברים לטיניים (עוד תמונות של נשים לטיניות לא יזיקו)-אופציונלי לצרכי מחקר:להוסיף עוד תמונות של אינדיאנים. הוספתי פרופילים בהתאם לרשימה לעיל,ואחרי ההוספה התפלגות האוכלוסיה לפי מוצא אתני היא כזו: Males by ethnicity 682129 146024 210583 68593 Indian 70308 12490 Latino Black Native American White Asian 126742 800000 700000 600000 500000 400000 300000 200000 100000 0 Mixed #Images איור -38התפלגות הגברים לפי מוצא אתני לאחר ההוספה Females by ethnicity 700000 604332 600000 500000 430270 400000 300000 157479 27743 59969 16914 92463 200000 100000 0 Indian Latino Black Native American White Asian Mixed #Images איור -39התפלגות הנשים לפי מוצא אתני לאחר ההוספה לאחר ההוספה הנ"ל (קצת יותר מ 340,000תמונות הוספו) מדדתי ביצועים על אותו סט ולידציה בדיוק(ללא שינוי) .הדיוק עבור נשים וגברים בהתאמה( 86.0%,86.7%:במדד הזה הביצועים כמעט זהים לחלוטין לביצועים שלפני הוספת קבוצות המיעוט) ואלה ה Confusion matrixלאחר ההוספה: Classified Native Latino Indian Black American Asian White Mixed Truth 51 152 372 0 183 35 57 Mixed 25 14 4 0 9 102 1 Asian 42 171 39 0 8053 17 3 White 3 14 58 0 44 1 0 10 38 3547 0 43 5 29 Black 51 682 98 0 407 41 41 Latino 57 4 6 0 10 1 2 Indian Native American איור -40ה Confusion matrixעבור גברים Classified Native Latino Indian Black American Asian White Mixed Truth 7 258 525 0 179 46 165 Mixed 2 19 6 0 13 95 2 Asian 5 210 29 0 7256 19 15 White 0 17 28 0 45 2 4 1 39 4452 0 37 4 52 Black 20 751 57 0 226 24 30 Latino 6 7 13 0 1 1 4 Indian Native American איור -41ה Confusion matrixעבור נשי מהשוואה בין הביצועים לפני ההוספה ואחריה,אפשר לומר "בגדול" שה"תשלום" עבור ביצועים יותר טובים עבור קבוצות המיעוט(קבוצות אתניות שמופיעות בצורה פחות שכיחה במאגר המידע) הוא ביצוע מעט פחות טוב על קבוצות הרוב(לבנים ושחורים-שכיחים במאגר המידע) .במילים אחרות,המסווג הגזעני בעולם צריך חיזוקים של קבוצות המיעוט. קונקרטית הנה הביצועים לפני ואחרי על קבוצות הרוב (לבנים ושחורים) (הנתונים הבאים ניתנים לחישוב ישירות מ 4ה confusion matricesשהובאו ולנוחיות הקורא): Black Black Male Female White White Accuracy Male Female 96.3% 97.2% 95.7% Before 98.0% 96.7% 96.3% 96.6% After 96.7% ניתן לראות שהביצועים ירדו באחוז בערך על הלבנים בעוד שאין הבדל עבור השחורים (עבור גברים שחורים הביצועים עלו מעט,אך לדעתי זה כנראה מהאופי הסטוכססטי של האימון). נבחן את קבוצות המיעוט לפני ואחרי ההוספה. Latin Latian Indian Indian Asian Female Male Male Female 68.0% 39.3% 2.5% 52.5% 67.8% 51.6% 69.3% 71.25% 18.75% Male Female 54.7% Asian Accuracy Before 57.4% After 65.8% ניתן לראות שהביצועים עבור קבוצות המיעוט עלה (כצפוי) -פרט ל 2הפתעות-ביצועים גרועים עבור נשים הודיות, (התירוץ הוא שהוספתי "רק" כ 20אלף תמונות של נשים הודיות)-ובנוסף הופתעתי לגלות שהביצוע עבור נשים לטיניות לא עלה,למרות שמספר הדוגמאות גדל ב( 50%מ 100ל 150אלף) .בנוסף,עדיין שום תמונה לא סווגה כאינדיאני-מה שמעיד על קושי המסווג עבור קבוצה אתנית זו. בכל אופן,ניתן לראות שהביצועים עבור רוב הקבוצות האתניות הוא יותר טוב מביצוע אקראי (ולמעשה עבור כמעט כל הקבוצות האתניות,הדיוק הוא מעל ,50%למרות התפלגות המידע). בתור עבודה עתידית,אפשר לקחת התפלגות אחידה של הקבוצות האתניות השונות ולראות איך הביצועים משתנים,וגם להבין מה גורם למסווג להחליט לאיזו קבוצה אתנית תמונה שייכת (אני מניח שזה עשוי להיות נושא רגיש). 7.3מזלות ככל הידוע לי,לא קיימות עבודות קודמות בנושא שערוך מזל לפני תמונות פנים. בכל מקרה,יש אנשים שמאמינים בעיניין של מזלות,הורוסקופים וכו‘ –ומאמינים שאנשים ששייכים למזלות שונים הם בעלי אופי שונה,ואף שכוכבי לכת שונים משפיעים על המזלות השונים. בפרק זה אשאל את השאלה-האם ניתן ללמוד איזה מזל אדם מסויים מתמונות פנים? בחרתי לא להציג גרף של מספר התמונות כפונקציה של המזל מפני שההתפלגות כמעט אחידה. 7.3.1ניסוי-מסווג נאיבי בניסוי זה אבחן את ביצועי המסווג הנאיבי באותה שיטתיות בה בחנתי את ביצועיו בפרקים קודמים. מכיוון שביצועי המסווג (פר מזל) לא היו טובים,בחרתי לשאול אם בכלל יש "אות" כלשהוא. עשיתי זאת בדרך הבאה :עבור כל תמונה בסט הולידציה,נסתכל על 6המזלות הכי "סבירים" מבחינת המסווג. אם המזל הנכון נמצא שם,הסיווג יחשב נכון,אחרת יחשב לא נכון. לאחר מכן,אשווה את ביצועי המסווג,למסווג שתמיד מוציא כפלט את 6המזלות הכי נפוצים במאגר (הוא "מסווג" לאותן מזלות בלי קשר לתמונה ולכן אקרא לו מעתה "המסווג הקבוע"). בנוסף,מכיוון שחילקתי את התוצאות לנשים וגברים בנפרד בפרקים הקודמים,אציג את התוצאות באותה צורה בקטגוריה זו. התוצאות עבור נשים: 53.6%הצלחה (כפי שהגדרתי לעיל) למסווג שאימנתי 51.7%,למסווג הקבוע. התוצאות עבור גברים: 50.9%הצלחה למסווג שאימנתי 52.4%,למסווג הקבוע. כפי שאולי ניתן היה לצפות מראש,התוצאות עבור המסווג שאימנתי אינן יותר טובות מה"מסווג הקבוע". בנוסף,ההתפלגות של מאגר המידע היא כמעט אחידה כפונקציה של המזל (בניגוד לפרק על נטיה מינית למשל,בו שיניתי את התפלגות האוכלוסייה שעליה המסווג למד) ולכן בשלב זה אסיק שמזל אינו ניתן ללמידה מתמונות פנים (לפחות לא עם האלגוריתמים הכי מתקדמים שקיימים היום). יש לציין שפלט המסווג עבור קטגוריה זו הוא גם "אחיד"-כלומר ה"הסתברות" היא בערך 1/12לכל מזל עבור רוב התמונות. 7.4אינטלגנציה\השכלה 7.4.1עבודות קודמות בעבודה היחידה שידועה לי ] [15בנושא שיערוך אינטלגנציה בעזרת תמונה,מדדו את האינטלגנציה של 80 סטודנטים לביולוגיה ( 40גברים 40,נשים) ואז נתנו ל 160מדרגים (מהפקולטה ללימודים הומניסטיים) לשערך את רמת האינטלגנציה של כל אחד מה 80הללו .בעבודה זו הגיעו למסקנה שיש קורלציה גבוהה בין השיערוך לבין רמת ה אינטלגנציה כאשר משערכים תמונה של גבר,אבל לא בתמונה של אישה (בלי קשר למין האדם שמשערך). 7.4.2ניסויים-שיערוך רמת האינטלגנציה באמצעות רמת ההשכלה בעולם אידאלי,כחלק ממאגר המידע,היה לי המידע לגבי רמת המשכל המדוייקת עבור כל אחת מהתמונות-אבל זה לא המצב .לכן בחלק זה אתייחס ל IQבתור latent variableאשר תלוי במשתנה אחר שהוא כן -Observable רמת ההשכלה .לרמת ההשכלה יש לי תיוג מדוייק עבור מליוני אנשים ולכן בחרתי בדרך זו .אציין שדרך זו נובעת לא רק מההיגיון שלי אלא גם מבוססת על מחקרים (למשל ] ([16שמראים קשר ישיר בין משתנים אלה. אציין שיש עוד משתנים שיכולים להשפיע (גיל,רקע סוציו-אקונומי,נסיבות חיים) על רמת ההשכלה,אך בעבודה זו אתייחס לשאר המשתנים בתור "רעש"-בין אם יש לי הנתונים המתאימים כדי לבודד אותם ובין אם לא. 7.4.3התוצאות על המסווג הנאיבי בחרתי הפעם שלא להביא את ה Confusion matrixשל הסיווג של המסווג ה"נאיבי" (אותו מסווג שהזכרתי בתחילת הפרק שאומן על יותר מ 3מיליון תמונות-שמרתי את המטריצה למקרה הצורך) מכיוון שמצאתי שהיא לא אינפורמטיבית,אלא פשוט לכתוב את המסקנות: .1כצפוי,המחלקה אליה המסווג נוטה היא – High Schoolהמחלקה הנפוצה ביותר ב Dataשיש לי. .2ככל שרמת ההשכלה עלתה,כך גם הנטיה של המסווג לסווג את האדם בתור בעל השכלה . 3מעיון (ידני) על פני מספר אנשים,ניכר שהתפלגות מוצא המסווג שונה לגמרי עבור אנשים בעלי השכלות שונות. בשלב זה נשים לב שהתיוגים לגבי ההשכלה יחודיים מפני שאפשר לדבר כאן על יחס בין התוויות,כלומר אנחנו נצפה (בממוצע!) למשל שאדם בעל דוקטורט יהיה בעל מנת משכל גדולה יותר מאדם בעל תואר ראשון ,ואדם בעל תואר ראשון באותו אופן בעל מנת משכל גדולה (שוב,בממוצע!) יותר מאדם שסיים תיכון. 7.4.3ניסוי שני-האם ישנו אות משמעותי? בהתאם לכך ובצורה הפשוטה ביותר,כדי לראות אם יש איזהשהוא "אות" שאפשר לפרשו בצורה פשוטה,החלטתי ל בצע "המרה" ישירה מרמת ההשכלה לרמת האינטלגנציה ע"י הטבלה הבאה (הנתונים התקבלו במחקר שנעשה בארה"ב ומתייחסים לממוצע של כל קבוצת אנשים): Education Level IQ level 87 No High School Diploma 99 High School 104 Associate degree 113 Bachelor’s degree 117 Master’s degree 124 Phd and up איור -42ההמרה מרמת ההשכלה לרמת האינטלגנציה בהינתן פלט המסווג (למרות שלא מדובר בהסתברויות ממש גם כאשר זהו הפלט של ,Softmaxאתייחס לפלט המסווג בתור הסתברויות),אעריך עבור כל אדם את תוחלת מנת המשכל שלו בהתאם לטבלה הנ"ל (כלומר אכפיל את ה"הסתברויות" שמוציא המסווג לכל מחלקה,בממוצע המצויין באיור -42ההמרה מרמת ההשכלה לרמת האינטלגנציה המתאים לכל מחלקה). אז הנה הניסוי עצמו :באופן דומה לגישה בה נקטו בסטנפורד בהערכת נטיה מינית,בכל "תת ניסוי" אריץ את האלגוריתם על 2תמונות של אנשים בעלי השכלה שונה,ועבור כל אחד מהם אעריך בעזרת המסווג את מנת המשכל בדרך שתיארתי לעיל .אם מנת המשכל המשוערכת של האדם בעל ההשכלה הגבוהה יותר יותר גבוהה ממנת המשכל המשוערכת של האדם השני,אחשיב תת ניסוי זה ל"האלגוריתם הצליח",אחרת "האלגוריתם נכשל". ביצעתי " 40,000תתי ניסויים" כאלה על זוגות של תמונות עבור כל מגדר,ובנוסף לכך שמרתי את הנתונים לפי ההבדל האמיתי בין רמות ההשכלה-למשל ההבדל בין בעל תואר דוקטור ( )124לבין בעל תואר שני ( )117יהיה .124-117=7 הנה התוצאות עבור 2*40,000תת הניסויים,מחולקים כהרגלי לפי מגדר,כאשר כל גרף מוצג כפונקציה של הבדל המושערך בין מנות המשכל (לפי התיוגים האמיתיים של רמות ההשכלה,מומרים על פי איור -42ההמרה מרמת ההשכלה לרמת האינטלגנציהלמנות משכל משוערכות): Accuracy vs difference in estimated IQ-Female 100.00% 80.00% 60.00% 40.00% 20.00% 0.00% 30 25 20 15 10 5 0 Difference in IQ estimate איור -43הצלחת המסווג עבור נשים כפונקציה של ההבדל המשוערך בין מנת המשכל Accuracy vs difference in estimated IQ-Male 100.00% 80.00% 60.00% 40.00% 20.00% 0.00% 30 25 20 15 10 5 0 Difference in IQ estimate איור -44הצלחת המסווג עבור גברים כפונקציה של ההבדל המשוערך בין מנת המשכל מהגרפים לעיל אפשר להסיק מספר דברים: . 1אפשר לראות שככל שההבדל בין האייקיו המשוערך (יש לזכור שהוא פשוט תלוי בהבדל בין רמות ההשכלה של שני האנשים בכל תת ניסוי שכזה) גדל,כך גם למסווג יותר קל להבחין בין האדם בעל "מנת המשכל" הגבוהה יותר ל"מנת המשכל" הנמוכה יותר .2ישנו "אות" ברור למרות הרעש (כאמור,רמת ההשכלה תלויה בהרבה גורמים שונים,שהתייחסתי אליהם כאל רעש-אך ברור שאותו אדם ממש בנסיבות שונות עשוי להיות ללא תואר או בעל דוקטורט). .3בניגוד למחקר הפסיכולוגי שפורסם בעבר (] ) [15אני לא רואה הבדל מהותי מאוד בין הערכת אינטלגנציה בגברים או בנשים (המחקר הגיע למסקנה שעבור נשים,אנשים לא יכולים להבחין ברמת האינטלגציה על סמך תמונות). זה יכול לנבוע ממספר סיבות: יתכן שמספר הדגימות במחקר שציינתי (היו סה"כ 80תמונות) לא היה מספיק גדול .בנוסף,הדגימות נעשומסטודנטים בלבד,ואני לא בטוח שבכל אופן זו אוכלוסיה שמייצגת היטב את האוכלוסיה הכללית. יתכן שאנשים מסווגים אינט לגנציה פחות טוב בנשים לעומת האלגוריתם (אציין שזוהי ממש השערה לאמבוססת,אני חושב שאפשר לאשש מדעית השערה כזו רק כאשר משווים את הביצועים על אותו .)Data ניסיתי להשיג את התמונות מהמחקר שציינתי,אך הכותב הראשי (פרופסור ירוסלב) אמר שאין לו רשות מהנבדקים לפרסם את התמונות( .המאמר עצמו משתף איזוהיא טבלת אקסל בלבד ללא תמונות בתור ה”.)”dataset בכל מקרה,התוצאות הנ"ל לא משאירות לי מנוס מלהגיע למסקנה הסנסציונית שהאלגוריתמים שקיימים היום יכולים להבחין באינטלגנציה,גם בגברים וגם בנשים! 7תוצאות-סיכום סיכום התוצאות מהפרק הקודם: הראיתי שניתן ללמוד מבנה גוף,מוצא אתני,אינטלגנציה וגם נטיה מינית (במובן מסויים) אך לא מזל. בנוסף ראינו פעם אחר פעם את רגישות האלגוריתמים שקיימים כיום להתפלגות האוכלוסיה עליה מתאמנים. מכיוון שעבודה זו נכתבת בסגנון שלי-אציג את סיכום התוצאות גם בדרך שלי. בסופו של יום ,מה שהכי רלוונטי בעיניי הוא ,איך האלגוריתם עובד בעולם האמיתי. 7.1השוואה ל MicrosoftוAmazon ב"עולם האמיתי" יש לי משהו יפה להראות: קיים אתר של /https://www.how-old.net Microsoftשמשתמש ב APIש Microsoftמוכרים בכסף (.)per call יש לציין ש Microsoftכבר מספר שנים משפרים את ביצועי המערכת שלהם (הנה קטע משעשע מתחילת הדרך של האתר של -Microsoft )https://www.youtube.com/watch?v=xv-_ctQpIuY בנוסף יש ל Amazonשירות שנקרא ( Amazon Rekognitionה K-זו לא טעות) ושוב,אמאזון מציעים למפתחים גישה ל APIשמעריך גיל ומגדר. אני בניתי אתר (חובבני,אני יודע-סה"כ הקדשתי רק מספר שבועות ללימוד בניית אתרים וגם שרת). http://how-look.comוהעליתי את אלגוריתם הלמידה העמוקה לשרת כך שכל אחד יכול להריץ תמונה ולהשוות את האלגוריתם שלי עם האלגוריתמים של Microsoftו.Amazon האתר שלי עובד בצורה פשוטה ע"י גרירת תמונה ל Browserאו בחירת קובץ. קשה לי לומר בכמה ,וה"כמה" תלוי באיזה סט תמונות לוקחים ,אבל באופן כללי האלגוריתם שלי עובד יותר טוב מהאלגוריתמים ש Microsoftו Amazonפיתחו במשך הזמן(היו להם מספר שנים),גם מבחינת חיזוי המגדר וגם מבחינת חיזוי הגיל( .לצערי אין אפשרות להשוות קטגוריות אחרות שאימנתי-כי הן לא קיימות בחברות הנ"ל). בשלב זה אני בוחר באתר להביא את כל הנתונים לרבות אינטלגנציה (בצורת "נראה יותר חכם מאיקס אחוזים מהאוכלוסיה",כאשר אני משווה את הנתונים לאוכלוסיית סט הבוחן) פרט לפלט המסווג על הנטיה המינית למרות שראינו שנטיה מינית היא בעיה יותר "קלה" מאינטלגנציה-מכיוון שזהו נושא רגיש ואי הדיוקים כרגע "גדולים" מדי לטעמי. 7.2הערה קטנה עיניין שאף מאמר מעשרות המאמרים שקראתי בתחום חיזוי הגיל ע"י תמונה לא התייחס אליו ,אבל שמתי לב אליו בפועל ,הוא ההבדל בין גיל כרונולוגי לגיל ביולוגי. כלומר אדם יכול להיות בגיל ביולוגי נמוך או גבוה מהגיל הכרונולוגי שלו ].[17 הדבר ניכר כאשר לקחתי תמונות של עצורים מארה"ב -באופן כללי הגיל החזוי היה יותר גבוה מהגיל הכרונולוגי (אני מניח שהדבר נובע מנסיבות חיים יותר קשות,אך יתכן שמאורח חיים פחות בריא [עישון,סמים,אלכוהול]). אני לא מבין דבר בתחום אז אני לא יכול להרחיב,אבל אני חושב שחשוב לציין את זה. באופ ן כללי ,אם האוכלוסיה עליה מריצים את האלגוריתם תהיה שונה מהותית מהאוכלוסיה עליה אימנתי אתהרשת ,אצפה לתוצאות פחות טובות באופן יחסי. 9עבודות המשך אפשריות השקעתי בעבודה זו הרבה מאוד,אך אציין מספר דברים מעניינים שהייתי עושה אם היה לי אינסוף זמן (אעבוד בזמני החופשי על חלק מהדברים שאני הולך לציין): .1נטיה לאלימות :מאגר האסירים שהורדתי מאפשר לדעת אילו עבירות כל אסיר ביצע,ונראה לי מעניין אם אפשר (למשל) ללמוד נטיה לאלימות של אדם בהינתן תמונה בלבד. .2בריאות:יש לי מידע על הרגלי עישון,שתיה,צריכת סמים ומידת פעילות ספורטיבית-מעניין אם למידה אפשרית בתחום זה. .3ילדים :בעזרת סיווג גילאים ומגדר (שנלמדו כחלק מהמסווג אך לא הוצגו מכיוון שהרבה עבודות קודמות הראו שזה אפשרי) הורדתי מיליוני תמונות של משפחות-מעניין אם בהינתן זוג,מהו "מרחב הילדים" אותו הם יכולים לעשות (אני מכיר הרבה אחים ואחיות שדומים מבחינה חיצונית כך שאני מעריך שמרחב זה "לא גדול") ואם מרחב זה ניתן ללמידה מתמונות הורים וילדיהם בלבד( .אציין שהאלגוריתמים הגנרטיביים שבשימוש כיום לוקים בחסר לטעמי,בפרט תשאל כל "מומחה" ל GANאיך הוא בחר את קצב הלמידה). רשימת מקורות ]1[ .pp. 41-75, 1997 ,28 כרך,Machine learning ”,Multitask learning “ ,R. Caruana ]2[ The prevalence of homosexual behavior and attraction in the United “ ,R. L. J. A. W. a. D. W. Sell Archives of ”,.States, the United Kingdom and France: Results of national population-based samples .pp. 235-248, 1995 ,sexual behavior 24.3 ]3[ Journal of Machine ”,Random search for hyper-parameter optimization“ ,J. a. Y. B. Bergstra .pp. 281-305, 2012 ,Learning Research ]4[ Deep neural networks are more accurate than humans at detecting sexual “ ,Y. a. M. K. Wang .2017 ”,orientation from facial images ]5[ by homosexual and )”gaydar“( Detection of sexual orientation“ ,B. D. Lyons .& .M. L. A. B. G .pp. 345-352, 2014 ,Archives of sexual behavior ”,.heterosexual women ]6[ Accuracy of judgments of sexual orientation from thin slices of “ ,N. M. H. a. B. C. Ambady .1999 , Journal of personality and social psychology 77.3 ”,.behavior ]7[ Female sexual orientation is perceived accurately, rapidly, and “ ,N. O. N. A. a. K. C. H. Rule pp. ,Journal of Experimental Social Psychology 45.6 ”,.automatically from the face and its features .1245-1251, 2009 ]8[ Advances in neural ”,.Selective classification for deep neural networks“ ,Y. a. R. E.-Y. Geifman .2017 ,information processing systems ]9[ Face-to-BMI: using computer vision to infer body “ ,W. I. Kocabey .& .E. C. M. O. F. A. Y. M. J. T. A .2017 ,.arXiv preprint arXiv:1703.03156 ”,.mass index on social media ]10[ ”,.Face-to-BMI: using computer vision to infer body mass index on social media“ ,E. e. a. Kocabey .2017 ,arXiv preprint arXiv:1703.03156 ]11[ Proceedings ”,Dex: Deep expectation of apparent age from a single image“ ,R. T. a. L. V. G. R. Rothe .2015 ,of the IEEE International Conference on Computer Vision Workshops ]12[ ”,A computational approach to body mass index prediction from face images“ ,L. a. G. G. Wen .2013 ,Image and Vision Computing ]13[ .2006 ,IEEE Conf. on AFGR ”,a longitudinal image database of normal adult “ ,T. T. M. K. Ricanek ]14[ A Machine Learning Approach for Ethnic Classification: The “ ,M. T. Jilani .& .S. K. U. H. B. A. M. L. A .2017 ,Cyberworlds (CW), 2017 International Conference IEEE ”,British Pakistani Face ]15[ Perceived intelligence is associated with measured intelligence in men but “ ,K. V. C. a. J. F. Kleisner .2014 ,PloS one ”,not women ]16[ Increased educational level is related with higher IQ “ ,O. A. Tommasi .& .M. P. L. C. R. A. F. J. S. A ”,scores but lower g-variance: evidence from the standardization of the WAIS-R for Italy .2015 ,Intelligence ]17[ Statistical Models and Methods ”,.Virtual (Biological) Age Versus Chronological Age“ ,M. Finkelstein .pp. 69-81, 2008 ,for Biomedical and Technical Systems. Birkhäuser Boston