איחזור מידע אלגוריתמי חיפוש PageRank ד"ר אבי רוזנפלד שלבים למנוע חיפוש • בניית המאגר מידע ()Web crawler • בניית האנדקסים (לאנדקס )Index – ניקיון המידע מכפילותSTEMMING , • בניית התשובה – עיבוד השאלתה (הורדת )STOP WORDS – דירוג תוצאות ()PAGERANK • ניתוח התוצאות – FALSE NEGATIVE /FALSE POSITIVE – Recall / Precision Indexing Process זחלן רשת Web Crawler / – Identifies and acquires documents for search engine – http://en.wikipedia.org/wiki/Web_crawler • • • • • זחלן רשת הוא סוג של בוט או תוכנה שסורקת באופן אוטומטי ושיטתי את ה.WWW מדיניות של בחירה אשר מגדירה איזה עמוד להוריד. מדיניות של ביקור חוזר אשר מגדירה מתי לבדוק שינויים בדפים. מדיניות נימוס אשר מגדירה איך להימנע מעומס יתר של אתרים ולגרום להפלה של השרת. מדיניות של הקבלה אשר מגדירה איך לתאם בין הזחלנים השונים. ניתוח התוכן • בהיסתוריה אתיקה (לפני )GOOGLEהיה שימוש בתוכן כולל ניתוח האתר – תגי META – זמן הטעינה • אחרי GOOGLEיש ניתוח של מבנה הרשת The History of PageRank • PageRank was developed by Larry Page (hence the name Page-Rank) and Sergey Brin. • It is first as part of a research project about a new kind of search engine. That project started in 1995 and led to a functional prototype in 1998. • Shortly after, Page and Brin founded Google. • 16 billion… PageRank – PageRank is a link analysis algorithm which assigns a numerical weighting to each Web page, with the purpose of "measuring" relative importance. Based on the hyperlinks map An excellent way to prioritize the results of web keyword searches Link Structure of the Web • 150 million web pages 1.7 billion links Backlinks and Forward links: A and B are C’s backlinks C is A and B’s forward link Intuitively, a webpage is important if it has a lot of backlinks. What if a webpage has only one link off www.yahoo.com? Simplified PageRank algorithm • Assume four web pages: A, B,C and D. Let each page would begin with an estimated PageRank of 0.25. C A D B C A B • D L(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows: בפועל זה בדרך כלל יותר קשה לחשב... • פה Cהוא חשוב בגלל שיש לו קישור שנכנס מ ,Bחשוב בגלל שיש קישורים שנכנסים לו מכמה אתרים. • יש PageRankמצטבר אבל בתוספת שולית ( damping .d ,)factor • נניח שיש פה d=0.85אז ה PRשל = A אפשר לראות את המדד PAGERANK קידום אתרים במנועי חיפוש )Search Engine Optimization (SEO • בגלל ש PAGERANKהיה ידועה ,היו אנשים שקידמו אתרים(למה אבי רוזנפלד – אני – ראשון?) • בניית קישורים מלאכותיים – Link Farming ,Building • יצירת אתרי זבל– בלוגים ,מיילים וכדומה לאתר • סתם הוספת תוכן בתגי META אילן-השוואת האתרים של מכון לב ובר http://checkpagerank.net/ PageRank = 6/10 - מכון לב External Backlinks Referring Domains Backlinks EDU Backlinks GOV PR Quality 14765 1415 229 64 Very Strong Backlinks information provided by Majestic SEO PageRank = 7/10 - אילן-בר External Backlinks Referring Domains Backlinks EDU Backlinks GOV PR Quality 512427 9684 6730 1311 Very Strong "גוגל "פנדה המקוריPAGERANK לא רק על בסיס לא פורסם שוקל ותק הקישור שוקל מקור הקישור שוקל היעד של הקישור בניית שיטות של למידת מכונה לתת משקל לקישורים PageRank is now one of 200 ranking factors that Google uses to determine a page’s popularity. http://www.accuracast.com/articles/optimisation )2005 מJagger (העדכון/jagger/ • • • • • • • •