איחזור מידע

advertisement
‫איחזור מידע‬
‫אלגוריתמי חיפוש‬
‫‪PageRank‬‬
‫ד"ר אבי רוזנפלד‬
‫שלבים למנוע חיפוש‬
‫• בניית המאגר מידע (‪)Web crawler‬‬
‫• בניית האנדקסים (לאנדקס ‪)Index‬‬
‫– ניקיון המידע מכפילות‪STEMMING ,‬‬
‫• בניית התשובה‬
‫– עיבוד השאלתה (הורדת ‪)STOP WORDS‬‬
‫– דירוג תוצאות (‪)PAGERANK‬‬
‫• ניתוח התוצאות‬
‫– ‪FALSE NEGATIVE /FALSE POSITIVE‬‬
‫– ‪Recall / Precision‬‬
Indexing Process
‫זחלן רשת ‪Web Crawler /‬‬
‫‪– Identifies and acquires documents for search engine‬‬
‫‪– http://en.wikipedia.org/wiki/Web_crawler‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫זחלן רשת הוא סוג של בוט או תוכנה שסורקת באופן‬
‫אוטומטי ושיטתי את ה‪.WWW‬‬
‫מדיניות של בחירה אשר מגדירה איזה עמוד להוריד‪.‬‬
‫מדיניות של ביקור חוזר אשר מגדירה מתי לבדוק‬
‫שינויים בדפים‪.‬‬
‫מדיניות נימוס אשר מגדירה איך להימנע מעומס יתר‬
‫של אתרים ולגרום להפלה של השרת‪.‬‬
‫מדיניות של הקבלה אשר מגדירה איך לתאם בין‬
‫הזחלנים השונים‪.‬‬
‫ניתוח התוכן‬
‫• בהיסתוריה אתיקה (לפני ‪ )GOOGLE‬היה שימוש‬
‫בתוכן כולל ניתוח האתר‬
‫– תגי ‪META‬‬
‫– זמן הטעינה‬
‫• אחרי ‪ GOOGLE‬יש ניתוח של מבנה הרשת‬
The History of PageRank
• PageRank was developed by Larry Page (hence the name
Page-Rank) and Sergey Brin.
• It is first as part of a research project about a new kind
of search engine. That project started in 1995 and led to
a functional prototype in 1998.
• Shortly after, Page and Brin founded Google.
• 16 billion…
PageRank
– PageRank is a link analysis algorithm which
assigns a numerical weighting to each Web page,
with the purpose of "measuring" relative
importance.
 Based on the hyperlinks map
 An excellent way to prioritize
the results of web keyword
searches
Link Structure of the Web
• 150 million web pages  1.7 billion links
Backlinks and Forward links:
A and B are C’s backlinks
C is A and B’s forward link
Intuitively, a webpage is important if it has a lot of backlinks.
What if a webpage has only one link off www.yahoo.com?
Simplified PageRank algorithm
•
Assume four web pages: A, B,C and D. Let each page would begin with an
estimated PageRank of 0.25.
C
A
D
B
C
A
B
•
D
L(A) is defined as the number of links going out of page A. The PageRank of a
page A is given as follows:
‫בפועל זה בדרך כלל יותר קשה לחשב‪...‬‬
‫• פה ‪ C‬הוא חשוב בגלל שיש‬
‫לו קישור שנכנס מ‪ ,B‬חשוב‬
‫בגלל שיש קישורים‬
‫שנכנסים לו מכמה אתרים‪.‬‬
‫• יש ‪ PageRank‬מצטבר אבל‬
‫בתוספת שולית ( ‪damping‬‬
‫‪.d ,)factor‬‬
‫• נניח שיש פה ‪ d=0.85‬אז‬
‫ה‪ PR‬של ‪= A‬‬
‫אפשר לראות את המדד ‪PAGERANK‬‬
‫קידום אתרים במנועי חיפוש‬
‫)‪Search Engine Optimization (SEO‬‬
‫• בגלל ש ‪ PAGERANK‬היה ידועה‪ ,‬היו אנשים‬
‫שקידמו אתרים(למה אבי רוזנפלד – אני – ראשון?)‬
‫• בניית קישורים מלאכותיים‬
‫– ‪Link Farming ,Building‬‬
‫• יצירת אתרי זבל– בלוגים‪ ,‬מיילים וכדומה לאתר‬
‫• סתם הוספת תוכן בתגי ‪META‬‬
‫אילן‬-‫השוואת האתרים של מכון לב ובר‬
http://checkpagerank.net/
PageRank = 6/10 - ‫מכון לב‬
External
Backlinks
Referring
Domains
Backlinks EDU
Backlinks GOV
PR Quality
14765
1415
229
64
Very Strong
Backlinks information provided
by Majestic SEO
PageRank = 7/10 - ‫אילן‬-‫בר‬
External
Backlinks
Referring
Domains
Backlinks EDU
Backlinks GOV
PR Quality
512427
9684
6730
1311
Very Strong
"‫גוגל "פנדה‬
‫ המקורי‬PAGERANK ‫לא רק על בסיס‬
‫לא פורסם‬
‫שוקל ותק הקישור‬
‫שוקל מקור הקישור‬
‫שוקל היעד של הקישור‬
‫בניית שיטות של למידת מכונה לתת משקל לקישורים‬
PageRank is now one of 200 ranking factors that
Google uses to determine a page’s popularity.
http://www.accuracast.com/articles/optimisation
)2005‫ מ‬Jagger ‫ (העדכון‬/jagger/
•
•
•
•
•
•
•
•
Download