Massive Data Processing 01: Introduction http://net.pku.edu.cn/~course/cs402/2014 闫宏飞 北京大学信息科学技术学院 7/1/2014 Contents • • • • • 01 Introduction (1~18) 02 MapReduce Basics (19~38) 03 Basic MapReduce Algorithm Design (39~64) 04 Inverted Indexing for Text Retrieval (65~86)) 05 Graph Algorithms (87~105) 2 Buzzwords(流行词) Google App Engine(谷歌应用引擎) Smart city(智慧城市) Amazon EC2 Internet of Things(物联网) Big data(大数据) Cloud computing(云计算) Utility Computing(效用计算) SaaS(软件即服务) Hadoop Social media(社交媒体) Urban computing(城市计算) Memex Mobile PaaS(平台即服务) IaaS(基础设施即服务) Memex(梅米克斯) • 个人的“梅米克斯”,可记录人所看到听 到的一切,需要时快速检索出来 • 世界的“梅米克斯”,即建立文本、音乐 、图象、艺术、电影的“全集”,可回答 有关的任何提问,像人类专家那样快而好 地做索引,做文摘。 人类公开资源(Kelly, Kevin (may 14, 2006). “Scan This Book!”. ) • 估计至少有 – 320万本书,7.50亿篇文章 – 2千5百万首歌, 50万部电影 – 5亿个图像,3百万个视频、电视节目和短片 – 1000亿网页 • 超星扫描了200多个图书馆中的130万 本中文书,大约是1949年以来中文出 版书籍的一半 超星2014年1月提供服务的资源 • 超星读书(http://book.chaoxing.com/ )近40 万本电子书 • 超星视频(http://video.chaoxing.com/) – 98,593集,专题、课程7,839门, – 名师5,850位,博导4,320,院士285 Google Books计划 • 2004年12月开始,目的扫描书和杂志,使 用字符识别软件确认文本的字、词、句和 段落,将数字化图像转化为数据化文本。 • 2013年4月,扫描3千万本 – 2010年,全世界估计有1.3亿本书 – 2008年11月,数字化700万本 – 2007年,数字化100万本。 • 2007年9月,发布”My Library” Google Books全自动翻页高速书本扫描仪 • 内含一个置书槽,可放置 各种尺寸厚薄的书本,只 要往书槽放置,选定参数 就会自动翻页扫瞄每小时 扫瞄可高达 1200 页, • 一位操作员可轻松的照顾 五台扫瞄机,每小时的总 产可达到 5,000 页。 Google Books 工程师开源“线性书本扫描仪 • Google 的图书扫描计划数字化全球近 1.3 亿本图书,Dany Qumsiyeh 与团队成员还是在近日 对外介绍并开源了一个“线性书本扫描仪 (Linear Book Scanner)” • 可自动翻页的书本扫描仪能在 90 分钟内将一本 1000 页的书本变成电 子格式,扫描过程当中无需人工介入操作。设备的材料成本为 1500 美 元. ReCaptcha与数据再利用 (Luis von Ahn) • 人们需要从计算机光学字符识别程序无法识别的 文本扫描项目中读出两个单词并输入。 – 其中一个单词其他用户也识别过,从而可以从该用户的输入中判断注册 者是人; – 另一个单词则是有待辨识和解疑的新词。为了保证准确度,系统会将同 一个模糊单词发给五个不同的人,直到他们都输入正确后才确定这个单 词是对的。 • 在这里,数据的主要用途是证明用户是人,但它 也有第二个目的:破译数字化文本中不清楚的单 词。 类似项目 • Internet Archive每天数字化1000本书,同 时也做Google Books和其他来源数字化书 的镜像。 – 2011年5月,280万册书 • 微软2006年底发起的一个类似Google Books的Live Search Book计划 – 2008年5月取消。其所有30万资料存于Internet Archive Minority Report (电影《少数派报告》) • 预测与惩罚,不是因为“所做”,而是因为“将做”。 Tom Cruise The best thing since sliced bread? • Before clouds… – Grids – Vector supercomputers –… • Cloud computing means many different things: – – – – Large-data processing Rebranding of web 2.0 Utility computing Everything as a service 13 Rebranding of web 2.0 • Rich, interactive web applications – Clouds refer to the servers that run them – AJAX as the de facto standard (for better or worse) – Examples: Facebook, YouTube, Gmail, … • “The network is the computer”: take two – User data is stored “in the clouds” – Rise of the netbook, smartphones, etc. – Browser is the OS Source: Wikipedia (Electricity meter) Utility Computing • What? – Computing resources as a metered service (“pay as you go”) – Ability to dynamically provision virtual machines • Why? – Cost: capital vs. operating expenses – Scalability: “infinite” capacity – Elasticity: scale up or down on demand • Does it make sense? – Benefits to cloud users – Business case for cloud providers I think there is a world market for about five computers. 16 Everything as a Service • Utility computing = Infrastructure as a Service (IaaS) – Why buy machines when you can rent cycles? – Examples: Amazon’s EC2, Rackspace • Platform as a Service (PaaS) – Give me nice API and take care of the maintenance, upgrades, … – Example: Google App Engine • Software as a Service (SaaS) – Just run it for me! – Example: Gmail, Salesforce 17 von Neumann Model vs. MapReduce Model Google Cloud Platform • provides cloud computing services that allow you to build applications and websites, store data and analyze data on Google’s infrastructure. – Over 3 million apps deployed to Google Cloud Platform – App Engine is a platform as a service that uses familiar technologies to build and host applications on the same infrastructure used at Google. Amazon Web Service • 2006年,亚马逊先后推出了包括 EC2、S3 ( Simple Storage Service)、CloudWatch(管理 类服务)在内的AWS服务, • 这些服务在之后的若干年为亚马逊占领云的IaaS 市场奠定了很好的基础,也使得亚马逊成为可以 提供大规模云基础设施平台的公司。 云价格比较 云盘:百度2TB,腾讯10TB 智慧地球、物联网与云计算 智慧的地球 云计算促进物联网和 互联网的智能融合 云计算是物联网的核心 互联 网 物联 网 云计算 智慧的地球,从智慧城市开始 •高速宽带网路 •智慧的电力 •建筑能耗评估监测 •水处理/水资源管理 •自动收费 •票务管理 •运输信息管理 智慧的交通 •电子病历 •家庭健康服务 •医疗费用管理 智慧的医疗 •犯罪信息仓库 •突发事件响应 •数字监控系统 智慧的公共安全 充 分 整 合 全面感知 智慧 城市 智慧的公共事业 协 同 运 作 •开放式学习 •先进教室 •智慧的科技园区 智慧的教育与科技 •失业保险金管理 •就业服务 •家庭服务 •住宅信息管理 激励创新 智慧的市民服务 大数据 Data from the Physical World • Common characteristics • Generated (indirectly) by human – Representing physical world activities – Structuralized – Privacy risks • Human knowledge embedded – – – – Geo-tagged photos: where do you take photographs? Location check-in: where do you stay? Taxi trajectories: how do taxi drivers navigate in a city? BMAC card records: how do you take public transit? Big Data is commonly characterized by three vectors —volume, variety and velocity. • Volume, it is about complexity – Many small datasets that are considered big data do not consume much physical space but are particularly complex in nature. – At the same time, large datasets that require significant physical space may not be complex enough to be considered big data. • variety refers to its 'polystructured' nature – i.e. a mixture of structured, semi-structured and unstructured data such as text, audio and video; • and velocity refers to the rate at which it is generated and analyzed – which in some applications needs to be in real time, or near real-time. • Veracity • Value A Free Large-Scale GPS Dataset • 17621 trajectories, 1.2 million kilometers, 48000+ hours 34 The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East (IDC & EMC, December 2012) CNNIC发布第33次中国互联网络发展状况 • 截至 2013年12月底,我国网民规模达6.18 亿人。手机网民规模达5亿。 • 2013年,中国网络购物用户规模达3.02亿。 2012年全国新闻出版业基本情况 • 2012年:出版图书414,005种,期刊9,867 种,报纸1,918种 – 三类出版物总印张为3074.01亿印张,折合用 纸量711.36万吨。 • 图书定价总金额1183.37亿元。 • 期刊定价总金额252.68亿元。 • 报纸定价总金额434.39亿元。 Big Data: A Revolution That Will Transform How We Live, Work and Think (book) • Since Aristotle, we have fought to understand the causes behind everything. • But this ideology is fading. In the age of big data, we can crunch an incomprehensible amount of information, providing us with invaluable insights about the what rather than the why. Whitehouse & CCF Initiative • 2012年3月美国政府公布“大数据研发计划” – 目标是改进现有人们从海量和复杂的数据中获取知识的能力, – 从而加速在科学与工程领域发明的步伐, – 增强国家安全,转变人们现有的工作、学习和生活方式。 • 2012年10月CCF成立了大数据专家委员会 – 探讨大数据的核心科学与技术问题,推动大数据学科方向的建设与 发展; – 构建面向大数据产学研用的学术交流、技术合作与数据共享平台; – 对相关政府部门提供大数据研究与应用的战略性意见与建议。 美国政府开放数据 • www.data.gov • 网站从2009年的47 个数据集,到2014 年6月达到105万, 涵盖228个机构。 数据化不是数字化 • 把书籍的每一页扫描然后存为一个高分辨 率的图像文件是数字化。 – 只有依靠人的阅读才能转化为有用的信息。 • 一旦世界被数据化,用数学分析工具(统 计学和算法)及必要的设备(信息处理器 和存储器),可以在更多领域、更快、更 大规模地进行数据处理。 大数据的价值 Google拼写和Amazon推荐系统 • Google收集拼写错误的数据,利用这些数 据创建拼写检查程序,同时自身具备挖掘 数据价值的技术 • Amazon,推荐系统,1997年提出协同过滤 。 巴诺与NOOK快照 • 电子书阅读器捕捉了大量关于文学喜好和 阅读人群的数据 – 阅读一页或者一节需要多少时间,略读还是直 接放弃,是否画线强调 • 向出版商和读者展示 – 读者的好恶和阅读模式 Coursera等在线教育 • 跟踪学生的Web交互来寻找最佳的教学方 法 – 约有2000名学生课外作业的答案是错的,但错 误答案居然是相同的 – 他们把一个算法里的两个代数方程弄反了。 – 所以现在如果其他学生犯同样的错误,系统不 会简单告诉他们错 • 找到最合适阅读的论坛帖子 Coursera 2PM, June 17, 2013 Infer Fine-Grained Air Quality in a City Using Big Data Goal: We infer the real-time and fine-grained air quality information throughout a city, based on the (historical and real-time) air quality data reported by existing monitor stations and a variety of data sources we observed in the city, such as meteorology, traffic flow, human mobility, structure of road networks, and point of interests (POIs). Netflix Prize • The Netflix Prize sought to substantially improve the accuracy of predictions about how much someone is going to enjoy a movie based on their movie preferences. • On September 21, 2009 we awarded the $1M Grand Prize to team “BellKor’s Pragmatic Chaos”. Risks of Big Data(大数据洞察) • 在大数据时代,不管是否告知与许可、模糊化还 是匿名化,这三大隐私保护策略都失效了。 • 通过把奈飞公司的数据与其他公共数据信息对比 分析, – 得克萨斯大学的研究人员很快发现,匿名用户进行的 收视率排名与互联网电影数据库(imdb)上实名用户 所排的是匹配的。 2013年第一届中国大数据技术 • • • • • 关键词行业分类 (百度) 电信网络寻呼黑洞分析 电信用户交往圈构建和特定类型用户识别 用户购买行为的归因分析 (秒针) 基于出租车GPS轨迹的位置服务(数据堂) Summary • 云计算是大数据的基础, • 存储和处理大数据是云计算的重要应用。 • 二者相辅相成,可以发现大数据中更多的 价值。