数据可视化基础 陈为 2012年暑假,紫金港 chenwei@cad.zju.edu.cn http://www.cad.zju.edu.cn/home/chenwei 内容提纲 可视化介绍 数据科学 高维数据可视化 什么是可视化? 定义 [www.oed.com] 使某物、某事可见的动作或事实;对某个原本 眼睛不可见的事物形成一副可感知的心理图片 或视觉的过程或能力;一副因此而形成的图片. 绘制出可见图片的动作或过程. 可视化 • • • 通过使用电脑,对数据进行交互的可视表达 以增强认知 [Card, Mackinlay Shneiderman ’98] 通常被认为是一个生成图形图像的过程,实 为认知过程 – 形成某个物体的感知图像 – 强化认知理解 可视化的目的是洞悉,而非图像 – 洞察:发现,决策,解释,分析,探索, 学习 4 可视化的应用范围 • 数据分析技术 – • 数据挖掘,数据库查询,机器学习 可视化尤擅于探索性数据的分析 – – – – – – 不知道里面有什么 没有一个预先的探索假设 想知道存在那些疑问 I see what you’re saying 我明白你的意思 Seeing is believing 眼见为实 A picture is worth a thousand words 一图胜千言 5 为什么我们需要可视化 • • • • • • • • 揭示想法和关系 形成论点或意见 观察事物演化的趋势 总结或积聚数据 存档、汇整 信赖、信任、求真 传播知识 探索性数据分析 为什么我们需要可视化 • • • • • • • • • 回答问题 做出决定 在上下文里看数据 扩充记忆和内存空间 支持图形化计算 寻找模式 展示论据 讲故事 激发智力和洞察力 可视化的三个功能 • 记录信息 – • 支持对信息的推理和分析 – – – • 成像、蓝图设计、… 过程与计算 数据推理 反馈与交互 信息传递 – – – 共享与说服 协作与修正 突出数据的重要部分 信息记录 绘图:月亮周期 伽利略于1616年关于月亮 周期的绘图 http://galileo.rice.edu/sci/observatio ns/moon.html 信息记录 摄像:月亮周期 数据推理:4个数据集 X均值 = 9.0 Y均值 = 7.5 最小二乘法回归线方程 y = 3 + 0.5x 误差的平方和 = 110.0 X值的方差的回归和 = 27.5 均方误差的误差和 (相对于回归线) = 13.75 相关系数 = 0.82 11 数值表示 1 2 10.0, 8.04 10.0,9.14 8.0, 6.95 8.0,8.14 13.0, 7.58 13.0,8.74 9.0, 8.81 9.0,8.77 11.0, 8.33 11.0,9.26 14.0, 9.96 14.0,8.10 6.0, 7.24 6.0,6.13 4.0, 4.26 4.0,3.10 12.0,10.84 12.0,9.13 7.0, 4.82 7.0,7.26 5.0, 5.68 5.0,4.74 3 10.0, 7.46 8.0, 6.77 13.0,12.74 9.0, 7.11 11.0, 7.81 14.0, 8.84 6.0, 6.08 4.0, 5.39 12.0, 8.15 7.0, 6.42 5.0, 5.73 12 4 8.0, 6.58 8.0, 5.76 8.0, 7.71 8.0, 8.84 8.0, 8.47 8.0, 7.04 8.0, 5.25 19.0,12.50 8.0, 5.56 8.0, 7.91 8.0, 6.89 13 回答问题 Gallop, Bay Horse “Daisy” [Muybridge 188486] 其他记录设备 Marey’s sphygmograph脉波计, 脉搏记录仪 [from Braun 83] 支持推理分析: 挑战者号案例 1986年1月28日,美国“挑战者”号航天飞机在升空以后不久 爆炸,全世界的人们在电视机前目睹了这一悲壮的情景。这一 事件不仅再次向世人表明人类科学技术进步的艰巨与困难,也 揭示了复杂组织内部正式的传播系统是何等脆弱。这一灾难的 直接起因是两个O形橡胶圈的故障,它们是由犹他州的莫顿·塞奥 科公司(Morton Thiokol)生产的,用来密封发射器上固体燃料 箱上的接缝。“挑战者”号点火升空后,由于气温太低,发射 器上的橡胶圈无法按照设计要求迅速膨胀以弥合部件之间的缝 隙,导致大量燃气外泄,在主燃料箱上烧穿了一个洞,使这一 最先进的航天工具变成了一副燃烧的棺材。在这一显而易见的 技术问题背后,人们要追问的是组织决策问题:决策者是否知 晓相关技术信息?为何以及在何种情况之下做出了发射决定? 也许我们不能将所有问题归咎于传播故障,但是正如“挑战者” 号事故调查总统委员会的报告所说:“信息沟通渠道的障碍导致做 出了发射的决定,这一决定建立在不完全甚至是使人容易误解 的信息基础之上”(转引自Conrad, 2001)。确实,决策失误 往往是组织的结构、传播习惯等多种问题积累的结果。 支持推理分析 决策:Challenger; 由Morton Thiokol传真到 NASA的13页纸中的2页 [Tufte 1997] 支持推理分析 Tufte教授绘制的演示低温如何摧毁O形密封 圈 [Tufte 97] 支持推理分析 Tufte教授绘制的演示低温如何摧毁O形密封 圈 [Tufte 97] 上下文中数据理解: 霍乱流行 1854 John Snow [Tufte 1983] 扩充记忆和内存空间: 乘法计算 34 x 72 68 2380 2448 图示化计算: 水的蒸发 Johannes Lambert 采用图来研究水蒸发与 温度的关系 [Tufte 1983] 图示化计算: 视觉证据 奇数的和: 1 + 3 + 5 + 7 + 9 = 52 Pythagorean 定理 中国古代的剖切证明 寻找模式: 纽约天气 New York Times 1981 展示论据:出口与进口 [Playfair 1786] 信息表达 生理卫生 [1918] 双螺旋模型 [Watson and Crick 53] 可视化研究的挑战 越来越多不可见数据 模拟数据 数字城市规划 流体模拟 可视化研究的挑战 越来越多不可见数据 实测数据 Sloan digital sky survey www.sdss.org 传感器网络[Hill 02] www.xbow.com 数字摄像仪 可视化研究的挑战 越来越多不可见数据 信息快速传播 可视化研究的挑战 越来越多不可见数据 2002年5 exabytes新信息 [Lyman 03] 2006年161 exabytes [Gantz 07] 需要新的更好的工具和算法以传播信息 注意力 “What information consumes is rather obvious: it consumes the attention of its recipients. Hence a wealth of information creates a poverty of attention, and a need to allocate that attention efficiently among the overabundance of information sources that might consume it.” ~Herb Simon as quoted by Hal Varian Scientific American September 1995 可视化研究的目标 理解可视化是如何传递给人们的 人们感知和理解什么? 可视化是如何对应于数据的智能模型的? 开发能有效创造可视化的原理与技术 增强认知与感知 增强可视化与数据的智能模型之间的联系 1. 数据与成像模型 [Bertin, Graphics and Graphic Information Processing 1981] 2. 好的和坏的可视化 谬误的可视化与其修正效果 3. 感知 感应功能的心理物理学 [Stevens 61] 4. 交互 FilmFinder [Ahlberg 94] 5. 空间布局 London 地铁 [Beck 33] 6. 树与图 兴趣度树[Heer & Card, 2004] 7. 颜色 [Cynthia Brewer http://www.personal.psu.edu/faculty/c/a/cab38 /] 8. 协同可视化 Sense.us [Heer 07] 9. 设计原理 测试三种组装仪器的有效性[Heiser 04] 10. 形状的表意性绘制 Lumbosacral and Sacro-iliac fusion Russell Drake, medical illustrator, Mayo Foundation, 1932. 11. 结构的表意性绘制 Principal Organs & Vascular System [Leonardo da Vinci ca. 1490] 上:世界上第一副流场可视化效果-达芬奇 下:表意性可视化NASA X38数据 12. 摄像 Shadowgraph of a .22-caliber bullet in flight Taken by an MIT freshman in 1962, in Edgerton‘s lab. NASA X38数据的模拟物理摄像实验的可视化效果。 (a) 二维平切Schlieren效果; (b)60度刀角情况下的Schlieren效果; © 圆形Schlieren效果;(d)Shadowgraphy效果 13. 过程与动作可视化 穿着纱丽 [Mijksenaar 99] 舞蹈步骤的可视化 [Tufte 90] 14. 动画 Outside-In, 几何计算中心 Textbooks Edward Tufte: Four books http://www.edwardtufte.com/tufte/ William Cleverland: The Elements of Graphing Data http://www.stat.purdue.edu/~wsc/ Leland Wilkinson: The grammar of graphics http://www.spss.com/research/wilkinson/ Pat Hanrahan: CTO of Tableau http://www.tableausoftware.com/