1可视化介绍

advertisement
数据可视化基础
陈为
2012年暑假,紫金港
chenwei@cad.zju.edu.cn
http://www.cad.zju.edu.cn/home/chenwei
内容提纲



可视化介绍
数据科学
高维数据可视化
什么是可视化?

定义 [www.oed.com]


使某物、某事可见的动作或事实;对某个原本
眼睛不可见的事物形成一副可感知的心理图片
或视觉的过程或能力;一副因此而形成的图片.
绘制出可见图片的动作或过程.
可视化
•
•
•
通过使用电脑,对数据进行交互的可视表达
以增强认知 [Card, Mackinlay
Shneiderman ’98]
通常被认为是一个生成图形图像的过程,实
为认知过程
– 形成某个物体的感知图像
– 强化认知理解
可视化的目的是洞悉,而非图像
– 洞察:发现,决策,解释,分析,探索,
学习
4
可视化的应用范围
•
数据分析技术
–
•
数据挖掘,数据库查询,机器学习
可视化尤擅于探索性数据的分析
–
–
–
–
–
–
不知道里面有什么
没有一个预先的探索假设
想知道存在那些疑问
I see what you’re saying
我明白你的意思
Seeing is believing
眼见为实
A picture is worth a thousand words 一图胜千言
5
为什么我们需要可视化
•
•
•
•
•
•
•
•
揭示想法和关系
形成论点或意见
观察事物演化的趋势
总结或积聚数据
存档、汇整
信赖、信任、求真
传播知识
探索性数据分析
为什么我们需要可视化
•
•
•
•
•
•
•
•
•
回答问题
做出决定
在上下文里看数据
扩充记忆和内存空间
支持图形化计算
寻找模式
展示论据
讲故事
激发智力和洞察力
可视化的三个功能
•
记录信息
–
•
支持对信息的推理和分析
–
–
–
•
成像、蓝图设计、…
过程与计算
数据推理
反馈与交互
信息传递
–
–
–
共享与说服
协作与修正
突出数据的重要部分
信息记录


绘图:月亮周期
伽利略于1616年关于月亮
周期的绘图
http://galileo.rice.edu/sci/observatio
ns/moon.html
信息记录

摄像:月亮周期
数据推理:4个数据集







X均值 = 9.0
Y均值 = 7.5
最小二乘法回归线方程 y = 3 + 0.5x
误差的平方和 = 110.0
X值的方差的回归和 = 27.5
均方误差的误差和 (相对于回归线) = 13.75
相关系数 = 0.82
11
数值表示
1
2
10.0, 8.04 10.0,9.14
8.0, 6.95 8.0,8.14
13.0, 7.58 13.0,8.74
9.0, 8.81 9.0,8.77
11.0, 8.33 11.0,9.26
14.0, 9.96 14.0,8.10
6.0, 7.24 6.0,6.13
4.0, 4.26 4.0,3.10
12.0,10.84 12.0,9.13
7.0, 4.82 7.0,7.26
5.0, 5.68 5.0,4.74
3
10.0, 7.46
8.0, 6.77
13.0,12.74
9.0, 7.11
11.0, 7.81
14.0, 8.84
6.0, 6.08
4.0, 5.39
12.0, 8.15
7.0, 6.42
5.0, 5.73
12
4
8.0, 6.58
8.0, 5.76
8.0, 7.71
8.0, 8.84
8.0, 8.47
8.0, 7.04
8.0, 5.25
19.0,12.50
8.0, 5.56
8.0, 7.91
8.0, 6.89
13
回答问题

Gallop, Bay Horse “Daisy” [Muybridge 188486]
其他记录设备

Marey’s sphygmograph脉波计, 脉搏记录仪
[from Braun 83]
支持推理分析: 挑战者号案例
1986年1月28日,美国“挑战者”号航天飞机在升空以后不久
爆炸,全世界的人们在电视机前目睹了这一悲壮的情景。这一
事件不仅再次向世人表明人类科学技术进步的艰巨与困难,也
揭示了复杂组织内部正式的传播系统是何等脆弱。这一灾难的
直接起因是两个O形橡胶圈的故障,它们是由犹他州的莫顿·塞奥
科公司(Morton Thiokol)生产的,用来密封发射器上固体燃料
箱上的接缝。“挑战者”号点火升空后,由于气温太低,发射
器上的橡胶圈无法按照设计要求迅速膨胀以弥合部件之间的缝
隙,导致大量燃气外泄,在主燃料箱上烧穿了一个洞,使这一
最先进的航天工具变成了一副燃烧的棺材。在这一显而易见的
技术问题背后,人们要追问的是组织决策问题:决策者是否知
晓相关技术信息?为何以及在何种情况之下做出了发射决定?
也许我们不能将所有问题归咎于传播故障,但是正如“挑战者”
号事故调查总统委员会的报告所说:“信息沟通渠道的障碍导致做
出了发射的决定,这一决定建立在不完全甚至是使人容易误解
的信息基础之上”(转引自Conrad, 2001)。确实,决策失误
往往是组织的结构、传播习惯等多种问题积累的结果。
支持推理分析

决策:Challenger; 由Morton Thiokol传真到
NASA的13页纸中的2页 [Tufte 1997]
支持推理分析

Tufte教授绘制的演示低温如何摧毁O形密封
圈 [Tufte 97]
支持推理分析

Tufte教授绘制的演示低温如何摧毁O形密封
圈 [Tufte 97]
上下文中数据理解: 霍乱流行

1854 John Snow [Tufte 1983]
扩充记忆和内存空间: 乘法计算
34
x 72
68
2380
2448
图示化计算: 水的蒸发

Johannes Lambert 采用图来研究水蒸发与
温度的关系 [Tufte 1983]
图示化计算: 视觉证据
奇数的和:
1 + 3 + 5 + 7 + 9 = 52
Pythagorean 定理
中国古代的剖切证明
寻找模式: 纽约天气

New York Times 1981
展示论据:出口与进口

[Playfair 1786]
信息表达
生理卫生 [1918]
双螺旋模型 [Watson and Crick 53]
可视化研究的挑战

越来越多不可见数据

模拟数据
数字城市规划
流体模拟
可视化研究的挑战

越来越多不可见数据

实测数据
Sloan digital sky survey
www.sdss.org
传感器网络[Hill 02]
www.xbow.com
数字摄像仪
可视化研究的挑战

越来越多不可见数据

信息快速传播
可视化研究的挑战




越来越多不可见数据
2002年5 exabytes新信息 [Lyman 03]
2006年161 exabytes [Gantz 07]
需要新的更好的工具和算法以传播信息
注意力
“What information consumes is rather obvious: it
consumes the attention of its recipients. Hence a
wealth of information creates a poverty of
attention, and a need to allocate that attention
efficiently among the overabundance of
information sources that might consume it.”
~Herb Simon
as quoted by Hal Varian
Scientific American
September 1995
可视化研究的目标

理解可视化是如何传递给人们的



人们感知和理解什么?
可视化是如何对应于数据的智能模型的?
开发能有效创造可视化的原理与技术􀂄


增强认知与感知
增强可视化与数据的智能模型之间的联系
1. 数据与成像模型

[Bertin, Graphics and Graphic Information
Processing 1981]
2. 好的和坏的可视化
谬误的可视化与其修正效果
3. 感知

感应功能的心理物理学 [Stevens 61]
4. 交互

FilmFinder [Ahlberg 94]
5. 空间布局

London 地铁 [Beck 33]
6. 树与图

兴趣度树[Heer & Card, 2004]
7. 颜色
[Cynthia Brewer
http://www.personal.psu.edu/faculty/c/a/cab38
/]
8. 协同可视化

Sense.us [Heer 07]
9. 设计原理

测试三种组装仪器的有效性[Heiser 04]
10. 形状的表意性绘制
Lumbosacral and Sacro-iliac fusion
Russell Drake, medical illustrator,
Mayo Foundation, 1932.
11. 结构的表意性绘制
Principal Organs & Vascular System
[Leonardo da Vinci ca. 1490]
上:世界上第一副流场可视化效果-达芬奇
下:表意性可视化NASA X38数据
12. 摄像
Shadowgraph of a .22-caliber bullet in flight
Taken by an MIT freshman in 1962, in Edgerton‘s lab.
NASA X38数据的模拟物理摄像实验的可视化效果。
(a) 二维平切Schlieren效果; (b)60度刀角情况下的Schlieren效果; ©
圆形Schlieren效果;(d)Shadowgraphy效果
13. 过程与动作可视化
穿着纱丽 [Mijksenaar 99]
舞蹈步骤的可视化 [Tufte 90]
14. 动画

Outside-In, 几何计算中心
Textbooks




Edward Tufte: Four books
http://www.edwardtufte.com/tufte/
William Cleverland: The Elements of
Graphing Data
http://www.stat.purdue.edu/~wsc/
Leland Wilkinson: The grammar of graphics
http://www.spss.com/research/wilkinson/
Pat Hanrahan: CTO of Tableau
http://www.tableausoftware.com/
Download