*************i****3***********3**************3**?3**@3**A3

advertisement
数学与现代文明
马志明
数学文化论坛,呼和浩特
2014-8-3
Email: mazm@amt.ac.cn
Web: http://www.amt.ac.cn/member/mazhiming/index.html
数学与现代文明密切相关
• 数学家们登上纯思维的顶峰不是靠他们自
己一步步攀登,而是借助于社会力量的
推动。如果这些力量不能为数学家们
注入活力,那么他们就立刻会身疲力
竭;然后他们就仅仅只能维持这门学科处
于孤立的境地。虽然在短时期内还有可能
光芒四射,但所有这些成就会是昙花一现。
一个时代的总的特征在很大程度上与
这个时代的数学活动密切相关。
现代文明
•DNA、
• 网络、手机、
• 多媒体、、、、、、
:
繁衍后代的分子基础:DNA
DNA是由两条线状
的大分子链组成的双
螺旋
DNA双螺旋的每条链由四种小分子连接而成
四种小分子(碱基:A,T,C,G)的
排列组合构成了生命的遗传信息
繁衍后代的分子基础:DNA
DNA可以看作是由A、G、C、T四个字符
组成的字符串。 从数学上来看, 我们可
以用一个含有四个字符集
∑={A、G、C、T}
为信息编码。 DNA代码是一种四进制代
码, 不同于计算机的二进制代码。 但是
有人指出: 它们之间除了专业术语不同之
外, 分子生物学杂志里的每一页都可以换
成计算机技术杂志的内容。
数学与现代生命科学
• 生命系统是自然界中最复杂最有特色的系
统。 DNA作为生命的信息库和程序库, 它
既是一套自复制的程序, 同时又是一个以
进化论为基础发展过来并正在发展的程序
。 DNA的复制、 剪切、 连接、 修复、 变
换的过程就是一种生命的过程, 也即生命
的自构造性特征。 因此, 我们完全可以把
生命看作是一台自然计算机, 生命的进化
法则就是算法。
全基因组关联分析(GWAS)
• 全基因组关联分析(Genome-wide
association study )在全基因组层面上,开
展多中心、大样本、反复验证的基因与疾
病的关联研究,全面揭示疾病发生、发展
与治疗相关的遗传基因。
GWAS能够进行的前提:基因组测序工作的
完成,基于序列变异-SNP单体型图谱构建,
高通量基因分型技术的迅猛发展.
群体遗传学与基因组分析
随着基因组序列数据的不断累积,获取
信息的数据技术条件已经成熟。需要发展相应
的分析方法以利用这些丰富的分子生物学信息
,围绕生物网络、整合多组学和全基因组的信
息等开展一系列数学与生物/医学的交叉研究。
我们正在进行的研究课题突破后可能
在生物领域和数学领域分别产生重要影响。
Kinnman,
Durrett:
Coalescent Processes
Probability Models for
DNA Sequence
杨子恒、吴仲义
……..
Evolution
分子进化与系统进化树
a
b
c
d
ATCCTAGCTAGACTGGA
GTCCTAGCTAGACGTGA
ATCCCAGCTAGACTGCA
ATCCTAGCTAGACGGGA
分子进化
鸟类
鳄鱼
爬行动物
蛇和蜥蜴
海龟和陆龟
哺乳动物
Molecular Evolution - Li
系统进化树
Phylogenetic trees are about
visualising evolutionary
relationships
猩猩Orangutan
大猩猩Gorilla
From the Tree of the Life Website,
University of Arizona
黑猩猩Chimpanzee
人类
祖先重组图的新数学模型
• A Transformation of Markov Jump Processes and
Applications in Gnetic Study, Discrete and Continuous Dynamical
Systems - Series A, 2014, Vol. 34, no. 12, 4997 – 5043
Xian Chen, Zhi-Ming Ma,
• Markov Jump Processes in Modeling Coalescent
with Recombination, Annals of Statistics 2014, Vol. 42, No. 4, 1361-1393
Xian Chen, Zhi-Ming Ma, Ying Wang
• A Model for Coalescent with Recombination,
Ying Wang, Ying Zhou, Linfeng Li, Xian Chen,
Yutig Liu, Zhi-Ming Ma, Shuhua Xu
1: Academy of Math and Systems Science, CAS
2: CAS-MPG Partner Institute for Computational Biology
3: Beijing Jiaotong University,
Background : What is recombination?
Germ cells

Recombination is a
process by which a
molecule of nucleic
acid (usually DNA,
but can also be
RNA) is broken
and then joined to
a different one.
Chromosome
breaks up
gamete 1
gamete 2
Why study recombination?
• An important mechanism generating and
maintaining diversity
• One of the main sources to provide new
genetic material to let nature selection
carry on
Mutation
Selection
Recombination
Application of recombination
information

DNA sequencing


Disease study


Identify the alleles that are co-located on the same
chromosome
Estimate disease risk for each region of genome
Population history study

Discover admixture history

Reconstruct human phylogeny
Statistical Inference of Recombination
The phenomenon of recombination is extremely complex.
Simulation methods are
indispensable in the statistical
inference of recombination.
--can be applied to exploratory data
analysis.
Samples simulated under various
models can be combined with data to test
hypotheses.
-- can be used to estimate recombination
rate.
Basic model assumption

Wright-fisher model with recombination

The population has constant size N,

With probability 1-r, uniformly choose one parent to
copy from (no recombination happens), with probability
r, two parents are chosen uniformly at random, and a
breakpoint s is chosen by a specified density
(recombination event happens ).

Continuous model is obtained by letting N tends to
infinity. Time is measured in units of 2N, and the
recombination rate per gene per generation r is scaled
by 2rN=constant. The limit model is a continuous
time Markov jump process .
Model the sequence data
 Without recombination
– Sequence can be regarded as a
point
 With recombination
– Sequence should be
regarded as an interval
[0,1)
Coalescent without recombination

Trace the ancestry of the
samples

Markov jump process --
Coalescent
Process
(Kingmann 1982)
A realization for
sample of size 5
Coalescent with recombination
Back in time model

First proposed (Hudson 1983)

Ancestry recombination graph (ARG)
(Griffiths R.C., Marjoram P. 1997)

Software: ms (Hudson 2002)
Spatial model along sequences

Point process along the sequence
(Wuif C., Hein J. 1999)

Approximations: SMC(2005)、
SMC’(2006)、MaCS(2009)
Resulting structure: ARG
Back in time model
• Merit
Due to the Markov property, it is
computationally straightforward and simple
• Disadvantage
It is hard to make approximation, hence it
is not suitable for large recombination rate
Spatial model along sequences
• Merits
- the spatial moving program is easier to
approximate
- approximations: SMC(2005)、SMC’(2006)、
MaCS(2009)
• Disadvantages
- it will produce redundant branches
- complex non-Markovian structure
- the mathematical formulation is cumbersome
and up to date no rigorous mathematical
formulation
Our model: SC algorithm
• SC is also a spatial algorithm
• SC does not produce any redundant
branches which are inevitable in Wuif
and Hein’s algorithm.
• Existing approximation algorithm
(SMC, SMC’, MaCS) are all special
cases of our model.
Rigorous Mathematical Model
• We prove rigorously for the first time that the
statistical properties of the ARG generated by
our spatial moving model and that generated
by a back in time model are the same: they
share the same probability distribution on the
space of ARG
• Provides a unified interpretation for the
algorithms of simulating coalescent with
recombination.
Mathematical models
• Markov jump process behind back in time model
- state space
- existence of Markov jump process
- sample paths concentrated on G
• Point process
corresponding to the
spatial model
- construct
on G
- projection of q-processes
(a special transformation)
- distribution of
• Identify the probability distribution
多媒体中的数学
多媒体中的数学
• 广泛应用于制造业、 商业、 银行业、 医
疗诊断、信息及可视化、娱乐业等等
• 多媒体数学涉及:计算机可视化, 图像处
理, 语音识别及语言理解, 计算机辅助
设计和新型网络。
• 需要用到随机过程、 Marko场、 统计模型
、 决策论、 PDE、 数值分析、 图论、
图表算法、 图像分析、小波分析等众多数
学工具。
• 在多媒体计算机系统中,要表示、
传输和处理大量的声音、图像、影
像和视频信息。
• 多媒体信息的数据量巨大,信息种
类多、实时性要求高。数据的存储
、传输以及加工处理均需要大量的
现代数学。
• 网络上(包括硬盘或内存)的所有信息都是
以“位”(bit)为单位传递的,一个位就
代表一个0或1,每8个位(bit)组成一个字
节(Byte)。
• 640×480中等分辨率彩色图像(24bit/像
素)数据存储量为:
640×480×24=7372800bit=7.37Mbit。
• 人类说话1秒的数据存储量为
4×2×8=64kbit;如果是高质量音频则为
44.1×16×2=1411.2kbit=1.41Mbit
• 1秒的电视图像信号数据存储量将达到
(4.2+1.5+0.5)×2×8=99.2Mbit
数据的压缩传感
Donoho, D., Compressed Sensing, IEEE Transactions on
Information Theory, 52(4):1289-1306,2006
Cades, E., Tao, T., Reflections on Compressed Sensing,
IEEE Information Theory Society Newsletter, 58(4),
20-23, 2008
David Donoho
Terence Tao
Emmanuel Candes
小波分析
现代数学工具举例:
• 小波分析是当前数学中一个迅速发展的新
领域,它同时具有理论深刻和应用十分广
泛的双重意义。
• 小波分析是时间—尺度分析和多分辨分析
的一种新技术,它在信号分析、语音合成
、图像识别、计算机视觉、数据压缩、地
震勘探、大气与海洋波分析等方面的研究
都取得了有科 学意义和应用价值的成果。
小波分析发展历史
1807年 Fourier 提出傅里叶分析 , 1822年发表 “热传导解析
理论”论文
1910年 Haar 提出最简单的小波
1980年 Morlet 首先提出平移伸缩的小波公式,用于地质勘探
1985年 Meyer 和稍后的Daubeichies
提出“正交小波基”,此后形成小波研究的高潮。
1988年 Mallat 提出的多分辨度分析理论(MRA),统一了语
音识别中的镜向滤波,子带编码,图象处理中的金字塔法
等几个不相关的领域。
I.Daubechies
《Ten Lectures on
Wavelets》
President of IMU
电磁波的故事
Newton's laws
Coulomb's law
Gauss' law
Ampere's law
Faraday's law
麦克斯韦尔方程的向量写法
导致电磁波的发现
  E  4 
 H  0
.
  H  4j  E
.
 E   H
库仑定律
高斯定律
安培定律
法拉第定律
数学观念引入物理:
非欧几何→引力场
希尔伯特空间→量子力学
纤维丛→规范理论
《数学之美》 吴军
• “信”字作为“通信”一词的50%,表明了
信息处理存储、传输、处理好理解的重要
性。我们今天每个人都使用的搜索,以及
我们都觉得很神奇的语音识别、机器翻译
和自然语言处理也被包含其中。也许大家
不相信,数学是解决这些问题的最好工具
。它不仅能够非常清晰地用一些通用的模
型来描述这些领域的看似不同的实际问题
,而且能给出非常漂亮的解决办法。
• 我多年来一直也对信息处理、语音识别领
域有着一定的研究。“哪里有数,哪里就
有美”。在这里,我把《数学之美》真诚
地推荐给每一位对自然、科学、生活有兴
趣有热情的朋友,不管你是搞理科还是搞
文科的,读一读数学的东西,会让你受益
良多,同时能感受到宇宙和世界的美好与
奇。 ----李开复
谷歌怎么会
在0.15秒的时间
把 8,740,000张页面排序
???
数学的一个有趣应用
网页排序
重要性排序
相关性排序
Markov chain describing surfing behavior
马氏链刻画上网行为
Markov chain describing
surfing behavior
上网的两种冲浪动作:
1. 以概率α顺着超链接访问下一网页
2.以概率1-α输入网址访问下一网页
where
PageRank 是马氏链的唯一平稳分布:
平稳分布在每一页面的取值等于对该页面的
平均点击比率:
The first major improvement in the history of Web search engine
页面搜索引擎的第一次重大突破
 HITS
1998 Jon Kleinberg Cornell University
 PageRank
1998 Sergey Brin and Larry Page
Stanford University
科学时报.pdf
PageRank 的 优点/不足点
• 与关键词无关
• 与内容无关
• 只与网络图的结构有关
• Using only static web graph structure
• Reflecting only the will of web managers,
but ignore the will of users e.g. the staying time
of users on a web.
• Can not effectively against spam and junk
pages.
The first major improvement in the history of Web search engine
页面搜索引擎的第一次重大突破
 HITS
1998 Jon Kleinberg Cornell University
 PageRank
1998 Sergey Brin and Larry Page
Stanford University
科学时报.pdf
PageRank 的 优点/不足点
• 与关键词无关
• 与内容无关
• 只与网络图的结构有关
• Using only static web graph structure
• Reflecting only the will of web managers,
but ignore the will of users e.g. the staying time
of users on a web.
• Can not effectively against spam and junk
pages.
Data Mining
Browsing Process
• Markov property
• Time-homogeneity
Computation of the Stationary
Distribution
– Stationary distribution:
   P(t )
–
is the mean of the staying time on page i.
The more important a page is, the longer
staying time on it is.
–
is the mean of the first re-visit time at page
i. The more important a page is, the smaller
the re-visit time is, and the larger the visit
frequency is.
BrowseRank: Letting Web Users
Vote for Page Importance
Yuting Liu,
Bin Gao, Tie-Yan Liu, Ying Zhang,
Zhiming Ma, Shuyuan He, and Hang Li
July 23, 2008, Singapore
the 31st Annual International ACM SIGIR
Conference on Research & Development on
Information Retrieval.
Best student paper !
• Browse Rank the next
PageRank
says Microsoft
•jerbrows
er.wmv
Browsing Process(浏览过程)是第
一个刻画真实的用户上网行为的数学框
架。相信今后人们在研究用户上网行为
时,一定会想到Browsing Process,应
用并发展Browsing Process的理论和实
践。在这一方向还有许多课题需要进一
步研究。
70
Web马氏骨架过程
Web马氏骨架过程从研究万维
网搜索引擎设计中提炼出的一类新的
重要随机过程,它包括离散时间马氏
链、Q-过程、更新过程等经典随机
过程,以及一类新的重要随机过程—
—镜面半马氏过程。
可应用于:网页浏览过程、手机网络、物联网、
交通运输网络、生态网络、排队网络……
•
C. Zhou:
Web Markov Skeleton Processes and
Their Applications, Tohoku Math. J. (2)
Y. Liu, Z. M. Ma,
Volume 63, Number 4 (2011), 665-695.
•
Y. Liu, Z. M. Ma,
C. Zhou:
Further Study on Web Markov
Skeleton Processes, in Stochastic Analysis
and Applications to Finance,World Scientific,2012
• C. Zhou: Some Results on Mirror
Semi-Markov Processes, manuscript
数学仿佛是冰山,冰山在水面
之下的部分是纯数学领域,水
面之上为尖点,那是我们可以
看见的数学向其它领域的渗透
和应用。如果没有水下大得多
的部分,水面之上的尖点将会
消失。---Borel
• 纯粹数学与应用数学并不能截然分
开,二者是相互促进,相互融合的。
• Ito的随机分析,他本人一直认为
是纯粹数学,但却在应用领域产生
了巨大影响。
Thank you !
数学与现代经济金融
2012年诺贝尔经济学奖于10月15日揭晓,美国经济学家埃尔
文·罗斯(Alvin Roth)与罗伊德·沙普利(Lloyd Shapley)因稳定
配置和市场设计实践理论获奖。
埃尔文·罗斯(Alvin Roth)
罗伊德·沙普利(Lloyd Shapley)
沙普利从来没有上过一课经济学
沙普利:“我一直将自己视为数学家,
但奖项是给予经济学的。总体来说关键
词是游戏理论。我实际上发明了它,然
后就被大家接受了。”
Gale-Shapley算法
-------c.f. 江苏卫视《非诚勿扰》
• 假设,每个人都对所有异性有一个喜好的排序。
1. 每个男生向他们最喜欢的女生表白,所有收到表白的女生从表白者里
面选出一个最喜欢的人进行配对,并且拒绝掉其他的男生。
2. 配对不成功的男生继续在没有拒绝过他的女生中挑出最喜欢的一个表
白,这时女生会遇到两种情况:如果她还没有配对,便和第一轮一样
,直接从表白者中选出最喜欢的一个;如果已经配对,并且认为这一
轮的追求者更好,那她必须拒掉之前的配对者,投向新的追求者。
------如此一轮轮下去,直到不再有任何新的表白出现。
Gale & Shapley证明,这个过程一定会终止,每个人都
会找到自己的伴侣。更重要的是,这一过程最终得到的结
果一定是“稳定婚姻”,即不可能存在“两个人虽然不是
一对,但彼此都觉得对方比现在的伴侣要好”的情况。
资产价格过程(Black-Scholes 模型)
期望收益率
波动率
by Ito lemma we get
从牛顿公式 到资产定价公式
hence
Brownian Motion
Observing that for Brownian Motion,
in probability,
for
by Taylor’s series expansion,
we get Ito’s formula
Option price G with maturity time T
到期日为T的期权价格G
2006首届高斯奖
伊藤清(Ito Kiyoshi)
• 伊藤清从20世纪40年代开始着手研究这个问题:
控制随机粒子的运动途径。他发展出一个全新的
数学形式体系——随机分析,让数学家们能够用
随机偏微分方程来表示随机的组合和其决定的力
量。如今,伊藤清的理论已经应用到股票分析、
生态系统中人群数量的测算以及复杂生物学的测
算之中。随机分析成为数学领域中一个重要而富
有成果的分支,并对“技术、商业和日常生活产
生了重要影响”。
伊藤清:
• 我自己关于随机分析的研究是纯数学
的,因此把应用数学的高斯奖颁发给
我的确是出乎意外,我深深地感谢。
• Because my own research on stochastic
analysis is in pure mathematics, the fact
that my work has been chosen for the Gauss
Prize for applications of mathematics is
truely unexpected and deeply gratifying.
• 伊藤清(Ito Kiyoshi),1915年9月7日出生于日
本三重县。其父是教日本文学和汉语文学的中学
教师。1935年至1938年就读于东京大学数学系。
毕业后在东京的政府统计局做小职员,直到1943
年进入日本名古屋大学作副教授。
伊藤清的最初两篇论文发表于1942年。其中
第一篇论文研究Lévy过程的分解,他给出了
后来被称为Lévy-Ito分解的著名结果。第二
篇论文发表于大阪大学发行的油印手写版日
文杂志。这篇论文已经包含随机积分,
Lipschitz系数随机微分方程和Ito公式。
50年代末 K.Ito 的研究生:
S.Watanabe, H. Kunita. M.Fukushima
当时 Seminar 成员还包括:
N. Ikeda, M. Motoo, T.Hida,
M. Nisio,
H. Tanaka
随机分析轶事
• Wolfgang Döblin, 1915年3月17日(年长
Ito
半岁)出生于柏林,犹太人。1933年随家
人移居巴黎,加入法国籍。25岁时在与德
军交战中阵亡。生前的最后两年在军中服
役,同时写了不少珍贵的数学手稿。在一
次与德军交战前,他决定把自己的手稿用
密封的信件送往巴黎的科学院存档。
• Döblin本人再也没有机会收回手稿。直到
60年后(2000年)经他的兄弟同意,这份
手稿才得以解密公开。人们惊异地发现,
在Döblin潦草地写在学生练习本的笔记中
,已经隐藏有用Ito随机方法求解柯尔莫哥
洛夫的抛物偏微分方程的思想。
Generator of Markov Process
Non rigorous description:
Question?
• When is there a Markov process
with
as its generator ?
Generator of Dirichlet forms
(
Symmetric) Dirichlet form
is walwayse generated
by a (self adjoint ) operator
M. Fukushima [1971]
constructed for the first time
Hunt processes
(a class of nice Markov process)
from regular Dirichlet forms
• A Dirichlet form is associated with a nice Markov
processes if and only if it is Quasi-regular
[Albeverio,Ma,Roeckner 90s]
• Z. M. Ma and M. RÄockner, Introduction to the
Theory of (Non-Symmetric) Dirichlet Forms,
(1992). Springer
• A Dirichlet form is quasi-regular if and only if it is
quasi-homeomorphic to a regular Dirichlet form
[Chen, Ma, Roeckner 1994]
Invited talk at the ICM 1994
Princeton University Press
Princton and Oxford
Copyright 2011
许宝騄:
• 一篇文章的价值不是在它发表的时
候得到了承认,而是在后来不断被
人引用的时候才得到证实。
• 我不希望自己的文章登在有名的杂
志因而出了名。我希望一本杂志因
为刊登了我的文章而出名。
Thank you !
Download