点击下载 - sihua.us

advertisement
统计学科发展的历史回顾
彭司华
2014年9月
统计在战争中的例子
二战时期,德国的潜艇非常猖狂,而盟
国的雷达还不够先进,给英国的运输船队造
成巨大的损失,英国人通过多次统计观察,
发现有德国潜艇的上方,会聚集大量的海鸟。
二战大数据故事:数学家、物理学家、
概率论击败德国潜艇:
http://www.csdn.net/article/2013-0308/2814414-big-data-shaped-worldwar-ii
《红楼梦》作者的鉴定
《红楼梦》一书共120回,一般认为前80回
为曹雪芹所写,后40回为高鹗所续,长期
以来对这个问题一直有争议。能否从数学
上做出论证?
复旦大学李贤平带领他的学生作了这项
有意义的工作,他们将120回看成是120个
样本,然后确定与情节无关的虚词作为变
量,计算出每一回里变量出现的次数,用
多元分析中的聚类分析法进行分类,果然
将120回分成两类即前80回为一类,后40回
为一类,很形象地证实了不是出自同一人
的手笔。
《红楼梦》作者的鉴定
之后,又进一步分析前80回是否为曹雪芹
所写?这时又找了一本曹雪芹的其它著作,做
了类似计算,结果证实了用词手法完全相同,
断定为曹雪芹一人手笔。
而后40回是否为高鹗写的呢?论证结果推翻
了后40回是高鹗一个人所写。这个论证在红学
界轰动很大,他们用多元统计分析方法支持了
红学界观点,使红学界大为赞叹。
啤酒与尿布
• 在一家超市中,人们发现了一个特别有
趣的现象:尿布与啤酒这两种风马牛不
相及的商品居然摆在一起。但这一奇怪
的举措居然使尿布和啤酒的稍量大幅增
加了。这可不是一个笑话,而是一直被
商家所津津乐道的发生在美国沃尔玛连
锁超市的真实案例。原来,美国的妇女
通常在家照顾孩子,所以她们经常会嘱
咐丈夫在下班回家的路上为孩子买尿布
,而丈夫在买尿布的同时又会顺手购买
自己爱喝的啤酒。这个发现为商家带来
了大量的利润,但是如何从浩如烟海却
又杂乱无章的数据中,发现啤酒和尿布
销售之间的联系呢?
孕妇用品促销劵的故事
一个发生在美国的真实故事:
• 几年前,一个美国家庭收到了一家商场投送的关于孕妇用
品的促销劵,由于很明显促销劵是冲着这个家庭中的那位
16岁 女孩来的,女孩的父亲觉得受到了侮辱,于是怒气冲
冲地找到了这家商场讨说法。为了平息这位父亲的怒气,
商场做出了诚恳的道歉。但数天后,这位父亲赫然发 现,
其16岁的女儿真的未婚先孕了。
• 那家商场之所以能未卜先知地知道该女孩怀孕,是因为该
商场通过若干种商品的消费数据建立了一个怀孕预测指数
,以此来预知其顾客的怀孕情况。
统计学一级学科下的二级学科
2011年 6月确立:
• 0714 统计学 (可授理学、经济学学位 )
• 071401 数理统计学(理学)
• 071402 社会经济统计学(经济学)
• 071403 生物卫生统计学(理学)
• 071404 金融统计、风险管理与精算学(经济学)
• 071405应用统计 (理学、经济学 )
什么是统计学?
• 统计学是一门收集、整理、显示
和分析数据的科学,其目的是探
索数据内在的数量规律性。
起源
• 统计学的英文statistics最早源于现代
拉丁文statisticum collegium(国会)
以及意大利文statista(国 民或政治
家)。德文Statistik,最早是由
Gottfried Achenwall于1749年使用,
代表对国家的资料进行分析的学问
,也就是“研究国家的科学”。
统计学的产生和发展
• 一、古典统计学时期(17世纪中-18世纪中)
• 二、近代统计学时期(18世纪末-19世纪末)
• 三、现代统计学时期(20世纪初至今)
一、古典统计学时期
• 德国的国势学派(又称记述学派)
• 代表人物:海尔曼·康令、阿亨华尔
• 英国的政治算术学派
• 代表人物:威廉·配弟、约翰·格朗特
国势学派
• 国势学派又称记述学派,产生于18世纪的德国
。由于该学派主要以文字记述国家的显著事项
,故称记述学派。
• 其主要代表人物是海尔曼·康令 (H.Conrin2,
1606—1681)和阿亨华尔(G.Achenwall,
1714—1772)。
• 康令第一个在德国黑尔姆斯太特大学以“国势
学” 为题讲授政治活动家应具备的知识。
• 阿亨华尔在哥廷根大学开设“国家学”课程,
其主要著作是《近代欧洲各国国势学纲要》
海尔曼·康令 (1606-1681)
Hermann Conring
•
•
Conring was born in Norden, a coastal town in East
Frisia, a territory ruled at that time by the counts of
Cirksena. Like many areas of what would later become
Germany, Conring's homeland exhibited considerable
religious variety and strife. Lutheran in the countryside
(and in the piety of its counts), East Frisia nonetheless
sheltered a bastion of Calvinism in its chief city, Emden.
Conring and his family were no strangers to confessional
altercations. Many of Conring's forebears were ministers,
and his father and paternal grandfather, in particular,
were apparently compelled to change their circumstances
on several occasions in response to Protestant religious
conflict.
Conring was one of ten siblings, two of whom died in
infancy, six more of whom died of the plague in 1611.
阿亨华尔(G.Achenwall,1714—1772)
• 阿亨华尔主要著作是《近代欧洲
各国国势学纲要》,书中讲述“
一国或多数国家的显著事项”,
主要用对比分析的方法研究了解
国家组织、领土、人口、资源财
富和国情国力,比较了各国实力
的强弱,为德国的君主政体服务
。因在外文中“国势”与“统计
”词义相通,后来正式命名为“
统计学”。
政治算术学派
• 该学派源于17世纪英国。其代表人物是
威廉•配第代表作《政治算术》。政治算
术学派主张用大量观察和数量分析等方
法对社会经济现象进行研究的主张,为
统计学的发展开辟了广阔的前景。其被
称为“无统计学之名,有统计学之实”
。
威廉·配第 (William Petty,1623-1687)
• 威廉·配第是英国古典政治经济
学创始人,统计学家。
• 一生著作颇丰,主要有《赋税论
》(写于1662年,全名《关于税
收与捐献的论文》),《献给英
明人士》(1664),《政治算术
》(1672),《爱尔兰政治剖析
》(1674),《货币略论》等。
• 《政治算术》的问世,标志着统
计学的诞生。
约翰·格朗特(John Graunt,1620-1674)
• 是一位英国经济学家,也是第一位从事人口统计学
调查的研究者;格朗特生于伦敦,在家中排行最大
,父母分别名为“亨利·葛兰特”(Henry Graunt)
与“玛丽·格朗特”(Mary Graunt)。他的父亲是
位布商,自汉普郡搬至伦敦经商。1641年2月,约
翰·格朗特与玛丽·史考特(Mary Scott)成亲,生
下一个儿子与三个女儿。
• 他的著作《对死亡率表的自然与政治观察》(
Natural and Political Observations Made upon the
Bills of Mortality)发表于格里历1663年或儒略历
1662年,分析查理二世时期伦敦地区死亡率的起伏
,研究腺鼠疫的开始与扩散的系统性方法,并发出
警 告。虽然这个方法并未真正发明出来,但他的
著作仍被用以判断当时的伦敦人口数目。
二、近代统计学时期
• 数理统计学派
代表人物:凯特勒(被称为“近代统计学
之父”)
• 社会统计学派
代表人物:克尼斯、恩格尔、梅尔
• 生物统计学派
代表人物:高尔顿
凯特勒(Lambert Adolphe Jacques Quetelet,1796年-1874年)
• 19世纪比利时的通才,他既是统计学家、又
是数学家和天文学家。他从统计学角度出发
看人,认为人的成长是会依从一套既定的法
则。所以,我们可以透过统计数字,去推算
一个人的发展。他发明了身高体重指数(
BMI)来推算一个人的健康状况。
• 凯特勒把德国的国势学派、英国的政治算术
学派和意大利、法国的古典概率论家以融合
改造为近代意义的统计学。他是数理统计学
派的奠定人,有“ 统计学之父”之称。
卡尔·古斯塔夫·阿道夫·克尼斯
(1821—1898)
• Karl Gustav Adolf Knies (29 March
1821 – 3 August 1898) was a
German economist of the historical
school of economics, best known as
the author of Political Economy from
the Standpoint of the Historical
Method (1853). Knies taught at the
University of Heidelberg for over 30
years, and was perhaps the most
theoretically-oriented economist of
the older historical school.
恩斯特·恩格尔 (1821-1896)
• 恩格尔,生于德累斯顿,德国统计学家
,因恩格尔定律闻名于世。
• 1860-1882年恩格尔在柏林任普鲁士统计
局局长期间,以普鲁士统计局的名义为
发展和加强官方统计学做了大量工作。
• 在研究工作中,他从成本方面特别研究
了人类生活的价值。他还调查了价格对
需求的影响。他对官方统计学的影响远
不仅限于德国,1885年他参与创立了国
际统计学会。他于1896年在拉德博伊尔
去世。
格奥尔格·冯·梅尔
(Georg von Mayr,1841—1925)
• 德国统计学家和社会学家
,德意志帝国统一建设时
期政府统计工作的新近指
导者,社会统计学体系和
社会统计学派的建立者,
国际统计学会的早期成员
之一,1911年—1923年期
间曾任国际统计学会副会
长。
高尔顿: Francis Galton
(1822-1911)
• 查尔斯·达尔文的表弟,是一名英格兰维
多利亚时代的文艺复兴人、人类学家、优
生学家、热带 探险家、地理学家、发明
家、气象学家、统计学家、心理学家和遗
传学家。 在统计学方面,高尔顿在1877
年发表关于种子的研究结果,指出回归到
平均值(regression toward the mean)现象
的存在,这个概念与现代统计学中的“回
归”并不相同,但是却是回归一词的起源
。在此后的研究中,高尔顿第一次使用了
相关系数 (correlation coefficient)的概念
。他使用字母“r”来表示相关系数,这个
传统一直延续至今。
三、现代统计学时期
• 戈赛特提出了小样本t统计量;
• 费希尔提出了F统计量、最大似然估计、
方差分析等方法;
• 奈曼和皮尔逊提出了置信区间和假设检
验。
• 统计学的主流从描述统计学转为推断统
计学。
威廉·戈赛特(1876-1937)
• 出生于英国堪特伯雷。是一位化学家、数学家与统计学家
,以笔名“Student”著名。 统计学上最常使用的学生t-分
布与学生t检验即为他所发明。
• 英国现代统计方法发展的先驱,由他导出的统计学T检验广
泛运用于 小样本平均数之间的差别测试。他曾在伦敦大学
K.皮尔逊生物统计学验室从事研究 (1906-1907),对统计
理论的最显著贡献是《平均数的机误》(1908)。这篇论
文阐明,如果是小样本,那么平均数比例对其标准误差的
分布不遵循 正态曲线。由于吉尼斯酿酒厂的规定禁止戈塞
发表关于酿酒过程变化性的研究成果,因此戈塞不得不于
1908年,Gosset首次以“学生” (Student)为笔名,在《生物
计量学》杂志上发表了“平均数的概率误差”。Gosset在文
章中使用Z统计量来检验常态分配母群的平均数。由于这篇
文章提供了“学生t检验”的基础,为此,许多统计学家把
1908年看作是统计推断理论发展史上的里程碑。
统计学之父:皮尔森 Karl Pearson
(1857~1936)
• 生卒于伦敦,公认为统计学之父。K.
Pearson 1879年毕业于剑桥大学数学系
;曾参与激进的政治活动。出版几本
文学作品,并且作了三年的律师实习
。1884年进入伦敦大学学院 (University
College, London),教授数学与力学,
从此待在该校一直到1933年。
K. Pearson 最重要的学术成就,是为现
代统计学打下基础。许多熟悉的统计
名词如标准差,成分分析,卡方检验
都是他提出的。
费希尔(1890~1962)
• 现代统计科学的奠基人之一, 英国统
计学家和遗传学家。1912年毕业于
剑桥大学数学系,后随英国数理统
计学家J.琼斯进修了一年统计力学。
他担任过中学数学教师,1933年,
因为在生物统计和遗传学研究方面
成绩卓著而被聘为伦敦大学优生学
教授。
• 1943年任剑桥大学遗传学教授。
1957年退休。1959年去澳大利亚,
在联邦科学和工业研究组织的数学
统计部作研究工作。
奈曼 (1894 –1981)
• Jerzy Neyman ForMemRS (April 16, 1894
– August 5, 1981), born Jerzy SpławaNeyman, was a Polish mathematician and
statistician who spent most of his
professional career at the University of
California, Berkeley. Neyman was the first
to introduce the modern concept of a
confidence interval into statistical
hypothesis testing.
统计学的分类
• 一、 描述统计和推断统计
• 二、理论统计和应用统计
一、 描述统计和推断统计
• 描述统计是收集数据,然后用图形、表
格和概括性的数字对数据进行描述的统
计方法。
• 推断统计是根据样本信息对总体进行估
计、假设检验、预测或其他推断的统计
方法。(统计学的核心)
二、理论统计和应用统计
• 理论统计:指统计学的数学原理,概率
论为统计推断的数学基础
• 应用统计:应用统计方法去解决实际问
题
Download