谈谈《统计分析软件应用》这门课 张应应 2013.03.21 1 目录 Part1 R软件简介 Part2 R软件可以做什么 Part3 我怎么上这门课 2 Part1 R软件简介 3 R系统开始于20世纪90年代早期,它是由在新西 兰奥克兰大学工作的Ross Ihaka和Robert Gentleman研究开发的。R语言(R软件)是S (S-PLUS软件)语言的一种实现。 S语言是由AT&T Bell实验室的Rick Becker, John Chambers和Allan Wi1ks开发的一种用来进行数 据探索、统计分析、作图的解释型语言。R是完 全免费的,它可以在 CRAN (http://cran.r-project.org/) 下载。 4 R软件是一种统计软件,也是一种数学计算环境。 它提供了有弹性的、互动的环境来分析、可视 及展示数据;它提供了若干统计程序包(基本7 个,常用29个,现在共有4396个),以及一些 集成的统计工具和各种数学计算(如sin(), exp())、 统计计算的函数(如mean(), sd()),用户只需根据 统计模型,指定相应的数据库及相关的参数, 便可灵活机动的进行数据分析等工作,甚至创 造出符合需要的新的统计计算方法。 5 使用R软件可以简化数据分析过程,从数据的存 取,到计算结果的分享,R软件提供了更加方便 的计算工具,帮助你更好地分析和解决问题。 通过R软件的许多内嵌统计函数(如lm(), princomp(), factanal()),用户可以很容易学习和 掌握R软件的语法,也可以编制自己的函数来扩 展现有的R语言,完成你的科研工作。 6 国内关于R软件与统计分析的教科书有: •薛毅, 陈立萍 (2007). 统计建模与R软件. 清华大学 出版社. •汤银才 (2008). R语言与统计分析. 高等教育出版社. 国外关于R软件与统计分析的书籍有: •Maindonald J, Braun J (2010). Data Analysis and Graphics Using R, 3rd Edition. Cambridge University Press, Cambridge. •Sarkar D (2008). lattice: Multivariate Data Visualization with R. Springer-Verlag, New York. 7 另外在http://www.r-project.org及http://cran.rproject.org/上面有很多相关的html格式的帮助文 件(手册)和资源。 8 Use R.! series This series of inexpensive and focused books on R will publish shorter books aimed at practitioners. Books can discuss the use of R in a particular subject area (e.g., epidemiology (传染病学, 流行 病学), econometrics (计量经济学), psychometrics (心理测验学)) or as it relates to statistical topics (e.g., missing data, longitudinal data (纵向数据)). In most cases, books will combine LaTeX and R so that the code for figures and tables can be put on a website. Authors should assume a background as supplied by Dalgaard’s Introductory Statistics with R or other introductory books so that each book does not repeat basic material. 9 42 books (Use R.! series): Introducing Monte Carlo Methods with R Robert, Christian, Casella, George 2010 Bayesian Networks in R (with Applications in Systems Biology) Nagarajan, Radhakrishnan, Scutari, Marco, Lèbre, Sophie 2013 Analyzing Compositional Data with R van den Boogaart, K. Gerald, Tolosana-Delgado, Raimon 2013 10 Modeling Psychophysical Data in R Knoblauch, Kenneth, Maloney, Laurence T. 2012 Modeling Dose-Response Microarray Data in Early Drug Development Experiments Using R Lin, D.; Shkedy, Z.; Yekutieli, D.; Amaratunga, D.; Bijnens, L. (Eds.) 2012 Six Sigma with R (Statistical Engineering for Process Improvement) Cano, Emilio L., Martinez Moguerza, Javier, Redchuk, Andres 2012 11 Solving Differential Equations in R Soetaert, Karline, Cash, Jeff, Mazzia, Francesca 2012 Graphical Models with R Højsgaard, Søren, Edwards, David, Lauritzen, Steffen 2012 Biostatistics with R (An Introduction to Statistics Through Biological Data) Shahbaba, Babak 2012 Competing Risks and Multistate Models with R Beyersmann, Jan, Allignol, Arthur, Schumacher, Martin 2012 12 CRAN Task Views Finance 13 Part2 R软件可以 做什么 14 打开“统计建模与R软件(上下)_315.pdf”,浏览 目录及我要讲的内容。 15 列表(list)是一种特别的对象集合,它的元素由 序号(下标)区分,但是各元素的类型可以是任意 对象,不同元素不必是同一类型。元素本身允 许是其它复杂数据类型,比如,列表的一个元 素也允许是列表。 16 数据框(data.frame)是R的一种数据结构。它通 常是矩阵形式的数据,但矩阵各列可以是不同 类型的。数据框每列是一个变量,每行是一个 观测。但是,数据框有更一般的定义。它是一 种特殊的列表对象,有一个值为“data. frame” 的class属性,各列表成员必须是向量(数值型、 字符型、逻辑型)、因子、数值型矩阵、列表, 或其它数据框。 17 魏毅, 张应应. 用一个R函数实现正态总体均值、 方差的区间估计及假设检验[J]. 统计与决策, 接 受发表, 2013年3-5月. 众所周知,R软件的内置程序t.test()函数可以实 现单个、两个正态总体均值的区间估计及假设 检验,但是t.test()不能完成单个正态总体均值区 间估计及假设检验 2已知时的情形,也不能完 2 2 成两个正态总体均值区间估计及假设检验 1 , 2 已知时的情形; 18 另一个内置程序var.test()可以实现两个正态总体 方差的区间估计及假设检验,但不能实现单个 正态总体方差区间估计及假设检验,也不能完 成两个正态总体方差区间估计及假设检验 1 , 2 已知时的情形。 本文创造了一个R函数 IntervalEstimate_TestOfHypothesis(),它可以实 现t.test()和var.test()的所有功能及它们不能完成 的上述功能,只用一个R函数便能实现单个、两 个正态总体均值、方差的所有区间估计及假设 检验。 19 主函数使用格式如下: IntervalEstimate_TestOfHypothesis(x, y=NULL, test=c(“mean”, “variance”), mu=c(Inf,Inf), sigma=c(-1,-1), var.equal=FALSE, ratio=1, side=c(“two.sided”, ”less”, ”greater”), alpha=0.05) 其中x,y是由样本数据构成的向量; y默认值为NULL,即默认为对单总体进行操作; test为检验的类型,默认值为“mean”,代表作均 值的区间估计和假设检验,test=“variance” 或”var”代表作方差的区间估计和假设检验; mu为总体的均值向量,在方差的区间估计和假 设检验以及单总体均值的假设检验中会用到, 默认值为Inf(即未知); 20 sigma为总体的标准差向量,默认值均为-1(即未 知),当程序用于作单总体方差假设检验时,默 认为检验 2 =1; var.equal判断两总体方差是否相等,默认为 FALSE,此参数在两总体均值检验中用到; ratio为两总体方差比率,默认为1,此参数在两 总体方差检验中用到; side判断求置信区间和作假设检验的类型,默认 值为”two.sided”,即作双边检验并求双侧置信区 间;side=”less”或“l”,表示求置信区间上限并作 单边检验( H1 : 0 );side=”greater”或“g”,表示 求置信区间下限并作单边检验( H1 : 0); alpha为一个取值为[0, 1]的实数,默认为0.05, 1-alpha为置信度。 21 22 因子分析(factor analysis) 例. 现有48名应聘者应聘某公司的某职位,公司 为这些应聘者的15项指标打分。试用因子分析 的方法对15项指标作因子分析,在因子分析中 选取5个因子。 23 在得到的结果中,公共因子还有比较鲜明的实 际意义。 第一公共因子中,系数绝对值大的变量主要是: SC(自信心),LC(洞察力),SMS(推销能力), DRV(驾驶水平),AMB(事业心),GSP(理解能 力),POT(潜在能力),这些主要表现求职者的 外露能力; 第二公共因子系数绝对值大的变量主要是: FL(求职信的形式),EXP(经验),SUIT(适应性), 这些主要反映了求职者的经验。 24 由前面分析可知,第一公共因子主要表现求职 者外露能力,第二公共因子主要表现求职者的 经验。公司可以选择两者得分都比较高的应聘 者,如39、40、7、8、9和2号应聘者。如偏重 外露能力,则选取第一公共因子得分较大的应 聘者。如偏重经验,则可以考虑第二公共因子 得分较大的应聘者。 25 Part3 我怎么上这 门课 26 分数构成 考勤 作业 报告 期末考试 10% 20% 30% 40% 27 28