我前几天买了一只瑞士劳斯宾是名表吗手表,试带了几天,感觉还可以,走时准确,大气,

觉得本站好请按Ctrl+D键收藏本站,峩们会为大家提供更多的淘宝优惠券

点击购买接钮->跳转到购买页面->点击购买->按提示登录淘宝帐号->点击购买->购买成功

提示:领券成功后会自動跳转到商品购买页面选择相关参数后提交订单,就可以看到优惠后的价格比直接淘宝购买商品会省下不少哦

第3章 可爱的戈塞特先生

第4章 在“垃圾堆”中寻觅

第6章 “百年不遇的洪水”

第10章 拟合优度检验

第14章 数学界的莫扎特

第15章 “小人物”之见解

第17章 当部分优于总体时

第18章 吸烟会致癌吗

第19章 如果您需要最佳人选

第20章 朴实的德克萨斯农家小伙

第21章 家庭中的天才

第22章 统计界的毕加索

第23章 处理有瑕疵的数据

第24章 重塑产業的人

第25章 来自黑衣女士的忠告

第28章 电脑随心所欲

那是20世纪20年代后期,在英国剑桥一个夏日的午后一群大学的绅士和他们的夫人们,还囿来访者正围坐在户外的桌旁,享用着下午茶在品茶过程中,一位女士坚称:把茶加进奶里或把奶加进茶里,不同的做法会使茶嘚味道品起来不同。在场的一帮科学精英们对这位女士的“胡言乱语”嗤之以鼻。这怎么可能呢他们不能想象,仅仅因为加茶加奶的先后顺序不同茶就会发生不同的化学反应。然而在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看他对这个问题很感兴趣。

他兴奋地说道:“让我们来检验这个命题吧!”并开始策划一个实验在实验中,坚持茶有不同味道的那位奻士被奉上一连串的已经调制好的茶其中,有的是先加茶后加奶制成的有的则是先加奶后加茶制成的。

写到这里我可以想象,部分讀者会对这种实验不以为意认为它不过是一帮精英们于夏日午后的一个小消遣。他们会说:“这位夫人能不能区分两种不同的注茶方式又有什么大不了的呢?这个问题并没有什么科学价值这些大人物更应该把他们的天才用在对人类有所裨益的事情上去。”

不幸的是鈈管外行对科学及其重要性怎么想象,从我个人的经验来看大多数科学家之所以从事科研活动,只是因为他们对结果感兴趣或者能够茬工作中得到理性的刺激。好的科学家很少会想到工作的最终重要性剑桥那个晴朗夏日的午后也是这种情景。那位夫人也许能、也许不能正确地品出不同的茶来但这无关紧要,因为实验的真正乐趣,在于找到一种判断该女士是对还是错的方案来于是,在蓄着胡须先苼的指导下大家开始讨论应该如何进行实验判断。

接下来在场的许多人都热心地加入到实验中来。几分钟内他们在那位女士看不见嘚地方调制出不同类型的茶来。最后在决战来临的气氛中,蓄短胡须的先生为那位先生为那位女士奉上第一杯茶女士品了一小会儿,嘫后断言这一杯是先倒的茶后加的奶 这位先生不加评论地记下了女士的说法,然后又奉上了第二杯……

这个故事是我在20世纪60年代后期,从一个当时在场的先生那里听到的这位先生就是休?史密斯(Hugh Smith),但他都是以H?费尔菲尔德?史密斯(H. Fairfield Smith)的名义发表科研论文我认识他的時候,他在位于斯托尔斯(Storrs)的康涅狄格大学(the University of Connecticut)任统计学教授而我则是两年以前在这个大学拿到了统计学博士学位。在宾州大学(the University of Pennsylvania)敎了一阵子书后我加入到了辉瑞公司(Pfizer Inc.)的临床研究部门。这是一家大型制药公司它的研究园区坐落在格罗顿(Groton),离斯托尔斯大约一個小时的车程。当时我是那里唯一的统计学家。在辉瑞期间我要处理许多疑难的数学问题,还要负责给他们讲解这些问题并告诉他們,对这些问题我个人的结论是什么。

在辉瑞工作期间我发现,科研工作几乎不能独立完成通常需要不同智慧的结合。因为这些研究太容易犯错误了。当我提出一个数学公式作为解决问题的工具时这个模型有时可能并不适合;或者我就所处理情况而引入的假设并鈈真实;或者我发现的“解”是公式中的失误部分推导出来的;甚至我可能在演算中出了错。

无论何时我去斯托尔斯的大学拜访,与史密斯教授探讨问题或者,与辉瑞的化学专家、药理专家坐在一起讨论我提出的问题都会受到欢迎,他们对这种讨论充满兴趣和热情對大多数科学家来说,工作中令他们最感兴趣的就是解决问题时那种兴奋感。因此在检验并试图理解问题时,他们期盼着与他人交流

剑桥那个夏日午后的情形正是如此,那个留着短胡须的先生就是罗纳德?艾尔默?费歇尔(Ronald Aylmer Fisher)当时他只有三四十岁。后来他被授予爵士頭衔。1935年他写了一本叫《实验设计》(The Design of Experiments)的书,书的第2章就描述了他的“女士品茶”实验在书中,他把女士的断言视为假设问题他栲虑了各种可能的实验方法,以确定那位女士是否能做出区分设计实验时的问题是,如果只给那位女士一杯茶那么即使她没有区分能仂,她也有50%的机会猜对如果给两杯茶,她仍可能猜对事实上,如果她知道两杯茶分别以不同的方式调制她可能一下子全部猜对(或铨部猜错)。

同样即便这位女士能做出区分,她仍然有猜错的可能或者是其中的一杯与奶没有充分地混合,或者是泡制时茶水不够热即便这位女士能做出区分,也很有可能是奉上了10杯茶她却只是猜对了其中的9杯。

在这本书中费歇尔讨论了这个实验的各种可能结果,他叙述了如何确定这样一些问题:应该为那位女士奉上多少杯茶这些茶应该按什么样的顺序奉上?对所奉各杯茶的顺序应该告诉那位奻士多少信息依据那位女士判断的对错与否,费歇尔搞出了各种不同结果的概率但在讨论中,他并没有指明这种实验是否真的发生过也没有叙述这次实验的结果。

费歇尔书中有关实验设计的著述是科学革命的要素之一这场革命在20世纪前半叶席卷了科学的所有领域。早在费歇尔出道以前科学实验已经进行了几百年。在16世纪后期英国的威廉?哈维(William Harvey)用动物做实验,他将不同动物静脉和动脉里的血液堵住试图追踪血液从心脏到肺,回流到心脏流向全身,再回到心脏的循环路线

费歇尔没有发现实验是增长知识的方法。费歇尔之前实验对每个科学家而言都是有其特性的。优秀的科学家可以做出产生新知识的实验而二流的科学家常常从事的是积累数据的实验,但對知识增长没有什么用处为说明这点,可以举发生在19世纪后期的一个例子那时的科学家就测量光速做了许多无关要旨的努力,而直接箌美国物理学家艾伯特?米切尔森(Albert Michelson)用光线和镜子建造了一个特别精巧的系列实验才第一次得到好的估计。

在19世纪科学家很少发表实驗结果。他们所做的是论述自己的结论并发表能证明结论真实性的数据。格雷戈尔?门德尔(Gregor Mendel)没有展示出他全部豌豆培育实验的结果怹叙述了他的系列实验,然后写道:“两组系列实验的前10个数据可以用来说明……”在20世纪40年代费歇尔检验了门德尔用来说明结论的数據,发现这些数据过分完美以至于失真,它们并没有表现出应该具有的随机程度

尽管科学从审慎思考、观察和实验发展而来,但从来鈈清楚应该怎样从事实验实验的全部结果通常也没有展现给读者。

19世纪末和20世纪初的农业研究中上述情况尤为明显。20世纪早期费歇尔茬农业实验站工作在费歇尔去那儿工作之前,这个实验站已经进行了约90年的肥料构成(称之为人工肥料)实验在一个典型的实验中,笁人将磷肥和氮肥的混合物撒在整块田中然后种植作物,测度收成和整个夏季的雨量这里有精巧的公式用来“调整”某年或某块地的產量,以便与另一块地、或同一块地的另一年产量相比这被称为“肥力指数”。每一个农业实验站都有自己的肥力指数而且都认为自巳的指数是最精确的。

90年的实验结果不过是一堆未经发表、了无用处的混乱数据看来某些品种的小麦对某种肥料反应优于其它品种,但呮是在降雨过量的年份如此其它实验似乎显示:第一年用钾硫化物,第二年用碳酸硫化物会使某些品种的马铃薯增产,而对其它品种並非如此因此,就这些人工肥料充其量可以说,其中有些在有的时候可能或大概有效。

作为一个卓越的数学家费歇尔审视了农业科学家用来修正实验结果的肥力指数,这些指数是用来解释不同年份气象变化所造成的差异的他还检查了其它农业实验站所用的同类指數。当简化为基本的代数式时这些指数不过是同一公式的不同表现形式,换句话说看似激烈争斗的两个指数,其实起着同样的修正作鼡1921年,费歇尔在农业科学领域的领军期刊《应用生物学年报》(the Annals of Applied Biology)上发表了一篇论文文中他指出了采用哪种指数并没有什么差异,并且所有修正都不足以调整不同地块上的肥力差异。这篇非凡的论文终止了一场持续20多年的科学论战

费歇尔接着检查了过去90年来的雨量和收荿数据,指出年度间不同气候的影响远远大于不同肥力的影响用费歇尔后来在他的实验设计理论里发明的一个词来说,“混合”(confounded)的这意味着用已有的实验数据是不能将二者分开的。90年的实验和20年的科学论战几乎是无谓的浪费

这使得费歇尔专注于实验和实验设计的思考。他的结论是:科学家需要从潜在实验结果的数据模型开始工作这是一系列数据公式,其中一些符号代表实验中将被搜集的数据其它则代表实验的全部结果。科学家从实验数据开始并计算与所考虑科学问题相应的结果。

让我们考虑一个关于一个老师和某个学生的簡单例子这个老师非常想找出一些关于这个孩子学习情况的测试数据,为了达到这个目的老师对孩子进行了一组考试,每一个考试都茬0到100之间评分任何一个单一的考试都不可能对孩子知识的掌握提供可靠的评估;这个孩子可能是没有学习多少考试所涉及的内容,但是知道不少考试以外的事情;可能是这个孩子在参加考试那天头疼;还可能是参加考试那天早上孩子与父母发生了争执由于种种原因,单┅考试不能对知识量提供好的估计所以老师进行了一组考试,然后计算出所有考试的平均分来评价孩子的知识量这样的估计结果会更恏,多少分是孩子知识量的实验结果而每一个单独考试的分数则是数据。

那么老师应该如何组织考试是搞那种只包括几天前所教授内嫆的系列考试,还是每次考试都从考试前所教授的全部内容中提取一部分考试是一个星期搞一次,还是每天搞一次或者在每个教学单え结束时搞?所有这些都是实验设计涉及到的问题

如果农业科学家想知道某种人工肥料对小麦生长的效用,就要构建一个实验以取得效鼡估计时所需要的数据费歇尔表明,实验设计的第一步是建立一组数学公式用以描述待搜集数据与欲估计结果之间的关系,因此任哬有用的实验必须是能够提供估计结果的。实验必须是有效的能够让科学家测定出气候的差异和不同肥料的使用对产量差别的影响。特別是有必要包括同一实验中打算加以比较的实验处理(treatments),即那些后来被称为“控制组件”(controls)的东西。

在他那本关于实验设计的书中費歇尔提供了几个实验设计的范例,并导出优秀设计的一般原则然而,费氏方法中所涉及到的数学非常复杂多数科学家设计不了自己嘚实验,除非他们遵循费歇尔书中提出的实验设计中的某个模式

农业科学家认识到费歇尔工作的伟大价值,在大多数说英语的国家中費氏方法很快便成为农业科研的主流学派。从费歇尔的原创性工作出发用来论述不同实验设计的完整科学文献发展起来。这些设计被应鼡到农业以外的领域包括医学、化学和工业质量管理。在许多案例中所涉及的数学高深且复杂,但此时此刻我们不妨停下来想想,科学家不可能不假思索地动手实验这通常需要长时间的审慎思考,而且其中通常会有大量的、高难的数学。

至于前面所说的女士品茶——那个在剑桥晴朗的夏日午后所做的实验中那位女士怎样了呢?费歇尔没有描述这项实验的结果但史密斯教授告诉我,那位女士竟嘫正确地分辨出了每一杯茶!

像人类思想史上的许多革命一样要想找到统计模型成为科学组成部分的确切时刻,也是很难的人们可以茬19世纪初德国和法国数学家的工作中找到可能存在的特例,甚至在17世纪伟大的天文学家约翰尼斯?开普勒(Johannes Kepler)的论文中也能找到某种启示。正像本书前言中所提到的那样拉普拉斯(Laplace)发明了误差函数来说明天文学中的统计问题,但我仍然倾向于把统计革命的发生定位于19世紀90年代K?皮尔逊(Karl Pearson)的工作查尔斯?达尔文(Charles Darwin)把生物变异认作生命的基本面,并将之作为适者生存理论的基础然而,是他的英国伙伴K?皮爾逊首先认识到统计模型的根本性质以及这种模型对19世纪科学中的决定论观点提供了哪些不同的东西。

当我在20世纪60年代开始学习数理统計时K?皮尔逊的名字在课上很少被提到。当我与这一领域的大人物共同探讨一些问题时也听不到对K?皮尔逊及其著作的参考。他或者是被忽略了或是被视为行为早已出局的次要人物。例如美国国家标准局(the U.S. National Burean of Standards)的邱吉尔?艾森哈特(Churchill College,London)学习,那是K?皮尔逊人生的最后几年艾森哈特记忆中的K?皮尔逊不过是一个精神头不足的老头儿。统计研究的步伐已经将他推出局外他和他的工作被埋进故纸堆中,青年学生神采飞扬集聚在新的大人物周围学步,其中之一便是K?皮尔逊自己的儿子,但是没有人去拜见老皮尔逊他的办公室孤零零地坐落在那里,远离着活跃的、振奋人心的新研究

当然并不总是如此,在19世纪70年代年轻的K?皮尔逊离开英国,到德去从事政治科学的研究生学习在那里,他倾心于卡尔?马克思(Karl Marx)的著作为了表达崇拜之情,他把自己名字的拼法从Carl改成Karl带着政治学博士的学位,他回到了伦敦并在這个领域写过两本值得重视的著作。在维多利亚时代的英国伦敦的拘谨之风最甚,K?皮尔逊却大胆地效仿德国和法国上流社会的沙龙组織了一个青年男女谈话俱乐部(Young Mens and Womens Discussion Club)。俱乐部的青年男女平等地聚焦在一起(未婚少女并没有人陪伴)讨论世界上重大的政治和哲学问题。K?皮尔逊正是在那种环境下与夫人相遇而结缘的这个事实使人感到发起这类俱乐部可能另有动机。这个小小的社会冒险对我们进入K?皮尔遜的内心世界提供了帮助可以见证他对已经建立起来的传统是那样地不以为意。

尽管拿的是政治学博士学位K?皮尔逊的主要兴趣还是在科学哲学和数学模型的性质上。19世纪80年代他发表了《科学的法则》(The Grammar of Science),这本书后来再版了多次在第一次世界大战之前的一段时间里,它被视为关于科学和数学性质最伟大的著作之一其中充满了闪光的、原创性的、最具洞察力的见解,这使该书成为科学哲学的一本重偠著作同时,它又是以流畅、简单的风格写成任何人都可以接受,你不必懂得数学就可以理解《科学的法则》尽管从写作之日算起,这本书已经有100多年的历史了但其中充满洞察力的见解和思想,对21世纪的数学研究仍然是适用的。而它所提供的对科学性质的理解臸今也是真实的。

高尔顿的生物统计实验室

在人生的这个时段K?皮尔逊感受到了英国科学家弗朗西斯?高尔顿(Francis Galton)爵士的影响。大多数人知噵高尔顿这个名字缘于他是指纹现象的“发现者”。高尔顿的贡献是认识到指纹对每一个人都是独特的此外,还有通常用于识别和分類指纹的方法指纹的唯一性存在于手指类型中出现的不规则标识和切面,这被称为“高尔顿标识”(Galton Marks)高尔顿做的远比这多,作为一個只是将生物学算作其业余爱好的科学家通过数字模型的研究,他寻求将数学的严密引入生物学这同样是富有价值的。他所初创的各種调查当中的一项是对天才遗传的研究。在这项研究中他搜集了有关父子的信息,这些人因智商高而闻名但由于当时对智力的测量沒有什么好的办法,他发现研究这个问题特别困难于是他决定转向诸如身高之类的遗传特性的研究,因为这更容易测量些

高尔顿在伦敦成立了生物统计实验室(biometrical laboratory),并打广告动员不同的家庭来做测量在这个实验室,他搜集身高、体重数据测量特殊的骨骼和家庭成员嘚其它特性。他和他的助手将这些数据列成表格并一再检验,他是在寻找利用父母测度数据来推断子女的某些办法比如说,很明显高个子父母很容易有高个子的小孩,但是不是存在某些数学公式只用父母的身高就可以预测孩子将有多高呢?

高尔顿用这种方法发现叻他称之为“向平均回归”(regression to the mean)的现象,这表现为:非常高的父亲其儿子往往要比父亲矮一些;而非常矮的父亲,其儿子往往要比父亲高一些似乎是某种神秘的力量,使得人类的身高从高矮两极移向所有人的平均值不只是人类身高存在着向平均数回归的现象,几乎所囿的科学观察都着了魔似的向平均值回归在第5章到第7章,我们将看到费歇尔如何能够将高尔顿向平均值回归的思想纳入统计模型,而這种模型现在支配着经济学、医学研究和工程学的很多内容高尔顿仔细思考了他的惊人发现,而后认识到这必定是真实的在进行所有觀察之前这就是可以预言的。他说假设不发生这种向平均值的回归,那么从平均意义上看高身材父亲的儿子将与他们的父亲一样高,茬这种情况下一些儿子的身材必须高于他们的父亲,以抵消身材比父亲矮小者的影响使平均值不变。高身材者这一代人的儿子也将如此那么会有一些儿子身材更高。这个过程将一代一代延续下去同样地,将会有一部分儿子身材比他们的父亲矮小而且有一部分孙子將更加矮小,如此下去不用多少代,人类种族就将由特别高和特别矮的两极构成

上述的情形并没有发生,人类的身高在平均意义上趋姠于保持稳定只有当非常高的父亲其儿子平均身材变矮,而非常矮的父亲其儿子的平均身材变高才能出现这种稳定。向平均值回归是┅种保持稳定性的现象它使得某给定物种代际之间大致相同。

高尔顿发现了这种关系的一种数学测度他称之为“相关系数”(coefficient of correlation)。高爾顿给出了明确的公式以计算这个系数,所用的资料则是在生物测量实验室搜集的这是一个非常详细而明确的公式,它只计算了向平均值回归的一个方面但没有告诉我们任何有关这种现象原因的信息。正是在这个意义上高尔顿最先使用了“相关”这个字眼,这之后咜演变进入了大众词汇与高尔顿特定的相关系数相比,“相关”经常被用来表示更为模糊的东西尽管“相关”本身有严格的科学含义。科学圈外的人经常说到这个词似乎它描述了两种事物如何相联系,但除非你涉及到高尔顿的数学测量否则,当你使用高尔顿用于特別目的的“相关”这个词时它不必那么精确。

有了这个计算相关的公式高尔顿实际上已经非常接近新的革命性观念了,这个观念革命茬20世纪几乎修正了所有的学科但却是他的弟子K?皮尔逊,在非常完整的意义上第一个规范地阐明了这个观念

为了理解这个革命性的观念,你必须将已有的关于科学的成见抛开通常我们被教导,科学就是测量我们进行精心的测量,并用它来寻找描述自然的数学公式在高中的物理课中我们学过,当时间给定时一个自由落体的运行将遵循一个含有符号“g”的公式,这里的“g”是关于重力加速度的常量峩们学过可以用来确定“g”的值的实验。然而当高中生们进行一系列确定值的实验时,顺着斜板滚动小球并测量小球需要多长时间到達不同的位置时,发生了什么呢这就是很少得出确切的结果。学生进行实验的时间越长困惑就越多,因为不同的实验得出了不同的“g”值老师仅凭自己优越的知识来审视学生的实验,并认定学生之所以得不到正确的结果要么是因为工作草率,要么是因为不够细致偠么是抄错了数据。

老师没有告诉学生的是:所有的实验都是草率的并且,即使是最精心的科学家也很少得到确切的数值。不可预见囷不可观察的小扰动在每一个实验中都有:室内的空气可能太潮湿或者落体在滚动前卡住了一个微秒,旁边飞过的蝴蝶可能会有其影响:造成气流的轻微扰动人们从一个实验中真正得到的是散乱的数据,其中没有一个单个数据是确切的但所有这些数据可以用来对确切徝进行近似的估计。

武装了K?皮尔逊的革命性观念我们就不再将实验结果看作精心测量得出的数据,它们也不是本来就确切的用更容易接受的术语来代替:它们是一组散布数据,或一个数据分布中的样本数据的分布可以写成数学公式,它告诉我的数值是不可预测的我們只能谈论概率值而不是确定值,单个实验的结果是随机的在这个意义上看它们是不可预测的,然而分布的统计模型却使我们能够描述这种随机的数学性质。

科学家花了一些时间才认识到观测值所固有的随机性质在18和19世纪,天文学家和物理学家创造出描述他们观察值嘚数学公式达到了可接受的精确程度,在为测量工具不够精确所以观察值与预测值之间的是预料之中的,可以忽略不计星体和其它忝体的运动被假定遵循运动基本公式所确定的精确路径,其不确定性是由于简陋的测量工具造成的并不是其固有的性质。

随着物理学中哽为精确的测量工具的发展随着将这种测量科学扩展到生物学和社会学的尝试,大自然所固有的随机性越来越明显了怎么处理它?一種办法是坚持数学公式的精确性将观测值与预测值之间的离差视为小的、无关紧要的误差。事实上早在1820年,拉普拉斯的数学论文描述叻第一个概率分布即误差分布,那是一个与这些小的、无关紧要的误差相联系的概率的数学公式这个误差分布以钟形曲线(bell-shaped

这使K?皮尔遜比正态分布或误差分布更进了一步,审视生物学中积累的数据K?皮尔逊认为,测量值本身而不是测量的误差,就具有一种正态分布峩们所测量的,实际上是随机散布的一部分它们的概率通过数学函数——分布函数被描述出来。K?皮尔逊发现了被他称为“偏斜分布”(skew distribution)的一组分布函数他宣称,这组函数可以描述科学家在数据中可能遇到的任何散布类型这组函数中的每一个分布由四个数字所确定。

鼡来确定分布函数的这些数字与测量中的数字不属于同一类型这些数字决不会被观察到的,但可以从观测值散布的方式中推导出来这些数字后来被称为参数(parameters——源自希腊语,意思是“几乎测量”(almost measurements))能够完整地描述K?皮尔逊体系中数字的四个参数分别被称为:

1. 平均數(the mean)——测量值散布状态的中间值;

3. 对称性(symmetry)——测量值在平均值一侧规程的程度;

4. 峰度(kurtosis)——个别的观测值偏离平均值有多远。

鼡K?皮尔逊偏斜分布体系去考虑问题思路会有一种微妙的转移。在K?皮尔逊之前科学所处理的事情都是真实的。开普勒试图发现行星如何茬空间运行的数学规律;威廉?哈维的实验打算确定血液如何在某一特定动物的静脉和动脉中游动;化学则处理元素和由元素组成的化合物然而,开普勒所试图追踪的“行星”实际上是一组数据用来给地球上的观测者所看到的天空中微弱的光点定位。单匹马身上血液通过靜脉流动的实际情形也许与在另一匹马或者一个人身上所可能看到的不同。没有人能够生产出纯铁的样本尽管谁都知道铁是一种元素。

K?皮尔逊提出这些观测到的现象只是一种随机的映像,不是真实的所谓的真实是概率分布。科学中真实的东西并不是我们所能观测到戓能把握到的它们只是通过用来描述我们所观测事物随机性的数学函数来反应。科学调查中我们真正想确定的是分布的四个参数。从某种意义上说我们永远不能确定这四个参数的真实数值,而只可能从资料中估计它们

K?皮尔逊并没有意识到这关键的一点,他以为如果我们能够搜集到足够的数据去估计参数,就会得到参数的真实数值而他的年轻对手费歇尔指出,K?皮尔逊的许多估计方法并不是最优的在20世纪30年代末期,当K?皮尔逊临近他漫长生命的终点之际一位杰出的波兰年轻数学家耶日?奈曼(Jerzy Neyman)表明,K?皮尔逊的偏斜分布体系并没有包含所有可能存在的分布许多重要问题不能用K?皮尔逊的体系解决。

还是让我们离开1934年那个被离弃的老皮尔逊吧回到他三四十岁、精力充沛的时期,那时的他对自己所发现的偏斜分布充满了热情1897年,他接管了高尔顿在伦敦的生物统计实验室带领一支年轻的娘子军(被稱为“计算员”),计算高尔顿所积累的人种测量数据的分布参数在20世纪之交,高尔顿、K?皮尔逊和R?韦尔登(Rerhael Weldon)共同努力创办了一个新嘚科学期刊,这将使K?皮尔逊的观点应用到生物数据上高尔顿用他的个人财富建立了一个信托基金支持这个期刊。在第一期编辑们提出叻一个雄心勃勃的计划。

当时英国科学家中有一位杰出的人物,他就是达尔文同期的科学家们致力于探索达尔文富有洞察力的见解,高尔顿、K?皮尔逊和韦尔登便是其中相当热心的骨干达尔文的进化理论认为,生命形式随着环境压力而变化他提出,变化的环境会给更適应新环境的随机变化提供些许的优势渐渐地,伴随着环境改变和生命形式继续发生随机转变新物种将会出现并且更适于在新的环境Φ生存和繁殖。这一思想被简称为“适者生存”(survival of the fittest)当恣意妄行的政治学家将其用于社会生活,宣称那些在经济竞争中取得胜利的富人仳身陷贫困的穷人更为适于生存时这一理论对社会就有不好的影响——适者生存理论成了猖狂的资本主义的辩护者,在那里富人被授予了道义上的特权去鄙视穷人。

在生物科学中达尔文的思想似乎很有道理。达尔文可以指出相关物种的相似性作为现代物种从先前物種演化而来的佐证。达尔文表明物种上些许不同的小型鸟类,即使是生活在孤岛上也有许多解剖学上的共性。他指出不同物种胚胎の间的相似性,这包括人类的胚胎在开始是有尾巴的。

有一件事是达尔文做不到的那就是他不能给出人类历史的时间框架中,新物种實际出现的例子达尔文设定新物种由于适者生存而出现,但没有证据他不得不做的只是展示现代物种很好地适应了它们所处的环境。達尔文的说法似乎只是表明了已知的事情而且理论本身有一个很吸引人的逻辑结构,但是如果套用犹太人的一句老话就是“举例并不是證明”(For instance is no proof)

K?皮尔逊、高尔顿和韦尔登打算在他们的新期刊中将这事搞清楚。在K?皮尔逊看来只有概率分布是真实的,达尔文的雀鸟(他茬书中用到的一个重要例子)并不是科学调查的对象而某一种雀鸟的总体随机分布才是这个对象。对某一给定雀鸟种类而言如果能够測量其全体的喙长,这些喙长的分布函数将有四个参数这四个参数将是这一种雀鸟的喙长。

K?皮尔逊说假如存在着某种环境力量,通过提供优越的生存能力使得某一物种产生某种特定的随机变化,我们也许不能生存得那么久以看到新物种的出现,但我们能够看到分布嘚上个参数的变化在他们期刊的创刊号上,三位编辑宣布:他们的新期刊将从全世界搜集数据以确定这些分布的参数。最终期望表明样本参数的变化与环境变化相关。

他们将新期刊定名为《生物统计》(Biometrika)高尔顿创建的生物统计基金会给予它慷慨资助。由于资金是這样地充裕以至于该期刊成为世界上第一本印有全彩照片的期刊,甚至还带着画有复杂图画的下班纸折页期刊以高品质的优质纸印刷,连最复杂的数学公式也展示了出来尽管那意味着极端复杂和昂贵的排版工艺。

接下来的25年里《生物统计》发表了通讯员们从各地发來的数据:有的深入非洲的丛林,测量原住民的胫骨和腓骨;有的从中美洲的雨林抓到奇特的热带鸟类测量其喙长;还有的甚至偷盗古墓,揭开死人头盖骨灌铅以测量其脑的容量。在1910年该期刊发表了几幅全彩照片,画面是俾格米男人裸躺在地上的生殖器旁还摆着量呎。

在1921年一个年轻的女通讯员朱莉亚?贝尔(Julia Bell)描述了她在试图对阿尔巴尼亚新兵进行人类形体测量时所遇到的困难。她离开维也纳去阿爾巴尼亚一个边远的基地本以为可以得到讲德语军官的帮忙,当她抵达时才发出那里只有一个士官能说三句德语。她无所畏惧地拿出叻测量所用的铜标尺通过形体动作让那些年轻人理解她要干什么,直到他们按要求抬起手臂和脚

对每一组这样的数据,K?皮尔逊和他的計算员们都计算出分布的四个参数论文将展示最佳分布的图示,并评论该分布与其它相关数据的分布有何不同回顾过去,很难看出所囿这些行动怎样帮助证明了达尔文的理论浏览《生物统计》的这些作品,我得到这样一种印象:这些工作不久就变成为自身原因而进行努力除了给特定数据组估计参数外,没有实际目的

在期刊中还夹杂着其它类型的论文,其中一些涉及理论数学以处理发展概率分布時遇到的问题。比如在1908年一个不知姓名的作者,以“学生”(“student”)为笔名发表了论文提出了后来几乎在所有现代科学工作中都有作鼡的研究成果——“学生”的“t检验”。接下来的几章我们还会遇到这位匿名的作者并将讨论他在K?皮尔逊与费歇尔之间作调解时的不幸角色。

高尔顿死于1911年而韦尔登则于这之前死于阿尔卑斯山的一次滑雪事故。只剩下了K?皮尔逊这唯一的编辑和信托基金的支配者在接下來的20年中,期刊成了K?皮尔逊个人的了期刊发表什么完全以K?皮尔逊的判断为准,由他确定重要与否K?皮尔逊为期刊写了很多社论,他让自巳丰富的想象驰骋在各个领域比如,在对一个古老的爱尔兰教堂翻修时墙壁中发现了一副骨骼,K?皮尔逊通过对这些骨骼的测量和所涉忣的数学推理来确定它们事实上是不是某个中世纪圣徒的遗骨。再比如一个据称是奥利弗?克伦威尔(Oliver Cromwell)的头骨被发现了,K?皮尔逊以一篇精彩的文章对其进行了研究该文描述了所知的克伦威尔尸体的下落,并且还将对克伦威尔画像所做的测量结果和该头骨 所做的测量进荇了比较在另外一些论文中,K?皮尔逊检验了古罗马各君主的统治期和贵族阶级的没落还涉猎了社会学、政治学和植物学。所有这些嘟带有复杂的数学解释。

就在去世之前K?皮尔逊还发表了一篇题为“论犹太人与非犹太人关系”(On Jewish – Genlile Relationships)的短文。文中他分析了从世界各地收集到的犹太人与非犹太人的人体测量数据最后得出的结论是:德国国家社会主义(the National Socialists)(正式的名称是纳粹(Nazis))的种族理论纯粹是胡說八道,根本就没有犹太种族(Jewish race)或亚利安种族(Aryan race)那回事这最后一篇论文与他以前的工作一样,组织清晰有逻辑性,推理谨慎

K?皮爾逊运用数学研究了人类思想的许多领域,而很少有人将这些领域视为科学的正宗地盘浏览生物统计上他所写的社论,你仿佛看到了一個兴趣十分广泛的人他具有直切问题核心的惊人能力,并能用数学模型去加以处理还有浏览这些社论,你就像遇上一个意志坚定、主見鲜明的人说实话,如果不需要与他争辩的话我想我是很乐意与K?皮尔逊共处一天的。

K?皮尔逊他们是否证明了达尔文适者生存的进化论悝论呢也许是吧。通过将古墓中头骨的容量分布与现代男女的比较他们设法证明:经历了几千年深化的人类种群保持了相当的稳定。怹们表明:对澳洲原住民的人类学测量与对欧洲人的测量结果有着相同的分布据此,他们推翻了某些澳洲人关于原住民不是人类的断言K?皮尔逊从这些工作中发展了一种被称为“拟合优度检验“(goodness of fit test)的基本统计工具,这是现代科学所不可缺少的它使科学家能够确定一组給定的观测值是否适合于某一特定的数学分布函数。在第10章我们会看到K?皮尔逊的儿子E?皮尔逊(Eqon Pearson),是如何用这种拟合度检验是否定他父親所完成的许多项工作的

随着20世纪的来临,《生物统计》中讨论数理统计理论问题的文章越来越多少量的文章仍停留在处理特定数据嘚分布。当K?皮尔逊的儿子E?皮尔逊接班成为编辑时期刊的性质就完全转型为理论数学了。时至今天《生物统计》仍是这个领域中卓越的刊物。

但他们到底有没有证明适者生存这个说法呢20世纪初曾经有一个最接近的研究。韦尔登构想了一项宏大的实验:18世纪英格兰南部瓷器工厂的发展导致了一些河道被粘土淤塞,普利茅斯(Plymouth)港和达特茅斯(Dartmouth)港也都受到了影响近陆地区比近海地区淤得更为严重。韦爾登从这些港口抓了几百只螃蟹分别放入广口瓶中,其中一半用内港的淤泥水另一半用外港的较干净的水。一段时间后仍有螃蟹存活韦尔登测量它们的壳,以确定两组螃蟹的分布参数

正像达尔文所预言的那样,淤泥水中戚的螃蟹在分布参数上有了变化!这是不是证奣了进化论呢不幸的是,韦尔登在写出实验结果前就死了K?皮尔逊对数据进行了粗略的分析,他描述了这个实验及其结果但最后的分析却始终没有搞出来。为这项实验提供资助的英国政府要求提供最终报告但报告了无踪影,韦尔登死了实验也夭折了。

就生命周期很短的生物如细菌和果蝇而言,达尔文的理论最终被证明是真实的用这些物种,科学家可以在较短的一个时间段里完成几千代的实验現代的DNA研究,作为遗传的基石已经为物种之间的关系提供了更为有力的证据。如果我们假定突变率在过去千万年或更长的时间里保持不變那么DNA的研究可以用来估计灵长类和其它哺乳动物出现的时间框架,至少它经了几百万年大多数科学家现在都把达尔文的进化论作为囸确的东西接受下来。没有其它理论与所知数据吻合的如此之好于是科学界满足了,原来人们认为需要通过确定分布参数转变来表明较短时间里的进化过程一日三餐这种观念已经被放弃。

K?皮尔逊的革命所留下来的是这样一个观念:科学的对象并不是不可观测事物本身洏是数学分布函数,以描述与所观测事物相联系的概率今天,医学研究运用精巧的分布数学模型来确定治疗方法对长期存活的可能效果;社会学家和经济学家用数学分布来描述人类社会的行为;物理学家用数学分布来描述次原子粒子科学里没有哪一个方面从这场革命中逃脱。有的科学家宣称概率分布的使用只是一时的权宜之中,最终我们会找到一种途径回到19世纪科学的决定论爱因斯坦有句名言,他鈈相信上帝在和宇宙玩骰子就是这种观点的例子。其他人则相信大自然基本上是随机的,真实性只存在于分布函数之中不管一个人嘚基本哲学是什么,事实仍然是K?皮尔逊关于分布函数和参数的思想统治了20世纪的科学,并在21世纪初仍保持着优势

第3章 可爱的戈塞特先苼

爱尔兰都柏林的吉尼斯酿造公司(Guinness Brewing Company)是一个声誉卓著的老牌酿造公司,该公司于20世纪初开始投资于科学年轻的吉尼斯刚刚继承这家企業,他就决定雇用牛津和合格大学在化学上顶尖的毕业生以便将现代科学技术引进到公司的业务中来。在1899年他招募威廉?西利?戈塞特(William Sealy Gosset)进入公司,那是个23岁的牛津大学新秀拥有化学和数学两个学位。戈塞特的数学背景在当时是传统的包括微积分、天文学和机械式宇宙观下的其它科学分支,K?皮尔逊的创新和后来成为量子力学的萌芽观念还没有进入大学的课程。戈塞特是由于他的化学专长而被吉尼斯雇用的对一个酿酒企业来说,要一个数学家又有什么用呢

戈塞特成为吉尼斯一项很好的投资,他表明自己是一个很能干的管理者最後他在公司里升任负责大伦敦区业务的主管。事实上他对本行工艺做出了第一项主要贡献是以数学家的身份来完成的。几年前丹麦电話公司(the Danish telephone company)是第一个雇用数学家的实业公司,但他们有一个明确的数学问题:制造多大的电话交换板可制造啤酒又有什么数学问题需要解决呢?

戈塞特在1904年发表了第一篇文章处理的是这样一个问题:麦芽浆准备发酵的时候,需要仔细地测量所用酵母的量酵母是活的有機体,酵母培育需要保持鲜活加入麦芽浆前它在瓶中的液体里系列。工人们得到测量清楚某个给定的瓶中有多少酵母以便决定用多少液体,它们提取一定量的液体在显微镜下检验,计量他们所看到的酵母细胞数这种测量有多精确?了解这一点是很重要的因为麦芽漿中所用的酵母数应该精确地控制。酵母太少发酵不充分;太多了,啤酒又会发苦

注意这个问题与K?皮尔逊对科学的观念是多么的吻合。测量的是样本中酵母细胞的量但所寻求的真实“东西”是整个瓶中酵母细胞的浓度。由于酵母是活的而细胞不断地分裂和繁殖,那個“东西”实际上并不存在在某种意义上,真正存在的是单位液体中酵母细胞的概率分布戈塞特检验了数据,确定酵母细胞的数量可鉯用所知的泊松分布(Poisson distribution )来描述这并不是K?皮尔逊偏斜分布家族中的一种概率分布。事实上它是一种只有1个(而不是4个)参数的特殊分咘。

确定了样本中的活酵母细胞数服从泊松分布戈塞特就能够设计规则和测量方法,从而得到对酵母细胞浓度更为精确的测量用戈塞特的方法,吉尼斯能够生产质量更稳定的啤酒

戈塞特想找一份适合的期刊发表这个结果,泊松分布(或相应的公式)已经被发现100多年了过去一直试图在现实生活中寻找实例,其中之一便是计量普鲁士军队中被马踏死的士兵人数。在酵母细胞计量中戈塞特有一个清楚嘚实例,还有对统计分布新观念的重要应用然而,这违背了公司不准许雇员发表文章的政策几年前,吉尼斯一位优秀的酿造师写了一篇文章其中泄露了他们某个酿造过程的秘密成份。为了避免进一步损失吉尼斯禁止它的雇员发表文章。

戈塞特成了当时《生物统计》編辑之一的K?皮尔逊的好朋友而K?皮尔逊对戈塞特的数学能力印象很深。1906年戈塞特说服了他的老板,数学的新思想对啤酒公司是很有用的并到高尔顿生物统计室在K?皮尔逊门下脱产学习一年。这之前两年当戈塞特描述他处理酵母的结果时,K?皮尔逊急于将之付印于他的期刊他们决定用匿名的方式发表文章,于是戈塞特的首次发现是仅是以“学生”的名义发表的。

在其后30年中“学生”写了一系列极为重偠的论文,几乎所有的都发表在《生物统计》上从某些方面看,吉尼斯家族已经发现了他们“亲爱的戈塞特先生”违反了公司的规定┅直私下里撰写并发表科学论文。“学生”的数学活动大多是在家里进行并且是在正常的工作时间之外。戈塞特在公司升迁到了负更多責任的位置这表明他的副业并没有使吉尼斯公司受损。有这样一种不足为凭的说法:吉尼斯家族第一次知道这件事是在1937年戈塞特突然迉于心脏病,他数学界的朋友与吉尼斯公司探讨想帮助支付其论文集的印刷成本。不管这事真实与否美国统计学家哈罗德?霍特林(Harold Hotelling)嘚回忆录里清楚地记载,霍特林在20世纪30年代后期要与“学生”会谈安排是秘密的,带有间谍小说的各种情节这表明“学生”身份的真囸确认,对吉尼斯公司仍是个秘密“学生”在《生物统计》发表的论文涉及理论和实践的尖端问题,戈塞特将非常实际的问题带入有难喥的公式又把结论带回现实实践,后来者便照此办理

尽管有很高的成就,戈塞特仍是个谦逊的人在他的信中,人们经常可以发现这樣的字眼:“我的研究只是提供了粗浅的想法”;或者当他的某些发现被给予过多的荣誉,他会说:“费歇尔实际上已经能完成了整个數学结构”在人们的记忆中,戈塞特是一个和善的、体贴的同事很在意别人的情感。他去世的时候61岁离开了他的妻子马乔里(Majory)(┅个精力充沛的运动员,曾经担任英国女子曲棍球队的队长)、一个儿子、两个女儿和一个孙子当时他的父母还健在。

如果不算别的所有的科学家都受惠于戈塞特的一篇短文,该文的题目是“平均数的可能误差”(The Probable Error of the Meam)1908年发表在《生物统计》上。是费歇尔点出这篇杰出論文的一般性意义对戈塞特来说,有一个特定的问题需要解决一到晚上,他就习惯性地带着耐心和小心投入于这个问题发现了结论,他就用其它资料来检查重新验证他的结果,努力去确认是否遗漏了什么细微的差别考虑他必须设定哪些假设,并一再重复计算自己嘚发现他提前采用了现代计算机基础上才出现的蒙特卡罗技术(Monte Carlo techniques),这是一种一再模拟的数学模型,以确定相关数据的概率分布然而,當时他没有计算机只能不辞辛苦地加总数据,从上百个样本中计算平均数并绘制所得出频率的图表,所有这些都靠手工完成

戈塞特所专注的特定问题是小样本(small sample)问题。K?皮尔逊计算了某一分布的4个参数这是在单一样本就积累了上千个测量数据的基础上完成的,因为使用了大样本他设定所得到的参数估计是正确的。费歇尔要证明他的错误根据戈塞特的经验,科学家很少能三八线以有如此大的样本更为典型的实验通常能够看到10到20个观测数据,他还理解到这种现象在所有的学科中都很普遍。在一封给K?皮尔逊的信中他写道:如果峩是你遇到的用小样本工作的唯一一人,那你太特异了在这个题目上我与斯特拉顿(Stratton)(剑桥大学的一位研究员)相伴,他曾经用4个样夲来做说明

K?皮尔逊所有的工作都假定:样本足够大,以至于确定参数可以没有误差戈塞特设问:如果是小样本会怎么样?我们将如何處理自己的计算中肯定会出现的随机误差

晚间,戈塞特坐在自己的餐桌旁取出一小组数据,算出平均值和标准差估计值再将二者相除,并将结果绘在图纸上他发现这个比率与K?皮尔逊的四个参数相关,并与K?皮尔逊的偏斜分布系列中的某一分布相配他的伟大发现在于:你不必知道原始分布的4个参数的确切值。前两个参数估计值的比率有一个可以制表的概率分布不管数据从哪里来,或者标准差的真实徝是多少计算这两个样本估计值的比率,你就可以得到一个已知的分布

正如弗雷德里克?莫斯特勒(Frederick Mosteller)和约翰?图基(John Tukey)所指出的那样,沒有这一发现统计分析注定要使用无限次的回归,没有“学生”的t检验 (这是该发现后来的称谓)分析者将不得不估计观测数据的4个參数,再估计这4个参数估计值的4个参数接着估计4个新估计值的4个参数……这样继续下去,没有机会得到最终的结果戈塞特表明,分析鍺可以在第一步就停止这种估计

戈塞特的工作有一个基本的假设,即原始测量值服从正态分布多年以来,科学家使用着“学生”的t检驗许多人渐渐相信,并不需要这项假设他们经常发现:不管原始测量是否服从正态分布,“学生”的t检验都有相同的分布在1967年,斯坦福大学(Stanford University)的布拉德利?埃弗龙(Bradley Efron)证明了这一点更确切地说,他发现了不需要戈塞特假设的一般条件

随着“学生”t检验的发展,我們不知不觉地习惯于统计分布理论的应用这一理论在科学界广为流传,相伴而来的是更深层次的哲学问题这就是我们所说的“假设检驗”(hypothesis tests)或“显著性检验”(significance tests)的使用。后面我们会剖析这个问题现在我们只想强调:“学生”提供了几乎每个人都使用的科学工具,盡管没有多少人真正理解它

与此同时,“可爱的戈塞特先生”成了两个长期不和的超级天才——K?皮尔逊和费歇尔之间的中间人尽管他經常对K?皮尔逊抱怨他看不懂费歇尔写给他的东西,他还是保持了与两个人的友谊他与费歇尔的友谊开始于费氏在剑桥大学读本科的时候,那是在1912年费歇尔刚刚成为剑桥大学数学学位甲等及格者(最高的数学荣誉),他的天文学导师 介绍两个人认识当时费歇尔正在研究┅个天文学问题,他写了一篇论文在其中他重新发现“学生”在1908年得到的结果。年轻的费歇尔显然不大知晓以前戈塞特所做的工作

在費歇尔给戈塞特看的这篇论文中,有一个小错误被戈塞特指了出来当戈塞特回家的时候,他发现费歇尔写的两大页数学论证正等着他這个年轻人把自己原先的工作又做了一遍,并加以扩充还批评了戈塞特所犯的一个错误。戈塞特在给K?皮尔逊的信中写道:“附上一封信它证明了我关于“学生”t检验的频率分布公式,您是否介意替我看一下即使我可以理解,超过三维空间我还是觉着不自在”费歇尔鼡多维几何证明了戈塞特的成果。

在这封信中戈塞特说明了自己的如何到剑桥去与朋友会面,而这个朋友恰巧在冈维尔与凯厄斯学院(Gonville and Caius College)是费歇尔的导师,他如何被介绍给这位22岁的学生他接着写道:“费歇尔这小子写了一篇论文,提出概率的新标准或诸如此类的东西看起来不错,但就我所能理解的是一种不切实际且不大管用的认识事物方式。”

在描述了他在剑桥与费歇尔的讨论后戈塞特写道:

對我们之间的讨论,他的回复是两大页书写纸上面用最深的墨水写满了他所证明的数学(跟着是一组数学公式)……我看不大懂这些内嫆,回复他说等我闲下来时准备研究它实际上我去湖区时随身带着它,可弄丢了

现在他将这封信寄给我,我觉得如果它还可以的话您也许愿意发表这个证明,它是这样的完美和数学化对某些人也许有吸引力。

K?皮尔逊在《生物统计》上发表了费歇尔的短文就这样,20卋纪最伟大的天才之一面世了3年以后,经过了一连串俯就的信件往来K?皮尔逊发表了费歇尔的第二篇论文,但事先约定论文须以这种形式出现:它不过是对K?皮尔逊合作者之一所做工作的细微补充K?皮尔逊再也没有允许他的期刊发表费歇尔的论文。费歇尔继续在K?皮尔逊许多朂感自豪的成就中挑毛病而K?皮尔逊则在稍后几期的《生物统计》中,以社论的方式点出“费歇尔先生”或“费歇尔先生的学生”在其它期刊所发表论文中的错误这些都将是下一章介绍的内容,戈塞特会在以后几章中的某些地方再度出现作为一个和蔼可亲的良师益友,怹帮助年轻男女进入统计分布的新世界他的许多学生和合作者都对新数学做出了重要贡献。尽管他本人谦逊地表示异议但戈塞特的确莋出了许多影响深远的贡献。

第4章 在“垃圾堆”中寻觅

1919年春天费歇尔29岁,他带着妻子、三个孩子和小姨子搬到了伦敦北部的一间旧农舍里,那儿靠近罗森斯特农业实验站(the Rothamsted Agricultural Experimental Station)从许多方面来看,费歇尔的人生在别人眼里是失败的他在孤单和多病的童年中长大,并有严偅的视力损伤为了保护他的近视眼,医生禁止他在人工灯光下阅读但他很小就接触了数学和天文学,在6岁时他迷上了天文学七八岁時,他就跑去听由著名天文学家罗伯特?鲍尔(Robert Ball)爵士主讲的通俗讲座

)录取,在那里他的数学是出众的由于不允许他使用电灯,他的數学导师在晚上教他时不用铅笔、纸和任何其它视觉辅助品。久而久之费歇尔发展了一种很强的几何直觉能力。在后来的岁月中他那非凡的几何洞察力,使他得以解决许多数理统计中的难题这种洞察力对他而言是那么明显,从而导致他经常不能被别人所理解在他看来是显而易见的事情,别的数学家往往要花几个月甚至几年的时间去证明

他于1909年进入了剑桥,在1912年获得了数学学位甲等及格者的头衔对剑桥学生来说,这是一个很高的荣誉要得到它必须通过一系列极为困难的口头和笔头数学考试,一般一年只会有一两个学生成功囿的年份甚至没有人能得到这种头衔。当费歇尔还是本科生时他就发表了他的第一篇科学论文,其中复杂的迭代公式(iterative formulas)被转换成多维嘚几何空间形式在这篇论文中,那些在人们眼里一直特别复杂的数学计算公式被转换成简单的几何形式毕业后他花了一年时间,研究統计力学(statistical mechanics)和量子理论(quantum theory)到1913年,统计革命已经进入了物理学而新观念已经较为系统地进入这两个领域,并成为正式的大学课程

費歇尔的第一份工作是在投资公司的统计室,其后他突然离开那里到加拿大去从事农场工作。后来又在第一次世界大战开始时突然离开農场回到了英格兰。虽然他被批准入伍但他那很差的视力使他免于军事服务。战争年代他在许多公共学校教授过数学,但每一次的經历都比上一次更糟他对学生们没耐心,因为他们都是不能理解在他看来很明显的事情

前一章提到,当费歇尔还是本科生时就在《苼物统计》发表了一篇短文。这使得费歇尔有机会见到K?皮尔逊K?皮尔逊将一个困难的问题介绍给费歇尔:确定高尔顿相关系数的统计分布。费歇尔对此作了思考用几何公式来处理它,不到一个星期就得出了完整的答案他把结果交给K?皮尔逊,想在《生物统计》上发表但K?皮尔逊不能理解其中的数学,把它转给了戈塞特而戈塞特在理解上也有困难。K?皮尔逊知道如何就特定的案例得到问题的部分结论他的方法涉及到大量的计算工作,于是便对生物统计实验室的工人做出安排让他们去计算出这些明确的答案。在每一个案例中所得到的答案都更加支持费歇尔的一般性结论。但K?皮尔逊仍然不发表费歇尔的论文他要费歇尔做出修改,并降低费歇尔工作的一般性K?皮尔逊将费歇尔的东西扣了一年多,同时让他的助手(计算员)计算一个庞大的扩展的表以表明参数值的分布。最后他发表了费歇尔的成果,但楿对于K?皮尔逊及其助手展示分布表的大块文章来说费氏的论文只是作为一个脚注。对不经意的读者来说这样一个结果意味着:K?皮尔逊囷他的合作者所做的工作更为重要,那里有大量的数据计算而费歇尔的数学处理只是一个附属物。

Research)上而所有这些期刊与数学研究通瑺都不怎么搭界。据知情者说费歇尔作出这样的选择是因为K?皮尔逊和他的朋友们成功地将费歇尔逐出数学和统计研究的主流。根据其它囚的说法K?皮尔逊吹毛求疵的态度让费歇尔感到自身受到漠视,同时他也没能够让类似的论文在《皇家统计学会期刊》(the Journal of the Royal Statistical Society,该领域另一份顶尖的期刊)上发表于是他转而利用其它期刊,有时甚至付钱请他们发表自己的论文

费歇尔这个“法西斯”!

费歇尔早期论文有一些是高度数学化的。他论述相关系数的文章也就是K?皮尔逊最后同意发表的那篇,就充满了数学符号一个标准页里有一半甚至更多篇幅嘟是数学公式。但也有一些论文里面压根就没有数学其中的一篇,他讨论了用达尔文的随机适应理论(Darwin’s theory of random adaptation)来说明最复杂的解剖学结构嘚方法在另一篇论文中,他探讨了性别选择进化的问题费歇尔在1917年加入了优生学运动(the eugenics movement),在《优生学评论》(the Eugenics Review)上发表了一篇社论呼吁转变国民政策“以增加职业界人士和高技能工匠的生育率”,并抵制下层社会的生育率他在这篇文章中质疑政府为贫民提供福利嘚政策,认为这会鼓励他们多生育并将基因传给下一代,而中产阶级对经济安全的关注会导致他们推迟结婚并节制生育。费歇尔担心对整个国家来说最终的结果是:为后代选择了“最差的”而不是选择“较好的”基因。优生学问题是通过有选择的系列来改进人类基因庫这成为费歇尔的主要政治观念。在第二次世界大战期间他被错误地指责为法西斯主义者,并被逐出了与战事有关的工作

费歇尔的政治见解与K?皮尔逊不同,后者钟情于社会主义和马克思主义他同情被压迫者,并喜欢挑战保守的优等阶层但K?皮尔逊的政治观念对他的科学研究没有什么影响。费歇尔关注优生学这导致他将相当大的精力投入到遗传学的数学研究中。当时有一种新观念认为某种植物或動物的特性可能来自一个单个基因,这以两种形式中的一个就可表现出来从这种观念出发,费歇尔将格雷戈尔?门德尔 的工作大大地推进叻他指出如何估计两个相信基因的彼此影响。

存在着控制生命性质的基因这一观念是科学中广义统计革命的一个部分。我们观察植物囷动物的我专业上称之为“表型”(phenotypes)。但我们假设这些表形是基因之间交互作用的结果而这些基因的交互作用又具有不同的概率。峩们寻求以这些主要的和不可见的基因方式来描述“表型”的分布。在20世纪后期生物学家识别出这些基因,以确定它们让细胞制造什麼样的蛋白质我们说起这类事就像真的一样,但我们所观察到的还只是概率的分布我们所说的基因,即DNA链正是来自于这些分布。

我們这本书说的是总的统计革命费歇尔在这场革命中起了很重要的作用。他对自己作为遗传学家所取得的成就感到自豪他的一半以上的荿果是与遗传学有关的。现在我们不再把费歇尔当作一个遗传学家,而主要看他在一般统计技术和观念方面取得的进展这些观念的萌芽在他的早期作品中就可以发现,但这些观念的全面发展却是他在工作期间的事,那发生在20世纪20年代到30年代

《研究工作者的统计方法》

虽然费歇尔在这段时间被数学界忽视了,但他所发表的论文和著作极大地影响了农学和生物学界科学家的工作在1925年,《研究工作者的統计方法》(Statistical Methods for Research Workers)第一版面世之后,这本书仅英文版就出了14个此外,还有法文、德文、意大利文、西班牙文和俄文的译本

《研究工作鍺的统计方法》与这之前的数学著作不同,通常数学著作都有许多定理及其证明并展开抽象的概念将之一般化,与其它抽象概念联系洳果说这类书中有什么应用的话,也只是放在完整的数学描述和证明之后《研究工作者的统计方法》从如何利用数据制图及如何读图开始,第3页就出现了第一个实例展示一个婴儿生命头13周每一周的重量,这个婴儿就是费歇尔自己的头生子——乔治(George)接下来的各章描述如何分析数据:费歇尔给出一些公式,列举一些实例解读这些例子的结果,然后再转到其它公式书中没有对公式的数学推导和证明,却带有详细的技术说明并交待如何在机械计算器上应用它们。

尽管或者说正是因为缺少理论数学,这本书迅速地被科学界采用它順应了现实需求,可以把这本书直接交给只受过有限的数学教育的实验室的技工让他们自己应用。使用这本书的科学家认为费歇尔的主張是正确的而评论这本书的数学家则对书中未加证明的大胆论述持怀疑态度,许多人弄不明白他是怎么得出这些结论的

第二次世界大戰期间,瑞典的数学家哈拉尔德?克拉美(Harald Cramér)被战争隔绝于国际科学界外他花了相当多的时间来费歇尔的这本书和所发表的论文,补充叻原来缺失的证明步骤并推导出原来没有的证明。1945年克拉美出版了一本书,书名叫作《统计的数学方法》(Mathematical Methods of Statistics)对费歇尔的许多著述給出了正式的证明。不过克拉美只能对这位多产天才的论述进行选择性的证明,费歇尔的很多著述在克拉美的书中都没有包括进去克拉美的书被用来教授新一代数学家和统计学家,他把费歇尔著述的“修注”编写成一个标准范式在20世纪70年代,耶鲁大学(Yale University)的L?J?萨维奇(Savage)阅读了费歇尔最初的论文发现里面有很多东西都被克拉美遗漏了。他还惊讶地看到费歇尔对后人的工作早有预见,并且已经解决了茬20世纪70年代被认为还没有解决的问题

但所有这些对1919年的费歇尔来说都是未来的事情,当时他正打算放弃不成功的学校老师职业实际上怹刚刚完成一项里程碑意义的工作:将高尔顿的相关系数与门德尔遗传学的基因理论结合在一起。但皇家统计学会和K?皮尔逊的《生物统计》都拒绝刊登这篇论文费歇尔听说爱丁堡皇家学会正在寻找适于他们的《交流》(Transaction)上发表的论文,但期望由作者本人支付印刷成本僦这样,费歇尔自费将自己第二项伟大的成果交给这样一个当时并不起眼的期刊发表

在当时,K?皮尔逊仍对年轻的费歇尔印象很深他想聘请费歇尔到高尔顿生物统计实验室担任首席统计师,两个人之间的通讯来往是诚恳的但对费歇尔来说,K?皮尔逊显然是一个主观意志很強并有支配欲的人所谓首席统计师,充其量不过是在K?皮尔逊的指令下从事细节的计算工作。

罗森斯特实验站与农业实验

Russell)爵士也与费歇尔取得了联系这个实验站是由一个英国的肥料制造商在一个旧农场里建立的。这个旧农场曾属于该肥料公司原来的主人农场的粘土並不特别适于种植什么作物,但主人发现了如何将石头磨碎与酸混合生产一种被称作“过磷酸石灰”(Super-Phosphate)的肥料的方法。从过磷酸石灰苼产得到的利润用来建立一个实验站以开发新的人工肥料。90年下来这个站进行了许多实验,测试无机盐肥料与不同品第的小麦、黑麦、大麦和马铃薯的不同组合这积累了一大仓库的数据,有雨量和温度准确的日记录、施肥追肥和土壤测量的周记录、收成的年度记录所有这些都保存在皮面笔记本中。大多数这样的实验没有产生一致的结果但这些笔记本被小心地存放在实验站的档案室中。

罗素先生看著积累下来这么多资料想到也许应该雇个人来看看里边有什么东西,对这些资料进行一次统计整理他四处询问,有的人推荐了费歇尔罗素跟费歇尔签了一年的合同,给出了1000英磅的酬劳他只能出这么多了,而且不能保证第二年续聘

费歇尔接受了罗素的聘任,带着妻孓、小姨子和三个孩子来到了伦敦北部的农区他们租下了实验站旁边的一间农舍,妻子和小姨子打算在那里种种菜园操持家务,而费歇尔则空上靴子穿行在农业实验站的田间和90年的数据中,做起他后来称之为“在垃圾堆中寻觅”的工作

在我担任生物统计学家不久,┅次去康涅狄格大学与休?史密斯教授讨论我所遇到的问题他给了我一份礼物,那是一篇论文的复印件论文有53页长,题目是《作物收成變动研究Ⅲ:降雨量对罗森斯特小麦收成的影响》(Studies in Crop Variation. Ⅲ. The Influence of Rainfall on the Yield of Wheat at Rothamted)这是一组杰出的数学论文的第三篇,其第一篇1921年发表在《农业科学期刊》第11郑仩产量变化是实验科学家的大忌,但却是统计方法研究的基本素材在现代科学文献中,“变动”(variation)这个词已经很少被用到了它已經被其它术语代替,比方说“方差”(variance)这个术语与特定的参数分布有关。“变动”对一般的科学用途来说过于含混但对费歇尔而言,却是合适的作物产量在年份之间、地块之间的这种变动,正是作者研究的起点借此,他可以推导出新的分析

大多数科学论文在结尾都有参考文献目录,一个长长的单子以确认对所讨论问题曾经有过建树的论文。费歇尔系列论文的第一篇却只有三篇参考文献:其一指明了1907年一次不成功的尝试,打算探讨降雨量与小麦生长的相关性;其二1909年以德文写成的,描述了一种计算复杂数学公式最小值的方法;其三是由K?皮尔逊发表的一组数表。先前没有什么论文涉足过这一杰出研究系列所涵盖的题目《作物收成变动研究》是自成一格的,署名的地方写着:罗纳德?A?费歇尔文学硕士,罗森斯特农业实验站统计实验室哈盆登(Harpenden)。

1950年出版商约翰?威利(John Wiley)征求费歇尔的意見,看他是否愿意从所发表的论文中挑选一些最重要的好单独形成一本文集。后来这本文集的名称叫做《对数理统计的贡献》(Contributions to Mathematical Statistics)一咑开书,就是费歇尔当时的照片他一头白发,双唇紧闭领带稍微有点斜,白胡子梳理得不大好书中标明费歇尔当时在剑桥大学遗传學系工作。《作物收成变动研究Ⅰ》是该文集中的第一篇文章作者在文章前面加了一个序言,以明确该文的重要性及其在他全部成果中嘚地位:

早期在罗森斯特的工作中作者对研究站多年积累下来的大量观察数据,如天气、收成、收成分析等给予了极大的关注。气象記录在多大程度上能够提供来年收成的预测对于这类问题,上述数据是有独特价值的现在这篇文章是用于此目的的系列研究的首篇。

這个系列研究最多有6篇论文《作物收成变动研究Ⅱ》发表在1923年,而史密斯先生给我的那篇标号为“Ⅲ”在1924年问世。《作物收成变动研究Ⅳ》则在1929年发表标号为“Ⅴ”的论文没有出现在费歇尔的文集中。在科学史上还很少有这种事件:标题那么不起眼而其内容却如此偅要。在这些论文中费歇尔开发了用于数据分析的原创性工具,建立了这些工具的数学基础并描述了如何将它们应用到其它领域中去,包括如何应用到他在罗森斯特所遇到的“垃圾堆”上这些论文表现了令人眩目的原创性,充满了奇妙的内涵这足够理论家们在20世纪餘下来的日子里忙乎的,也许那之后还会继续激发更多的研究

《作物收成变动研究Ⅰ》

费歇尔系列研究的后两篇文章是有共同作者的,泹《作物收成变动研究Ⅰ》却是他独立完成的那需要大量的计算工作。他的唯一后援是一台名字叫“百万富翁”的计算器那是一台原始的带有手摇曲柄的机械计算器。如果要算乘法比方说算3342乘27,先要将转盘放在个位上,设定3342这个数字摇动曲柄7次;再将转盘放在十位数仩,设定3342这个数摇动曲柄2次,计算方告结束这架机械叫“百万富翁”,因为它的转盘大得足够容纳以百万计的数字

为了体会到这篇論文所耗费的气力,我们来考虑一下《作物收成变动研究Ⅰ》中第123页的表7.如果完成一个多位数乘法需要1分钟我估计费歇尔需要大概185个小時来完成这张表。这篇论文中有15张复杂程度相当的数表还有4张更为复杂的图。只考虑体力劳动本身准备这些图表至少需要耗去费歇尔8個月的时间,而且每天得工作12个小时!这还不包括其它工作所花费的时间比方说:思考理论数学问题、整理数据、设计分析框架、修正鈈可避免的错误等等。

高尔顿回归思想的一般化

回顾一下高尔顿所发现的“向平均数回归”他试图找到一个数学公式,将随机事件彼此聯系在一起费歇尔接过高尔顿“回归”(regression)这个词,建立了某个给定地块小麦收成与年份之间的一般数学关系这个相当复杂分布的参數描述了小麦产量产业化的不同方面。要深入理解费歇尔的数学式你得有坚实的微积分基础,得对概率分布理论有好的辨别力还要对哆维几何学有感觉,但理解他的结论并不那么难

他将小麦产量的时间趋势分成几个部分,一个是由于土地退化导致产量稳定地整体性地丅降;另一个是长期的缓慢的变化每个阶段都要花几年时间;第三个是一组更快的移动变化,考虑的是气候在不同年份的差异自从费歇尔开创性的尝试,时间序列的统计分析在他的思想和方法的基础上建立了起来,现在我们有了计算机可以用更巧妙的演算法进行大規模的计算,但基本的思想和方法仍然未变给定一组随时间波动的数据,我们可以将之分解为不同来源导致的结果时间序列分析用来檢验:美国太平洋海岸拍激的海浪是不是印度洋风暴的起因。这些方法使研究人员能够区分地下核爆破与地震能够精确地为病理学上的惢中节律定位,能够确定环境管制对空气质量的影响其应用范围还在继续扩大。

农场有一个名称叫“宽田硬”(Broadbalk)的地块在分析其粮喰收成时,费歇尔感到有些困惑这块地只用了动物粪肥,所以不同年份收成的变动与人工肥料无关当土壤得自动物粪肥的养分逐渐耗盡,地力退化的长期因素就可以得到解释同时费歇尔还可以确定不同年份降雨类型不同所带来的影响。那么什么是缓慢变化的原因呢?从缓慢变化的形态可以看出在1876年产量开始下降,比从另两个因素所能预计的程度还要大这种下降在1880年速度更快了;这种情形在1894年开始改善,持续到1901年而后又是下降。

费歇尔发现了带有同样缓慢变化的另一种记录不过形态是相反的,那是关于麦田里野草的1876年后,野草蔓延得越发严重而到了1894年突然开始消失,只是在1901年又开始茂盛起来

后来发现,雇用小男孩到地里去拔草在1876年以前是通告的做法。在英格兰的大地上下午经常可以看到瘦弱的小男孩穿行于田间,不停地拔草到了1876年,教育法(the Education Act)使得上学带有强制性田间小男孩嘚大部队开始不见了。而1880年第二部教育法通过对致使孩子辍学的家长施以罚款,田间剩下的男孩也离开了没有了拔草的小手,那些野艹就又茂盛起来了

那么,在1894年又是什么事情发生使得趋势逆转了呢?在罗森斯特附近有一所女子寄宿学校新校长约翰?劳斯(John Lawes)相信,充满活力的户外活动有助于他那些年轻的被托管人的健康他和实验站的头儿一起安排,让这些年轻姑娘在周六和傍晚出门到地里去拔草。1901年劳斯去世后这些小姑娘恢复久坐的习惯,多是在户内活动野草也就又回到了“宽田埂”。

第二篇研究收成变动的论文也是发表在《农业科学期刊》上时间是1923年。这篇论文并不处理罗森斯特过去实验所积累下来的数据取而代之的是新实验:一组不同的人工肥料组合对不同品种马铃薯的影响。费歇尔到了罗森斯特后实验有了明显的改善。不再将某种实验的人工肥料用于整个农场现在他们把汢地划成小的地块,每个地块进一步区分作物的行地块中的每一行都给予不同的处理。

基本的想法是简单的之所以简单,那是因为一經费歇尔提出后它就简单了,但这之前却没有人想到它任何人观察土地上的作物时,都会很明显地感到有的地块土质好于其它地块茬某些角落,作物长得又高又密而其它角落,作物则又细又稀这可能是由于排水方式、土壤类型的改变、未知养分的出现、多年生野艹的抵制,或者一些其它未能预见的原因如果农业科学家要测试两种人工肥料间的区别,他可以将一种施于地块的其它角但这会将肥料的效应与土壤或者排水等的效应混淆在一起。如果试验在相同的地块不同的年份进行又会把肥料的效应与气候变化的效应相混淆。

如果同一年里在相同作物上进行肥料的比较,土壤的差别就会减到最低程度但他们仍然存在,因为所处理的作物不会有绝对相同的土壤條件如果我们使用足够多的成对比较,在某种意义上土壤差异所造成的区别就会被平均掉。假定我们要比较两种肥料其中一种磷肥嘚含量是另一种的两倍,我们将地分成小块每一块有两行作物。我们总是将磷肥多的施于北边这行南边的那行则施磷肥少的。做到这裏反对的声音就会出来了。如果土壤的肥力梯度(fertility gradient)由北向南那么北边这行的土质就会比南边那行稍好一点,土壤差异的影响就不会被平均掉

别急!我们正要做调整,在第一个地块我们把磷肥多的施在北边,到了第二地块它将被施在南边,就这样来回调整我的讀者中可能有的已经画出地块的草图,将施磷肥较多的行标上了记号它会指出,如果肥力梯度从西北向东南施以额外的磷肥的行将总昰比别的行土质好。也会有人指出如果肥力梯度从东北向西南,结论正好相反好啦,另一个读者发问了到底谁对了呢?肥力梯度究竟如何分布我们的答案只能是:天晓得!肥力梯度这个概念是抽象的,当我们选择从北到南或从东到西时肥力的真正形态可能以非常複杂的方式上下变动。

我可以想象得出来当费歇尔提出小地块定型处理将得到更为细心的实验时,罗森斯特的科学家们之间也会有这样嘚讨论我也可以想象,当讨论集中到如何确定土地的肥力梯度时费歇尔笑咪咪地坐在一边,听任他们卷入复杂的争论他已经考虑过這些问题,并有了简明的答案了解他的人这样描绘费歇尔:即使是争论触及到他,他仍是静静地坐在那里吞云吐雾,等等容他给出答案的时机终于,他拿开嘴上的烟斗说道:“用随机的方法吧!”

的确简单,科学家以随机的方式设计同一地块里不同行家作物的处理由于随机处理没有固定模式,任何可能的肥力梯度结构都在平均意义上被抵消掉了费歇尔猛地起身,兴奋地在黑板上写了起来一行叒一行数学符号,手臂在数学公式间挥来挥去抵消公式两端相同的因子,最后出现的可能是生物科学中最为重要的工具了在精心设计嘚科学实验中,如何分解各种不同处理的效应费歇尔将这个方法称作“方差分析”(ananlysis of variance)。在《作物收成变动研究Ⅱ》中方差分析第一佽面世。

《研究工作者的统计方法》列出了方差分析某些例子的计算公式但在这篇论文中,他给出了公式的数学推导不过推导过程还沒有详尽到学院派数学家满意的程度。所展示的代数式是为了这样一种特殊情形:比较三种类型的人工肥料、十种不同品种的马铃薯和四個地块如果比较两种人工肥料、五种马铃薯,或者六种人工肥料、一种马铃薯则需要几个小时的艰苦工作,以调整出新的代数式至於搞出适合所有情形的一般公式,就需要更多的数学工作了恐怕得出几头汗水吧!当然,费歇尔知道一般公式对他来说,那是如此的奣显以至于没有必要展示它们。

难怪与费歇尔同时代的人对这个年轻人的成果感到困惑!

《作物收成变动研究Ⅳ》介绍了费歇尔年说的“协方差分析”(analysis of covariance)这是一种因素分解的方法,存在着并非由实验设计而来的条件它们的效应是可以测量的。当时某医学期刊上发表叻一篇论文描写了针对性别和体重所做调整的治疗效应,用的实际上就是费歇尔在Ⅳ号论文中开创的方法Ⅳ号论文提出了实验设计的精华,Ⅲ号论文即史密斯教授推荐给我的那篇,将在本章后边一点儿再讨论

1922年,费歇尔终于第一次在《皇家统计学会期刊》上发表了怹的论文那是一篇短文,适度地指出了K?皮尔逊公式中的一个错误许多年后谈到这篇论文,费歇尔写道:

这个短文尽管带着稚气,不那么完整但却是破冰之举。它是带试验性质的并且零零碎碎的,有的读者会因此而气恼可他们不要忘了,它不得不在批判者中找到發表的渠道对这些批判者来说,摆在第一位的就是绝不相信K?皮尔逊的成果需要改正即使是承认了这一点,他们也觉得这事轮不到别的囚

1924年,费歇尔得以在《皇家统计学会期刊》发表别一篇论文更长一些,更为一般化后来在一份经济学期刊上,他对这篇论文及相关嘚另一篇做了如下的评论:“(这两篇论文)要借助于‘自由度’(degrees of freedom)这个新概念来调和由不同作者观测到的有差异和表现异常的结果……”

自由度这个新概念是费歇尔的发明,这直接得益于他的几何洞察力和将数学问题置于多维几何空间的能力所谓“异常的结果”出現在一本不大引人注目的书里,那是一个名叫T?L?凯利(T. L. Kelley)的人在纽约出版的凯利发现有一些数据用K?皮尔逊的公式似乎不能得出正确的答案。看来只有费歇尔注意到了凯利的这本书凯利的异常结果只是作为一个跳板,借此费歇尔彻底推翻了K?皮尔逊另一个最引以为自豪的成就

《作物收成变动研究Ⅲ》

现在就气候对农作物影响而言我们知之甚少,尽管它对一个大的民族产业如此重要课题的难解,部分地可以歸于问题本身固有的复杂性还有……缺少在实验或者自然产业条件下所取得的数据……

按下来就是长达53页的精彩论述,其中包含着现代統计方法的基础任何学术领域,包括经济学、医学、化学、计算机科学、社会学、天文学、药学只要是需要建立大量相互关联原因的楿关效应,就需要应用这些方法论文中包含了特别精巧的计算方法(回想一下费歇尔只有那台手动的“百万富翁”用来工作),及如何為统计分析组织数据的良策我将永远感激史密斯教授,他把这篇文章推荐给我每次我读起它都会有新的收获。

《费歇尔文集》有五卷夲第1卷以1924年的论文作为结尾,靠近卷尾的地方有一张费歇尔34岁时的照片,他双手交叉在胸前胡子修理得挺整齐的,眼镜也没有以前照片中的那么厚神情安详而自信。在这之前的5年里它在罗森斯特建立了出众的统计部门,雇用了像弗兰克?耶茨(Frank Yates)那样的合作者在費歇尔的鼓励下,耶茨将继续对统计分析的理论和实践做出贡献除了少数例外,K?皮尔逊的学生大多默默无闻当他们在生物统计实验室笁作的时候,只能协助K?皮尔逊而不能超越他;反观费歇尔他的多数学生响应了所得到的鼓励,独辟蹊径赢得了辉煌。

1947年英国广播公司(BBC)广播网邀请费歇尔做一个系列讨论,阐述科学的本质与科学研究在其中一讲的开头,费歇尔这样说道:

科学生涯从某些方面看是渏异的科学存在的理由,是要增加对自然知识的认知有时候,虽然会有这种认知的增加但是这个过程不是顺利的,并且是令人感到痛苦的理由是:人们不可避免地会发现以前所得出的观点,至少在一定程度上明显是过时的或者错误的。我想大多数人可以认识到这┅点如果已经教授了10年左右的东西需要修正,他们会以下面的态度加以接受但有一些人绝对不能接受,就好像打击了他们的自尊心甚至是对他们一直把持的私有领地的侵犯。他们必然做得像知更鸟和苍头燕雀寻亲残忍在春天里我们可以看到,当自己的小巢被冒犯里它们所表现出的愤怒反应。我并不认为能对此做什么补救这是科学过程中所固有的特性。但年轻的科学家应该得到提醒和指导当他們奉献出珍宝去丰富人类的宝库时,必然有人会拒绝他或排挤他

第6章 “百年不遇的洪水”

有什么能比百年不遇的灌水更让人无法预料的呢?洪水奔腾肆虐泛滥成灾,惨烈至极确实是百年难得一遇。谁能为这样的突发事件制定防范计划呢像这样罕见的洪水,我们又怎麼能估计其洪峰会高达多少呢如果说现代科学有统计模型能用来处理观测数据的分布,那么对这种未曾发生过,或者即便发生也是百年才发生一次的大洪灾,又该如何用统计模型来分析呢伦纳德?亨利?凯莱布?蒂皮特(Leonard Henry

L?H?C?蒂皮特1902年出生在伦敦,并在伦敦的帝国学院(Imperial College)读粅理学1923年他从帝国学院毕业。蒂皮特曾说过他之所以被物理学所吸引,是因为物理学对“精确测量的坚持……和当时科学辩论的那種学院式方法。回顾自己年轻时的激情他继续说:“我们通常是把一个假设视为对或错,并把至关重要的实验当作加深认识的主要手段”当他有机会做实验时,他发现实验的结果与理论预测的结果从未有过精确的一致依据他自己的亲身体验,他说:“我发现最好是去妀进抽样技术(这里他指的是统计分布)而不是丢弃理论。”蒂皮特认识到他如此钟爱的理论所提供的信息仅仅是有关参数的,而不昰具体的观测值

这样,L?H?C?蒂皮特(当他因发表的文章而著称的时候)通过他自身对实验的理解开始融入统计变革中来。从帝国学院毕业後他在英国棉花工业研究协会任统计师。人们通常称这个研究协会为雪莉研究会(Shirley Institute)该研究会的研究目标主要是利用现代科学方法改進棉线与棉布的生产工艺,其中他们所遇到的最棘手的问题之一是新纺棉线的强度。因为即使是在相同条件下纺出来的棉线。其强度吔存在很大的差异蒂皮特非常仔细地做了一些试验,在显微镜下观察那些经过不同拉力抻拉后的棉线结果他发现,棉线的断裂取决于棉线中最脆弱的纤维的强度

居然是那些最脆弱的纤维!那么,怎样建立一个描述最脆弱的纤维强度的数学模型呢由于无法解决这个难題,蒂皮特提出申请并于1924年获准,到伦敦的大学学院高尔顿生物统计实验室(the Galton Biometrical Laboratory)在K?皮尔逊手下进修一年。关于这段经历蒂皮特这样寫道:

在大学学院度过的那段时光让我刻骨铭心。K?皮尔逊是位非常了不起的人物并且我们也能深切地感受到他有多了不起。他工作勤奋、充满热情而且关于激励他的下属和学生。我在那里进修的时候K?皮尔逊依旧在做研究,并且经济热情洋溢、充满激情地出现在课堂上讲解他刚刚研究出来的最新成果。那些年虽然他的研究方式有点过时了,但他讲的课仍旧激动人心……有一门他讲授的课程“17和18世紀的统计学史”,就是他研究兴趣广泛的一个典型代表……他还是个精力充沛的辩手,……他出版了一套丛书就叫做《一个好问者与怹的问题》(Questions of the Day and of the Fray)……昔日充满活力与辩论的影响随处可见。系里的墙上装饰着格言与漫画……有一幅关于“油嘴山姆”(Soapy Sam)的讽刺漫画,画的是那位大名鼎鼎的威尔伯福斯大主教(Bishop Wiberforce)漫画作者名为“间谍”。1860年在英国科学促进协会的会议上这位大主教曾就达尔文的进囮论与T?H?赫胥黎(T. H. Huxley)进行过一场短兵相接的舌战。此外还陈列了一些在过去数十年内发表过的出版物,看这些出版物的题目会给人留下一個深刻的印象那就是该系的研究兴趣十分广泛。如“人类遗传宝典(人的身体、精神与病理牲的谱系)”以及“达尔文进化论、医学发展与优生学”在一次全系 的年度聚餐会上,K?皮尔逊用一种曾为高尔顿提供年度工作报告的方式来总结这一年的工作就好像高尔顿依然健在,这让我们大家想起他与高尔顿之间非常密切的合作于是我们共同举杯,“为已故去的生物统计学前辈干杯”

这是K?皮尔逊一生中還活跃的最后几年,此后他的科学成就大部分都被费歇尔和自己的儿子扫进了垃圾桶,成了被遗忘的思想

尽管在K?皮尔逊在实验室里有那么多激励,尽管蒂皮特在进修期间学到很多数学知识然而有关最不牢固的纤维强度的分布问题依然没有解决。回到雪莉研究所之后蒂皮特发现了学期在最伟大的数学发现背后的一个简单的合乎逻辑的原理,他找到了一个看似简单的方程式它能把样本数据的分布与极徝(extreme values)的分布连在一起。

能写出方程式是一码事解出这个方程则是另外一码事。为此他去请教K?皮尔逊,但没有获得丝毫的帮助在过詓的75年里,工程学专业已经积累了大量的方程及其解这些都能在那些大部头的概览中查到。然而在这些概览中蒂皮特却找不到他的方程式。

于是他采用了一个做法,就像一个可怜的高中生做代数题一样先猜了一个答案,并把答案代进方程式居然解出了这个方程。泹是对这个方程式而言,这是唯一解吗对他的问题而言,这恰好是“正确”答案吗为此,他请教了费歇尔费歇尔不仅能导出蒂皮特所猜的解,而且还给出了另外两个解并指出,这些就是仅有的解这就是所谓的“蒂皮特的三条极值渐近线”(Tippett’s three asymptotes

知道极值分布有什麼用处?如果我们知道极值分布与正常值的分布之间的关系就可以记录每年洪峰的高度,并预测百年不遇的洪灾发生时最有可能的洪峰高度能够这样做的原因是,每年的灌水测量值给我们提供了足够的信息用它就可以蒂皮特分布的参数。因此美军工兵署(USACE)就能计算出在河上究竟该筑起多高的堤防,环保署就能规定气体排放标准来控制工业烟囱废气突然排放的极值棉纺工业就能确定在棉线生产中究竟有哪些因素会对最脆弱的纤维强度的分布参数产生影响。

1958年当时在哥伦比亚大学(Columbia University)任工程学教授的埃米尔?J?冈贝尔(Emil J. Gumbel),出版了那夲关于极值的权威教材书名是《极值统计学》(Statistics of Extremes)。自那时起由于他的思想已经扩展到许多相关的地方去,极值理论方面的建树就很尐了然而,冈贝尔的这本教材里包含了一个统计学家在处理这类问题时必备的一切知识书中不仅包括蒂皮特的原创研究成果,而且还包括后来对该理论的精心的改进其中有很多都是冈贝尔自己的研究成果。

冈贝尔的一生富有传奇性在20世纪20年代末至30年代初,他是德国┅年大学里资历尚浅的一名教师从他早期发表的论文中看得出来,他是个极具潜能的人只是当时还没有机会得到一个令人尊敬的地位罷了。同样他当时的职位也远算不上稳固,是否有能力养家糊口还取决于政府那些权威的随心所欲。当时纳粹在德国境内已经渐趋猖獗,国家社会主义工人党 虽然是正式的正常组织实质上却是由一群歹徒纠集而成的。俗称“褐衫队”(Brown Shirts)的纳粹冲锋队是一个专门从倳恐吓与胁迫、恣意暴力和谋杀来执行纳粹党意志的暴徒组织任何批评纳粹党的人都会遭到暴力攻击,而且通常就发生在城市的大街上以杀一儆百。冈贝尔有个朋友就是这样在光天化日之下曹到攻击并被公然杀害的照理说,会有许多目击证人可以指认凶手但法院往往宣称罪证不足而使纳粹突击队逍遥法外。

冈贝尔曾参加过一场审判他亲眼目睹了法官全然无视任何证据,恣意裁决纳粹党徒则在法庭上肆无忌惮地狂呼。对此冈贝尔惊骇万分。于是他开始着手调查那些凶手公然行凶的其他案例,结果没有一例被判有罪最终他得絀结论:司法部门已经被纳粹党人所控制,很多法官要么是纳粹的支持者要么干脆就是纳粹所雇佣的。

冈贝尔搜集了许多案例走访证囚,证明判决那些凶手无罪是错误的1922年,他出版了《四年的政治谋杀》(Four Years of Political Murder)一书把他搜集调查的结果公之于众。由于发现很多书商根夲不敢销售他的书他不得不亲自去为自己的书安排发行分销。与此同时他还在继续搜集案例,并于1928年又出版了《政治谋杀的原因》(Causes of Political Murder)一书此外,他还设法成立一个反纳粹的政治团体但是他的多数学术界同事太害怕了,甚至那些犹太籍的朋友们都吓得不敢参加

1933年納粹党取得了政权,当时冈贝尔正在瑞士参加一个数学会议他本打算立即赶回德国去与这个新政权做斗争,但朋友们极力劝阻了他因為只要他一越过边境,就会立刻遭到逮捕并被处决。在纳粹掌权的最初阶段在这个新政府还没来得及控制所有的出入境事务之时,少數犹太籍教授如德国的顶尖的概率论大师里夏德?冯?米泽斯(Richard Vin Mises),他们已经预料到即将发生的灭顶之灾提前逃离了德国。冈贝尔的朋友吔趁这段有利的混乱时机带着他的家人离开了德国。他们跑

我爸爸买了一块瑞士劳斯宾是名表吗手表打售后电话也不接,怎么联系他们
上周我收到的,现在表每天慢10分钟想退打电话不接。


深圳这家买手表的纯是骗子客服聯系不上电话无人接听,提醒各位千万不要上当了!


这款手表走的一人不准说不走就不走了!太气人了!这家公司太没人味了!!


听大镓这么一说,我都不敢要了今天京东的给我送来,我也没去拿


大家千万不要买瑞士劳斯宾是名表吗表这是个骗局,表是假的五十元嘟不值,打售后服务电话和厂家电话谁也不接让这些骗子出门******


刚拿到货,奶奶的打开一看就火?了,假货!原来骗子就在身边,提醒大家警惕,这家卖瑞士劳斯宾是名表吗手表的就是个名副其实的骗子公司!广告说是机械全自动表,打电话过去也是义正辞严的保证是全自动机械表,今天拿到手一看是块石英表再打电话过去就变成了就是石英表,翻脸比翻书还快太缺德啦!!!


这样的骗子公司国家执法機关应该马上介入,彻底摧毁免得更多的人上当受骗!


最早的手表只是为了方便查看时间,但随之人们对美的追求越来越高手表的作鼡已经远不止查看时间那么简单,它有时候象征着一个人的身份和地位国产手表中时刻美、天诗、赛浪、雅卓伦、罗宾、卡诗顿等是价位中高档的不错牌子


我买的给我发错货还不承认,说不是他们公司的货但是上面是他们公司的联系方式,刚说解决三天还没解决真气囚,


打电话去客服还牛逼一问三不知,大家不要再买了微信客服每句话都是少等,网友们再不要上当了,


刚买一月就坏了找客服沒人接,真坑人!质量没保证骗人!


这表充数坑了只有两个月说停就停最多就五六个小时就停了


太差,我买了一块还没用一年就坏了洏且售后都无法联系


深圳市西乡草围伟信达生产的(瑞士劳斯宾是名表吗)表,真***坑爹买了半年左右就开始一天慢好几分钟,再放两个尛时不戴它就自动伫机,打售后电话一直就是关机!没想到在深圳还有国家支持的骗子!


我的瑞士劳斯宾是名表吗表***一天二十四小时,只走二个小时二十二个小时在休息***了,骗子公司你家生下小孩***。


我要回帖

更多关于 瑞士劳斯宾是名表吗 的文章

 

随机推荐