日常生活中的统计学问题

好价信息来自热心值友爆料和商镓自荐经小编人工审核或小值机器人智能判断后发布。

亚马逊中国 更新时间: 23:02

当前售价8.99元降价之前为9.99元,本次降幅10%接近价9.99元。喜欢嘚值友们不要错过~

什么值得买是一家中立的消费门户网站好价信息来自热心值友爆料和商家自荐,经小编人工审核或小值机器人智能判斷后发布促销折扣可能随时变化,请值友们购买前注意核实


您目前有50积分确定使用10积分兑换以下优惠券吗?

此优惠券需要50积分兑换您的积分不足,请继续努力呦~

此优惠券需登记银联卡后才可领取参加银联优购全球活动享更多优惠~

想要理解我们身处的世界日常苼活中的统计学学是非常有用的工具。但是在解释那些特性曲线时我们的直觉常常使我们出错在本辑中我们将讨论一些我们常犯的错误鉯及如何在使用日常生活中的统计学、概率和风险时避免这些错误。

当下研究人员可以获取丰富的软件包。这些软件包可以帮助人们轻松地分析数据并且得出复杂的日常生活中的统计学结果虽然这些资源非常强大,但如果使用者没有完全掌握日常生活中的统计学学那麼就有可能曲解数据集的一些细微之处,并且由此得出相当扭曲的结论

接下来是一些常见的日常生活中的统计学谬误和悖论,以及它们洳何导出反直觉的结果当然很多情况下,这些结果就是错的

它是指当数据组合并时出现在不同分组中的趋势就会消失。这种现象发生時总体数据的趋势甚至有可能和每个分组的趋势都对立

举个例子,一种治疗方法对于所有分组中的患者都是有害的但是一旦将分组合並就有可能表现出总体上有益。

当分组的规模不均衡时辛普森悖论就会发生疏于调控(或者刻意伪造)患者分组人数可能使有害的疗法看起来有疗效。

想象下述待上市药物疗法的双盲实验一组中120个患者(被划成10人、20人、30人和60人的分组)接受治疗,另一组中同样120人(被划荿相应的60人、30人、20人和10人分组)不接受治疗

总体得出的结果是接受治疗的患者比未接受治疗的痊愈率更高,也就是说该疗法似乎对患者囿效

不过,再往下深入发掘该研究中组成队列的不同分组勘查患者所有分组时,你就会发现没有接受治疗的患者痊愈率更高而且高出50%

但是请注意每个组中接受治疗和未接受治疗的患者的人数和年龄分布是不同的。这也是是数据歪曲的原因在这个案例中,受治疗组儿童数量不按比例地堆叠而儿童无论接不接受治疗其痊愈率一般都比较高。

当我们判断某些事情的可能性而忽视关键信息时这种谬误就會发生。

举个例子如果我们听说有人喜欢音乐,那么我们可能认为他们比会计师更有可能是专业音乐家但是,这世上会计师要比专业喑乐家多得多这里我们就忽视会计师数量的基本比率远高于音乐家的,所以我们过度受到那个人喜欢音乐这个信息的影响

基本比例谬誤会出现在一个选项的基本比例远高于另一个的情况中。

考虑这样一个情况:测试一个罕见病情比如人群中发病率只有4%(每25人中有1个)嘚疾病。

假设该病情有一个测试方法但是并不完善。如果某人出现这个病情那么该测试在92%的时间里正确地将其识别为患病。如果某人沒有此病情那么该测试在75%的时间里正确地将其识别为健康。

所以如果测试一群人并且发现他们中超过四分之一的人都被诊断为患病我們可能猜想这些人中大多数真的确实有该病情。但是我们错了

在一个有300名患者的典型样本中,因为已测试的11人都被正确的识别为患病接下来的72人就被错误地也识别为患病。The Conversation, CC BY-ND

根据上述数据在仅有的4%的患者中几乎92%的人都被正确诊断出疾病了(也就是大概总体被测人群的3.67%)。但是另外96%的病人并没有得病其中有25%的人被误诊为患病(也就是总体被测人群的25%)。

这意味着人群中大约27.67%的人被诊断为患病但是实际仩只有3.67%左右的人患病。所以在被诊断为患病的人中实际上只有大概13%(即3.67%/27.67%)有该疾病。

令人担忧地是当一项著名的研究要求全科医师进荇类似的计算以告知患者乳腺x线图像结果表达的正确患病风险时,只有15%的医师这样正确的操作了

这种悖论是指将某些事物从一个组移到叧一个组,两组的平均值增大虽然其中没有值变大。

该名源于美国喜剧演员Will Rogers他曾经开玩笑说,“当俄克流民离开俄克拉荷马州并且搬箌加尼福尼亚州他们同时提升了两个州的平均智力水平。”

前新西兰首相Rob Muldoon在上世纪八十年代将这个笑话本土化改编为新西兰人移民到澳大利亚的版本。

当数据点从一个组重新归类到另一组的时候如果这个点在原来组的平均线一下,但是在新组的平均线之上那么这两個组的平均线都会提升。

假设有6位病人他们的预期寿命(以年计算)被评估为40、50、60、70、80和90。

被估计寿命为40和50岁的病人已经被诊断患有疾疒;其他的四位并没有也就是说被诊得病的患者平均寿命为45岁,而诊断未得病的患者平均寿命为75岁

如果开发出一种诊断手法能够检测絀预计寿命为60岁患者的疾病情况,那么两组的平均值都上升5年

伯克森悖论会使两个没有关联的独立变量看起来有关联。

这种悖论往往发苼在一个集合含有两个独立变量也就是这两个变量应该是完全不相关的时候。但是如果我们只观察整个群体的一个子集那么这两个变量之间可能存在反向趋势。

当子集不是整个群体的无偏样本时这种情况就会发生。而这种情况已经在在医疗日常生活中的统计学中频繁哋被引证比如,如果在诊断中发现病人只患有A疾病、B疾病或者两个都患有那么即使这两种疾病是相互独立的,那么也有可能观察到它們负相关

想象这样一个情景:一个学校基于学生的学术和体育能力招生。假设这两个能力是彼此完全互相独立的也就是说,在整个群體中一个运动能力很强的人和一个运动能力很弱的人在学术上可能表现相似

如果学校只招收在学术上表现优秀、在运动上表现优秀或者兩者都表现优秀的学生,那么在这个组内学生的运动能力就会表现出和学术能力负相关

为了说明,假设每一个潜在入选学生的学术和运動能力都用1到10划分等级每个技能每个等级上的人数所占份额相等。而且知道一个人在一个技能中的分级并不能推测出他们在另一个技能Φ的分级

假设现在学校只招收至少一项技能的分级为9或者10的学生。

如果观察整个群体那么最差运动员和最好运动员的平均学术分级是楿等的(5.5)。

但是在被录取的学生的集合中精英运动员的平均学术分级还是整体人群的值(5.5),而最差运动员的平均学术水平就高达9.5了不恰当地暗示了这两个能力负相关。

在整个群体中两个组的分级没有相关性。

最好的运动员(等级10)和最差的(等级1)的平均学术分級都是5.5

但是当我们将人群样本缩小到只有被招收的学生时,这两个组的分级看起来存在负相关

这是指拥有大量变量的数据集合单单通過随机产生非期望趋势。

当观察很多变量和挖掘趋势时很容易忽略当前正在检测多少条可能趋势。比如有1000个变量,那么近乎五十万对()的潜在变量可能单纯地随机表现出相关性.

虽然每一对看起来都不太可能有相关性但是当从50万对中抽取数据时相当多的一部分看起来存在相关性。

生日悖论是多重比较谬误的一个经典案例

有一个小组含有23个人(假设他们每个人的生日都是独立选择的,全年每一天被选Φ的机会相等)那么这组人中至少两个人同一天生日的可能性高于没有人同一天生日。

人们通常不相信这一点毕竟他们遇见别人和他們同一天生日的情况很少见。如果你只选取两个人那么他们同一天生日的机会当然非常低(粗略地算一下365之1,这个概率低于0.3%)

但是,囿23个人时就有253对(23*22/2)人可能在同一天生日253对每一对都独立地有0.3%的机会巧合同一天生日,所以通过纵观你要检测的整个组看看253对里面是否囿确实满足要求的

如果一个组里有40个人,那么有人同一天生日的可能性几乎是没有人同一天生日的9倍

“23个人”是一个群体内有人同一忝生日的可能性高于没有人同一天生日的分界点。

我要回帖

更多关于 日常生活中的统计学 的文章

 

随机推荐