当前位置:首页 > 杏彩体育官网

数据本身不会骗人但用数据骗你的人太多了

发布时间:2024-06-25 来源:杏彩体育官网

产品介绍

  “数据为王”这个词早已成为日常,相比凭空臆测,数据确实更加直观。大到社会、经济数据,小到个体需求,数据一直在发挥作用。但这一切都建立于数据真实并且能完整呈现的基础上,如果数据是虚假的,或者是选择性披露,得出的结论当然也不会靠谱,最典型的例子就是各种“被平均”。

  在信息时代,数字造假或选择性披露已经无处不在。有权力主导的造假,也有流量至上的造假,各种信息轰炸中往往隐藏着假数字,或者是以各种修辞和说法“包装”过的数据说法。

  权力主导的造假当然是最坏的,因为权力造假必有所图,图谋的也都是大事,对民众切身利益必然造成巨大损害。媒体的数字造假看似危害性低一点,但个体缺乏分辨能力时,同样会利益受损。也有很多时候,数据本身是真实的,但因为各种话术的运用,也产生迷惑性。

  无论传统媒体还是自媒体,都有依靠数字吸引受众的驱动力。至于数字的真假和如何呈现,则要看媒体的自控能力。数据本身没有对错之别,但人对数据的“改造”和选择,则让最终呈现出来的数据与结论变得不同。

  《数字一点不老实:看穿纷繁信息中的数据玄机》一书中就提到一些媒体常见的报道措辞,比如“45岁以上的父亲,生的孩子发生癫痫的概率高 18%”“睡前在屏幕上阅读可能会害死你”。

  这些看似明确实则模糊的论断,很容易让一些人被忽悠。实际上,这些都只是有选择性和欺骗性的话术。实际上,上面两个例子的线岁父亲,生的孩子的癫痫患病率是0.0024%,而45岁以上父亲的该风险提高到0.0028% ”,“睡前连续阅读4小时屏幕会令人平均减少睡眠10分钟,长此以往或损害健康”。

  书中还提到一个例子,呈现了数据真实状态下,个体感受的不可靠——1993-2017年间,伦敦死于交通事故的骑行者共有361人。如果仅看这个数据,就会有的人觉得,二十几年间有这样的死亡数字,伦敦骑行不太安全。但实际上,这二十几年间,伦敦平均每天有约43.7万人次选择骑行,因此,千万次骑行才也许会出现一次死亡案例。

  《数字一点不老实》记录了许多生活中的实际数字案例,从统计学和逻辑的角度进行分析。

  从2000年到2013年,美国实际工资的中位数(median)上涨了约1%。工资中位数上涨听起来是件好事。但是,将全人群分成较小的亚组来看的话,你会发现一些蹊跷。没读完高中的人,工资中位数下降了7.9%;高中毕业者的工资中位数下降了4.7%;上了大学但未取得学位的人,工资中位数下降了7.6%;获得大学学位的人,工资中位数下降了1.2%。

  上完高中的人和没上完高中的人,上完大学的人和没上完大学的人,无论哪个教育水平亚组,工资中位数都下降了。而总体人群的工资中位数却上升了。

  原来,虽然拥有大学学位的人工资中位数下降了,但该亚组的人数却大幅度提升了。结果,中位数出现了奇怪的走向。这种现象叫“辛普森悖论”,以英国密码破译者和统计学家爱德华·H.辛普森命名,他在1951年描述了这一现象。这种现象不仅会发生在中位数上,也会发生在算术平均数上,但在我们的例子中,我们暂且看中位数。

  假设总体人数为11。其中3人高中辍学,年收入5英镑;3人完成了高中学业,年收入10镑;3人大学辍学,年收入15镑;2人获得了学士学位,年收入20镑。全人群的工资中位数(即在序列中间的那个人的工资)为10镑。

  然后,有一年,政府大力推动更多人念完高中和大学。但与此同时,每个亚组的平均薪资下降了1镑。突然间,高中辍学生变成了2人,年收入4镑;高中毕业生2人,收入9镑;大学辍学生2人,收入14镑;本科毕业生5人,收入19镑。每个亚组的中位数都下降了,但全人群的中位数从10镑升到了14镑。2000年至2013年间,现实中的美国经济就发生了类似情况,只是数字更大。

  这种情况相当普遍,书中还提到一个例子,美国黑人的吸烟概率高于白人,但控制教育水平这一变量后,就会发现在每个教育水平亚组中,黑人的吸烟概率都低于白人。这是因为受过较高教育的亚组通常较少吸烟,而黑人在这一亚组中比例较低。

  除了“辛普森悖论”之外,书中还提到“古德哈特定律”“幸存者偏差”“对撞偏差”“贝叶斯定理”“统计显著性”等,了解它们,有助于让人们拥有更强的分辨力。

  “幸存者偏差”是生活中常见的逻辑谬误,比如二战后期,美军轰炸日本,军方观察到返航飞机多半是机翼和机身中弹严重,便决定对其加固。统计学家就指出了其中谬误,认为军方决策采用了不完整的统计样本,因为被击中机翼和机身的战斗机返航几率更高,被击中引擎的则有更大可能早已坠毁。至于日常生活中早已泛滥的“被平均”,则应该被更科学的“中位数”取代。

  只有对这些基本常识知道,才能真正“翻译”数字,从中获取更真实和重要的信息,避免恐慌和盲目。

  “科学就是这样进步的,至少理论上如此。每当一项新研究发表,它就会被纳入现有的研究集合;如果顺利的话,一般而言,新数据的加入会使人们在科学理解上的共识更接近现实。但是,假设这时候发表了一项新研究,它说的不是‘这项研究让我们对底层现实情况的理解更进一步,也许还略微产生了改变’。相反,进行该研究的科学家立即摒弃了所有的既有研究,并说:‘这项新研究证明过去所有的相关研究都是错的,把我们以前说的全忘了吧。’”

  “每次记者就新的研究论文撰写新闻报道时,发生的都是这种事:没有将其放在现有研究的背景下考虑。平心而论,这是一个很难解决的问题。报纸报道的是新闻;在科学领域,最明显的‘新闻’就是新研究的发表。如果新闻标题是《新研究没多少新信息,且只能在既有研究的背景下看待》,这可不怎么抢眼。”

  同时,记者所关注的往往是新研究本身,不会针对这样的领域的全部研究进行甄别,也不可能为解读新研究而广泛联络各路其他科学家——媒体对时效的追求决定了这一点,自媒体时代更是不可能。

  也正是因为“新闻行业广泛倾向于将单一研究看作事实,而非更大图景中的一个瞬象,于是导致了巨大的健康恐慌”。那些家庭群里热衷转发的自媒体谣言养生文章,比起专业媒体时代更为不堪。

  以这个社会的普遍认知水准,要做一个懂得统计学基本概念的人,可能确实有一定门槛。但要做一个稍有分辨力的人,或许不难——将那些养生号全部拉黑,你就离正常人靠近了一步。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  U18亚洲杯:中国女篮59分狂胜印尼 张子宇9中9轰19分徐培琳20分

  新消费日报 菜鸟开设七大跨境商家中心;飞天茅台散瓶批发参考价跌破2100元;多部门拟引导电子商务平台、大型商超举办银发主题购物节……

  OPPO Find X8系列抢先看:四摄双潜望+天玑9400,有望搅局市场