设为首页 - 加入收藏 PHP编程网 - PHP站长网 (http://www.52php.cn)- 电商,百科,编程,业界,移动互联,5G,云计算,站长网!
热搜: 娱乐 服务 百度 表达
当前位置: 首页 > 大数据 > 正文

今日好书丨《揭开数据真相:从小白到数据分析达人》

发布时间:2020-12-31 02:05 所属栏目:[大数据] 来源:网络整理
导读:《揭开数据真相:从小白到数据分析达人》 掌握阅读数据的技术 挖出“看不见”的数据真相,还原基本事实! 【美】Edward Zaccaro,Daniel Zaccaro 著 李芳 译 2016年11月出版 ? 小编推荐:本书收录了生活中常见的统计图表、各类数据,并告诉我们如何“阅读”

今日好书丨《揭开数据真相:从小白到数据分析达人》

今日好书丨《揭开数据真相:从小白到数据分析达人》

《揭开数据真相:从小白到数据分析达人》

掌握阅读数据的技术

挖出“看不见”的数据真相,还原基本事实!

【美】Edward Zaccaro,Daniel Zaccaro 著

李芳 译

2016年11月出版

今日好书丨《揭开数据真相:从小白到数据分析达人》

?

小编推荐:本书收录了生活中常见的统计图表、各类数据,并告诉我们如何“阅读”这些数据,从中发现被掩盖或忽视的数据真相,了解真正的现实。掌握书中的这些技巧,相信你会炼成一双火眼金睛,一眼看穿数据背后内涵,做出真实的判断。

  • 下方评论区留下对此书的想法,选取一名幸运同学将赠此书,12月29日公布获奖用户。

内容提要

统计数据之所以强大有力,原因在于它对我们的希望、梦想和信仰无动于衷——数据让我们客观地看待事物。不过,当人们不喜欢数据告诉我们的结果时,常常对其进行操纵……因此懂得解释统计数据,了解各种歪曲、滥用数据的技术对于理解数据真相是非常必要的。本书教给读者神圣的技术,让读者学会如何质疑“看得见”的数据,并挖出“看不见”的数据真相,还原基本的事实。


精彩评论
  • 董飞,硅谷数据工程师(微信公众号:董老师在硅谷)

大数据和数据分析是近年来炙手可热的概念,通过数据驱动产品开发(产品经理也需要数据来验证产品设计的逻辑),通过数据来做市场营销(增长黑客),通过数据AB测试改进用户体验(有一家专门做AB 测试优化的公司Optimizely,每年也会召开Opticon大会),通过数据来提高内部效率改进流程(比如广告产品,点击率转化),已经在硅谷有很多广泛实践,并达成共识。

但数据会不会欺骗我们,造成偏见?个人认为数据本身是客观的,但每个人看待问题的角度和目的不同,可能人为地造成错觉甚至幻觉。在学校从事研究工作的时候,导师就强调怎么选取样本和数据,如果为了达到某些“好”结果,精心挑选数据,甚至篡改数据,这就违背了科研精神,一旦发现,轻者论文贡献取消,重者可能永久赶出科研圈。所以如何辨别真理和谬误,利用好科学工具去更好的认知,这就是新的挑战。可能读者会抱怨,没有经过系统科学训练,在茫茫数据和文献中如何分析和判断,是不是要再去读一个数学课程呢?这其实也没有必要,对大多常人来说那些数学公式是浪费时间,主要还是见识一些常见套路,遇到类似的能举一反三,升华出来一些方法论就更棒了。

这本书就从很多实例中总结了数据分析的技巧和“骗人”招数。比如通过内在不完备的样本,精心挑选的平均数,统计图表范围的切割,相关系数因果关系的误解,混淆逻辑,操控是非,达到一些不可告人的目的。这并不是一本教科书,让你去学习深奥枯燥的统计数学,而是用风趣幽默的例子从别的视角来观察世界,启迪智慧。

  • 新浪微博@爱可可-爱生活

世上有三种谎言:小谎,大谎,和统计数字(本杰明·迪斯雷利)

数据让人着迷,真相与规律深藏其中,混沌中蕴含秩序;统计让人迷惑,看似精巧实则冰山一角,图表里一目了然的“事实”背后是作者有意无意掩盖或忽略的惊天“秘密”,堪称一场精巧玲珑的“局”。是数字在说谎?是幕后诡计?还是读者想错?让我们跟随本书精彩浅显的案例,看一幕幕心机大戏是如何上演,又如何“穿帮”的,擦亮双眼,做大数据时代的数字流言终结者。

  • 邹昕,Facebook数据科学家(微信公众号:再生谈)

互联网时代带来了数据的爆发,如何分析数据对现代社会的生活和工作变得愈发的重要。数据分析是一门复杂的学科,同时又跟生活密切相关。如何解读公司、机构发布的数据?如何看待朋友圈爆款文章里罗列的数据?如何看待各种体育赛事相关的各种数据?看过这本书之后,或许你会有一个全新的认识。


引 ?言

统计之所以如此美妙、如此强大有力,原因在于它对我们的希望、梦想和信仰无动于衷——统计让我们客观地看待事物。可惜,统计数据常常被当作裁判,当我们不喜欢统计数据告诉我们的结果时,我们可以与之辩论,对其操纵。下面的实例提醒我们,忽视统计数据传递的信息极为危险。

1999年,一家大型制药企业生产的一种名为万络(Vioxx)的轰动一时的止痛药物进入最后实验阶段。万络能止痛,却不像阿司匹林那样会引发胃肠道并发症,它前途无量,不仅有可能帮助成千上万的人,而且能为制药厂赚取数十亿元的真金白银。

制药公司明白,必须小心对待万络的最终实验——尤其必须要小心选择万络的竞争药物。经过深思熟虑,制药公司决定选择萘普生(Aleve)作为实验竞争药物(因为这种药物对心脏病是否有防护作用还未知)。

9个月以后,经过对临床数据进行分析,得出了惊人的结果!服用万络的实验组发生心脏病的次数是服用萘普生的实验组发生心脏病的次数的4倍。统计结果提供的信息非常清楚——万络是心脏病发作的重大原因,这一点可能性很大。

可惜,解释统计数据的人往往做不到或不愿意客观地审视统计数据,他们很容易受到才能、意愿和贪婪的影响。因此,研究结论未指出万络导致心脏病的发病风险提高400%,而是指出萘普生导致心血管疾病的发病风险降低80%。这个解释让人难以置信,因为,前面已经提到,萘普生不像阿司匹林,它对心脏的保护作用尚未可知。实际上,如果萘普生确实能将心脏病的发病风险降低80%,那么它的效果将达到阿司匹林的2~3倍!

尽管临床实验清楚地表明万络存在危险,万络还是得到美国食品和药品管理局(FDA)的批准,随后被数百万人选用。4年以后,万络从市场上被撤下,然而这时它引发的心脏病以及死亡人数已经令人胆寒。FDA估计万络引发了88 000至139 000例心脏病——其中30%~40%致命。

在万络/萘普生研究中得到的统计值显示出清晰的信息,但这些信息遭到忽视,造成千上万人死去。

这些话是伽利略、笛卡儿、柏拉图对数学的力量的真知灼见。统计的力量在我们的社会中已经作用了数百年;使用得当时,这种力量有可能拯救数百万人的性命。可惜,“统计警告”被歪曲、操纵、最小化的例子不胜枚举。这种知识和道德上的失败所造成的结果是——数百万人丧失本来不必丧失的生命。

我们对于下列问题的统计警告实在反应太慢:

烟草、石棉、苯、万络、胃药、铅、赖式综合征/阿司匹林关系、酒精

由于滥用、操纵统计数据造成的惨剧不应该致使我们相信——统计永远会被操纵,永远无用,永远不可信。每一例不恰当使用统计的意外事件总是对应着上百例公正、合理使用统计的实例——这给社会带来极大好处。下列5个实例向我们展示了统计的有利用途:

有一个统计模型帮助人们在18个月里防止了100 000多例由于医院过错导致的死亡。

奥克兰运动家队聘用队员的薪水差不多是业界最低的,却依靠统计成为最佳棒球队之一。

事实证明,一个数学公式比一群专业品酒师能更准确地预测出葡萄酒的质量。

一个统计模型比一群全国著名的法律专家能更准确地预测出最高法院的投票结果。

统计被用于帮助急诊室医生做出更好的判断。

统计具有改善我们生活的能力,因此,懂得如何使用统计对我们来说是基本的技能。此外,由于操纵、欺诈和彻头彻尾的谎言常常伴随统计登场,懂得解释统计数据,对各种歪曲、滥用数据的技术有所了解也非常必要。

在阅读本书的过程中,有一些例子可能会引读者发笑,有一些则令读者愤慨。我希望,在读完本书后,读者不仅懂得如何质疑自己看见的统计数据,而且能够明白:统计学习并非像人们常说的那样枯燥、乏味。


本书目录

第1章 ?几乎不可信的各种图形

燕麦的降胆固醇功效

美化上升的犯罪率(纯属虚构)

哪家汽车制造公司更棒

条形图中的党派差异在线广告衰退正式开始

美化SAT成绩

美国中西部加热燃料消费价格飞涨

交通事故死亡人数减少了吗

恶化房地产低迷状况超大号熊猫金币

吊顶条形图的巧妙骗术

第2章 ?所比较的群体旗鼓相当吗

加利福尼亚州是否比伊拉克更危险

全球变暖和耸人听闻的飓风损失

某中西部城市学习成绩飙升的表象

租金辅助计划与犯罪率上升有关系吗

第3章 ?先射箭,再画靶

冥想实验

关节炎患者的天大好消息——或者相反

旧车换现金计划“惨败”

民意调查公司/智库合作关系

杰·雷诺居然也操纵统计数据

第4章 ?诚实统计的力量

忽视统计警告,丧失4000条生命

数学VS专业品酒师

数学对阵法律专家

统计——18个月挽救100000条性命

统计——帮助急诊室医生做出更好的判断

统计——提高棒球队成绩?(棒球星探VS计算机)

统计的早期利用,挽救数千生命

第5章 ?故施迷雾

辛普森案

雷氏综合征如何导致数百例儿童死亡——这本来可以避免

导致年轻女子中风的厌食剂

烟草行业——统计操纵与故布迷阵的行家里手

石棉:寿险公司所知道的、石棉行业故作不知的危险

第6章 ?资助效应

钱能控制数据,钱能限制公众得知负面结果

制药公司刻意压制负面数据后果可能很严重(抗抑郁药物帕罗西汀的故事)

钱可以影响医生,可以给医生带来偏见

抗抑郁剂与安慰剂——出人意料的胜出者

资助效应甚至会伤害新生儿重症监护室中最易受伤害的儿童

第7章 ?烂逻辑

新款雪佛兰福特汽车的惊人燃油效率:230英里/加仑

为什么患糖尿病的人越来越多

到2048年,每一个美国人的体重都会超重

解开谜团:为什么加拿大人的预期寿命比美国高

夸张的广告

非常奇怪的逻辑

第8章 ?因果与相关乱象

恢复前囚犯的投票权将降低犯罪率

因果关系混淆会导致丧失生命

学习成绩好的关键是让家长出席家长会

音乐与学习成绩

第9章 ?要看就看全部数据

选举奥巴马总统搞垮了股市

广告商与有选择地使用数据

您会选择哪家宾馆

我该买黄金吗

有可能遭到操纵的合理图形

第10章 ?确认性偏差(所愿即所见)

星座效应

预测死亡的猫

分母在哪里

画中音乐

《秘密》

确认性偏差的负面特性

辅助沟通

第11章 ?稻草人论证术

医疗保健辩论策略

2010年煤矿爆炸以及首席执行官的稻草人辩护术

第12章 ?操纵均值、中位数和众数

第13章 ?轶事证据

疾病与轶事证据

磁疗

占卜杖探测术

外星人奇遇

结论

第14章 ?如果你的事业缺乏统计支持,那么,创造吧

潜意识广告的力量

死亡率畸高的神经性厌食症

美国的300万名无家可归者

其他影响公众的错误统计

第15章 ?令人费解的百分数

被百分数愚弄的医生

住家孩子增长趋势

移民家庭的刻苦孩子

需求神秘下降500%

我当初真应该别开始锻炼

了解百分数可以救人性命

第16章 ?你的样本合理吗

代表性样本的重要性

总统大选:罗斯福与兰登

当研究参与人自我选择或样本有偏差,则结果几乎总是无效的

双盲的重要性,随机临床实验

检验组大小的重要性

注释

今日好书丨《揭开数据真相:从小白到数据分析达人》


今日好书丨《揭开数据真相:从小白到数据分析达人》?

博文视点

您阅读的专业智库

喜欢请分享至朋友圈

了解更多本书详情请点击阅读原文

长按二维码轻松关注


今日好书丨《揭开数据真相:从小白到数据分析达人》

【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

推荐文章
热点阅读