统计学能证明“天下乌鸦一般黑”吗?重新装修店面和销售额增长之间存在因果关系吗?想招聘具有多种能力的员工,怎样选择才科学?怎样用回归分析找出商业数据之间难以被发现的关联性?……在数据为王的时代,要在职场站稳脚跟,分析数据的能力不可或缺。
《统计思维》着力讲解统计学在商务实践中的应用,它用分属不同领域的商业案例帮助读者打通统计思维的脉络,让读者在理解统计原理的同时也能掌握统计技术的实践技巧。从事商业管理、财务会计、市场营销、人力资源等工作的职场人士都能从中汲取营养、精进业务。
作者西内启曾出版多部统计类畅销书,尤擅用案例和图表解析统计学的概念和用法,不懂数学的读者也可以轻松读懂,学会用统计思维看问题。
举办抽奖活动就能增加营业额,改变供应策略就能减少库存,改进招聘政策就能提升人才质量……无论是要降低成本、增加利润,还是招聘人才,把握因果关系都是做出商业决策、提升业绩的基础。
想提升业绩就不能靠撞大运!大数据时代信息繁杂,随之涌现的千头万绪常常令人不知所措。如何才能迅速、行之有效地解决问题?统计学正是一件不可多得的利器,帮你发掘有价值的因果关系,透视隐于数据背后的商业真相。
西内启著的《统计思维》专为在职场打拼的商务人士量身定制,用实实在在的案例和清晰易懂的图表解析假设检验、随机对照实验、回归分析、因子分析、聚类分析等常见统计方法在商务实战中的应用,没有统计基础的读者也不用因不懂数学而发愁。
大数据时代,解剖数据已成为我们的职场基本功。翻开本书,你就能学会用统计思维武装自己,在商场上披荆斩棘。
07 介于冒失鬼和糊涂虫之间的“最强”思维方式
只要数据自身是分散的,两组的平均值和比例就不可能每次都完全一致,也就是说经常会发生某一组稍高的情况。
但如果这个差异大到“2个标准差以上”,情况就又不同了。对于一组来说“普通”的值,对于另外一组来说“并不普通”。出现了这样大的差异,与其说这是由于数据的分散而偶然产生的,不如说这两组之间本身就存在差异。
在统计学中,把这种不是因数据分散而偶然产生的差异叫作统计学上的显著性差异,或直接称为显著性差异(significant difference)。顺便提一下,比如我们发现了年间销售额产生1日元差距的原因,这种信息在现实中怎么也不能说是有意义的。但是,即使是这仅为1日元的“感觉不到意义的差距”,只要难以认为是因数据分散而偶然产生的,就是统计学上“显著的”。希望读者记住,此后本书中用到“显著”这一说法的时候,全部是指统计学上的显著。
如何通过寻找显著性差异提升业绩?
对于实际应用而言,理解了平均值和标准差就足够了吗?如果想要在现实问题上应用统计学,不理解本章所介绍的更为高级的概念只怕不行。
原因在于统计学上所称的power或统计功效(statistical power)。用组别间的平均值互相偏离了2个标准差以上,来检验显著性差异,其统计功效很弱。
在现实中需要比较的组别间平均值,大多不会偏离2个标准差,如果有那么大的偏差,不进行统计学上的处理也能发现其中的差异。
因此,统计学认为最重要的点,在于如何用最少数据来发现比2个标准差更小但更具有现实意义、具有统计学上的显著性的差异,也就是要增大统计功效。
如果结果相同,与其在数据收集和计算上花费大量时间,大多数的人都更愿意选择费时更少的统计方式。如果硬要说选择前一种方式有何优势,大概也就是为接受了数据分析或分析系统构建委托的业内人士提供了提升交易金额的理由。
具体来说,统计功效是指“在存在差异的假设成立的情况下,认为显著性差异存在的概率”。举例来说,虽然投放直邮广告比不投放的情况下平均消费金额确实会有所提升,每一个顾客的消费金额却是分散的。因此,如果只调查两三个人,可能在两组间发现不了什么差异,也可能会产生没有收到直邮广告的组别刚好集中了消费金额很高的顾客这一逆转现象。这就是统计功效很低的调查或分析。
“冒失鬼”的错误,“糊涂虫”的错误
并不是说一味地提高统计功效就是好的。有简单的方法可以将统计功效最大化,也就是“当差异存在的假设成立时,100%能发现显著性差异”,但这种做法是无益的,甚至很多时候是有害的。
这种做法,其实是“不依赖于任何的数据,不负责任地主张自己想到的东西”。如果假设成立,你100%可以发现有意义的差异。在公司、电视甚至国会议事堂,自己的想法毫无根据却坚持认为它正确的人有很多,我们可以说这种人是最大化统计功效的生物。马克·吐温有句名言说“坏掉的时钟每天也至少有两次指向正确时刻”,而经常预测“马上就要衰退了”的经济评论家,在衰退的前一年也一定说过“马上就要衰退了”。
这种做法之所以有害,是因为它虽然不会“拒绝正确的假设”,但并未考虑“认为错误的假设正确”(也就是明明不存在任何的差异却主张差异存在)的错误风险。在统计学上,把这种“明明不存在差异却认为存在”的错误称为α错误(α error),另一方面,把“明明存在差异却没有发现”的错误称为β错误(β error)。另外,在很多教科书上,对应首字母,将α错误称为“冒失鬼的错误”、β错误称为“糊涂虫的错误”①。基于这种说法,刚才所说的坚持毫无根据假设的人,是为了将糊涂的风险降为0,而表现得太过冒失了。
然而另一方面,社会上也有很多完全相反的、为了将“冒失鬼的错误”降为0而运用着简单方法的人。这种人的做法是,不论谁基于什么证据主张什么,都只会说“因为未能周密地了解,接下来让我们谨慎地讨论吧”。
P65-67
01 商务与统计学之间的鸿沟到底因何存在
《统计学是最强学问》是本怎样的书
市面上有许多统计学入门书,其写作方式却鲜有变化。首先是概率论,然后介绍正态分布之类的概率分布,接下来讲解估计、检验、相关系数和回归分析,一般就是以这样的顺序从数学的角度理解上述各种概念。
有幸售出35万册的畅销书《统计学是最强学问》(以下简称“前作”),则是统计学“入门的入门”。它从实用的角度说明了统计学在现代社会中发挥着多大的作用,以及现今普遍使用的统计方法,是经过了怎样的历史、因何人的思考而诞生的。可以说,前作是将涉足统计学领域所需的基本常识凝缩在了一本书中。
因此,在看到“即使读了这本书也无法应用统计学”这样的感想或批判时,我毫不意外,因为事实确实如此。
企业对大数据赞不绝口,可引进了昂贵的系统却只用来画一张漂亮的饼状图。前作的目的仅在于填补统计学与社会之间的鸿沟,并改变上述状况。
若能吸引更多人关注统计学,我的目的便达到了。接下来,读者只要在琳琅满目的入门书中选出适合自己的来学习,日本人的统计能力自然也就会上升……这就是我当时的想法。
续作(本书)的理由
听到了同侪的反馈,我才知道这种想法似乎有些过于乐观。这就是写作本书的理由。
现将他们所认为的现有统计学入门书不适合自己的理由总结如下:
·出现公式就读不下去
·乍一接触到统计工具,不知道它的含义
·不知道各种方法对自己的工作有何助益
·不知道自己工作适用哪些统计学知识
他们曾问我是否有书能满足上述需求,但我确实尚未见过这样的书。
前作中也曾提到,统计学是有力且广泛通用的工具,在诸多学术领域都有应用。各学科的目的、思维方式、研究对象的性质不同,同样的统计方法会有不同的应用方式,更有许多专门用于某一学术领域的统计方法。正是因此,经济学和心理学本科生的统计学教材内容相差很大。那些不想提及这些差距而仅介绍共同部分的统计学入门书,便只能使用
抽象的公式,因而就会枯燥无味。
也就是说,大多数教科书与商务人士对统计学的需求并不相符,只是因为这些书原本就不是为了用于商业而写,这类书的作者和出版机构并没有任何过错。
为什么找不到好的统计学教科书?
理想情况下,最适合为商务人士写作统计学教科书的,也许是在商业各领域积累了定量分析实务经验的管理专家。
然而,管理专家中很多都在做历史与个案的定性研究,即使是进行定量分析的研究者,研究主题也不一定是用统计来解析如何提高某项业务收益率。举例来说,很多管理专家是从企业战略和收益关系等宏观视角进行统计分析。在分析某项业务的客户时,不同的专家也有着迥异的指导思想和方法。另外,也有人善于使用本质与统计学完全不同的、名为管理会计财务分析的定量分析方法。
这一点也同样适用于最近广受瞩目的“数据科学家”。将这些研究数理统计学或机器学习a方法的研究员放到商业活动的第一线,他们也不一定能立刻派上用场。即使有个别人能够立刻适应环境,那也只能说是出于运气,或是因为他本身算是商业直觉很好的年轻人罢了。
理解分析方法本身或是了解众多特殊的分析方法,与思考在现实中如何活用这些方法、创造何种价值,本身就是不同的事情。即使你所在的企业聘用的年轻数据科学家没有立刻适应工作,错也不在他们。与上文类似,只是因为他们并不是为了商业目的而学习罢了。
写到这里,大概会有人想问我到底是哪一种人。我与统计相关的职业生涯,是我易于将知识活用于商业活动的基础。
我早先致力于研究公共卫生学。对于这门学问,只要目标是人类健康,采用何种研究方法都可以。因此我在美国求学时所属的公共卫生学研究生院(School of Public Health)不仅有医学院毕业后拿到医生执照的老师,还有经济学家、法学家、教育学家、社会学家、信息技术从业人员、曾在广告代理机构任职的营销专家……来自各个领域的专业人士聚集在
那里,以人类健康为目标活用各种知识,形成新想法。
物理学是自然科学的王者,经济学是社会科学的女王,公共卫生学则可以说是科学的综合格斗术。尽管在进行“格斗”时可以选择任何方法,但最后一定会归结于“证据”,也就是统计学的分析结果。有时即使对手是女王,也要用证据将其击倒,而最近女王也正在学会用证据来反击。
我从年轻时开始直到现在,每日运用统计学技术分析横跨各领域(从基因到公共卫生政策)的实证数据并将其活用,这大概是我侥幸获得的最大财富。若是没有这笔财富,我也许根本不会想在前作中介绍不同领域的统计学的思维方式以及其中的差异吧。
改变店面的装潢能使客流量增加了10%,连锁店家是否应该重新装修所有的门店?
为甄选应聘者,公司安排了多门考试,用什么样的方式处理分数才能公平地找出合适的人才?
拜访客户的次数与签约数量有什么关系?男性销售员和女性销售员之间有显著的差异吗?
想要找到上述商业问题的答案,就要学会灵活地运用统计工具。然而现在,无论是课堂还是各类统计学书籍,更多地是在讲授统计学的基本概念及其数学基础,而对统计学的商业运用鲜着笔墨。在大数据时代,各种数据唾手可得,最大限度地利用这些数据做出恰到好处的决策,是当前商业精英的必备技能。
这本统计学就是专为大数据时代的商务人士所写。在商业领域,我们最关心的是“因果关系”,比如做什么活动能提高销量、怎样运营可以减少库存。统计学就是把握纷繁数据背后“因果关系”的利器。本书作者西内启多年从事统计学的教学与应用,拥有不可多得的统计学实战经验,前作《看穿一切的统计学》曾畅销37万册。在本书中,作者用商务案例和直观的图表浅析了假设检验、随机对照实验、回归分析、因子分析、聚类分析等实用方法。正文中没有令人望而却步的公式与推导,毫无基础知识的读者也可以轻松地从中汲取养分,看穿数字背后的真相。
服务热线:133-6631-2326 188-1142-1266
读者信箱:reader@hinabook.com
后浪出版公司
2017年9月
钟形曲线和随机漫步界定了未来的面貌。标准的教学观点是,高中应该取消微积分课程,代之以统计学课程,因为统计学课程非常重要和实用。,
——硅谷创投教父、Pavpal创始人 彼得·蒂尔
我一直坚信,未来10年真正性感的职业是统计学家。
——谷歌首席经济学家 哈尔·范里安