隐藏在天花乱坠的解释背后

不同的学科

统计学家接受的训练是推断数据之外的内容，而分析师接受的训练是探究数据集中的内容。换句话说，分析师根据数据中包含的内容得出结论，而统计学家根据未包含于数据中的内容得出结论。分析师帮助你提出好问题(假设生成)，而统计学家帮助你获得理想答案(假设测试)。

还有一些神奇的“混血”，会拥有两种身份……但他们不会同时扮演这两种角色。为什么呢?数据科学的一条核心原则是，如果要处理不确定性，则不能使用相同的数据点进行假设生成和假设测试。数据有限时，不确定性会迫使你在统计学和分析学之间做出选择。

没有统计学，就无法知道自己刚刚产生的观点是否站得住脚。没有分析学，就只能在摸索中前进，几乎无法掌握未知的未知。

这是一个艰难的选择!是睁开双眼接受灵感(分析学)，发誓放弃知道新发现是否能站住脚的满足感，还是冒着冷汗祈祷自己选择要问的(在没有任何数据的情况下，一个人在杂物室里冥思苦想出来的)问题值得自己即将得到的严密答案(统计学)?

“兜售”后见之明的小贩

骗子摆脱这种困境的方式是对其视而不见，发现一片薯片长得像猫王，然后假装对这一事实感到惊讶。(统计假设测试的逻辑可以归结为：我们的数据是否让我们惊讶到改变自己的想法。如果我们已经见过这些数据，我们又怎么会对它们感到惊讶呢?)

在你看来，图片中的云朵和薯片长得像兔子还是像猫王呢?亦或是像某一位总统?

骗子发现一个模式并从中得到启发，然后以相同的模式测试相同的数据，为的是用一到两个合理的p值生成可验证其理论的结果，他们这样做实际上是在欺骗你(可能也是在欺骗他们自己)。这样的p值没有任何意义，除非在查看数据之前对假设作出承诺。

骗子模仿分析师和统计学家的一举一动，却并不明白其中缘由，这为整个数据科学领域带来了不好的声誉。

真正的统计学家总是谨慎行事

由于统计学家在严密的推理方面享有近乎神秘的声誉，“万金油”在数据科学领域的出现频率创下了历史新高。这种骗术不易被人发觉，尤其是在那些毫无防备的受害者认为这正关系到方程和数据的时候。数据集就是数据集，对吗?错，要看你如何使用数据集。

这些骗子身上都带有冒牌货的标志，你只需要一个线索就可以识破他们的真面目：骗子只有后见之明——用数学重新发现他们已经知道的存在于数据中的现象，而统计学家提供的是具有先见之明的测试。

与骗子不同，优秀的分析师是思想开放的典范，总是将鼓舞人心的见解与提醒相结合，提醒人们观察到的某种现象可能有多种不同的解释，而优秀的统计学家则会谨慎地做出决定。

分析师带来灵感

分析师不必负责一切，他们要根据数据中包含的内容得出结论。如果他们想对没见过的事物提出观点，那他们担任的就是另一种工作了。他们应该摘下分析师的“帽子”，带上“统计学家”的头盔。毕竟，无论你的正式职位是什么，都没有这样一条规则说你不能投身两种行业。只要你想，就可以这么做，只是不要把它们弄混了。

骗子怎样测试假设

擅长统计并不意味着擅长分析，反之亦然。如果有人跟你说的与之相反，请自行思考。如果这个人告诉你，你可以对你研究过的数据进行统计推断，请再次问问自己。他很有可能是个骗子。

物理服务器和大宽服务器怎么选