数据科学绝不是科学的结束

2008年6月，《连线》(Wired)杂志前主编C. Anderson写了一篇颇具煽动性的文章，题为《理论的终结:数据洪流使科学方法过时》(The End of Theory: The Data Makes The Scientific Method Obsolete)。“相关性取代因果关系，即使没有连贯的模型和统一的理论，科学也能进步。”

这种方法的强度和通用性依赖于数据量:数据越多，基于计算发现的相关性的方法就越强大和有效。我们可以简单地把数字输入计算机，让统计算法自动发现有趣的模式和见解。

但是，这种简化的分析方法也存在一些潜在的陷阱，可以通过John Poppelaars在博客上找到的示例很好地说明：

假设我们要为某些变量Y创建一个预测模型。例如公司的股价、在线广告的点击率或下周的天气。接下来，我们收集所有可以使用的数据，并将其放入统计过程中，以找到Y的最佳预测模型。常见的过程是首先使用所有变量对模型进行估计，筛选出不重要的变量，然后使用所选的变量子集重新估算模型，然后重复此过程，直到找到重要的模型为止。

但是，Anderson提出的分析方法存在一些严重的缺陷。我选择了一个实例，从0到1的均匀分布中抽取100个样本，为Y创建了一组数据点，所以它是随机噪声。接下来，我通过从0到1之间的均匀分布中抽取100个样本，创建了一组50个解释变量X(I)。因此，所有50个解释变量也是随机噪声。我使用所有的X(I)变量来预测y，估计一个线性回归模型。因为没有任何相关的东西(所有的均布和自变量)，所以期望R²(0)，但实际上不是。结果是0。5。对于基于随机噪声的回归来说还不错!幸运的是，这个模型并不重要。逐步剔除不显著的变量，重新估计模型。重复这个过程，直到找到一个重要的模型。经过几个步骤后，发现一个显著性模型，调整后的R平方为0.4,7个变量的显著性水平至少为99%。再次，我们是在回归随机噪声，它绝对没有关系，但我们仍然找到一个有7个重要参数的显著模型。如果我们只是将数据输入统计算法来寻找模式，就会出现这种情况。

数据集越大，噪声越强

最近的研究证明，随着数据集的增长，它们必定包含任意相关性。这些相关性只是由于数据的大小而出现，这表明，许多相关性都是虚假的。不幸的是，很多信息往往表面表现得很少。

这是处理多维数据的应用程序中的主要问题。举例来说，假设您从一家工厂的数千个传感器中收集传感器数据，然后挖掘这些数据以获取模式以优化性能。在这种情况下，您很容易被数据表现的表象所迷惑，而不是真正的运营绩效指标。无论从财务上还是在工厂的安全运行方面，这都可能是一个坏消息。

相关文章

物理服务器和大宽服务器怎么选

租用云服务器的注意事项的关键点

大数据如何实时拯救生命：车联网的数据分析有助预防交通事故

物理服务器对ai发展的应用

又一数据处理神器，通过GPU加速Pandas性能！

极光大数据社交狂欢背后，集体孤独