数据是一种信仰——他究竟是否值得信赖?

数据真实性

现如今，我们可以用很多不同种类型的性质来描述数据，在大数据时代，其中有三种关于数据的特性——规模、速度和多样性——已经主导了人们在谈论大数据话题时候的内容。但是还有一些人又为数据的特性引入了另外三种特性(比如Value-价值，Veracity-真实性，Viability-可行性)。但是Seth Grimes正确地指出了这三种新特性正在误导人们对大数据的理解，因为和三种特性并没有清晰地向你解释你的数据有何“大”之有。尽管如此，我们还是需要考虑数据的这些特性——你的数据体量庞大还是渺小，稳定还是不断移动，结构化的还是非结构化的。

你的数据的真实性关乎到数据的准确和可信赖程度，也关乎数据分析得到的结果。你的数据的真实性会因其生成、收集以及分析等过程中所产生的不同类型误差而收到影响。如果你的数据在处理过程中引入越多的误差，那么你的数据的可信任程度就不会很高。

EnsuringVeracity of your Data 务必确保数据的准确真实性

在2013年年初，Kate Crawford(凯特·克劳福德)在《哈弗商业评论》期刊上面以一篇名为《大数据背后隐藏的偏见》的文章发表了自己对于数据“真实性”的这种特质的观点。“如果你的足够量的数据的话，它的数量就已经不言而喻了”——对于这个观点的争论，凯特正确地阐述道人们为数据赋予了发言权;人们从数据当中得出推断，并赋予了数据跟多的内涵。但不幸的是，人们将自己的偏见引入到了其中，无论是刻意为之还是出于无意，这种做法都将数据的质量大打折扣。

如果向提高数据的真实性，那么你必须降低来自不同误差源的发生频率。这些误差源往往和以下方面息息相关：采样方法、缺失数据、科研偏见以及差强人意的测量方式等。在你利用数据做出决定之前，请先认真回答下面的问题：

1.What is (are) your hypothesis(es)? 你的假设是什么?

“大数据技术就是找到各个变量之间的关联性而非检测有这种关系存在的原因”——尽管该观点广受欢迎，但是我相信对于企业的长期价值而言，大数据技术应该是弄清楚变量之间的偶然关联问题。假设实验是为了辨认出为什么变量相互之间会存在某种关联，以及驱使这些被发现的关系的基本流程。假设实验有助于通过试错法改进分析模型，这样做可以找到因果变量并帮助你从不同的条件当中找到新发现。

在过剩的变量和数据集的帮助下，企业能够快速检测出成百上千种关系。发现数据中存在的统计学关系的可能性会在检测关系的绝对数量时有显著的提升。经常因为几率的原因，当变量之间的关联性不存在原因的时候，实际上，我们可以发现两个变量之间存在的统计学关系。因此，如果你使用这些虚假的发现结果为支持你现存的想法的化，那么这样做的结果就是你的决策肯定不是最优的。

你能做的就是先做一个假设，然后对其进行测试。

2.Whatare your biases? 你的偏见有哪些?

人们总是寻找/记住/解释支持他们现有观念的结果，并忽略或者低估那些无法支撑他们观点的结果。这些被当作确认偏见的认知捷径，往往导致你对数据的错误结论。

你能做什么呢?具体来讲，你需要做的是就是查看你的数据，并从中得到可以驳斥你的信念的证据。如果你在预测消费者忠诚度的是时候人为产品质量远比服务质量重要的话，那么你一定要为服务质量带来的相关影响搜集证据。

你也不要依赖你的记忆。在任何一种数据的基础上做决策的时候，记得要引述那些有相关数据出现的报告或者研究案例。参考你的信息员可以帮助其他人辨认信息并帮助他们理解你的决策，并让他们知道你将如何实现你的决策。如果他们得到结论和你大相径庭，一定要弄清楚你的结论和别人相比存在怎样的差异(数据质量?不同的指标?还是不同的分析?)

你还要使用推理统计学方法从随机杂音当中区分出真实的、系统性的以及有内涵的数据差异。在图片下面要加上语言描述。清晰的描述可以保证你的图片不会引起太多的误解。你也可以让来自不同领域的专业人士(比如IT或者销售)为你进行阐述，，这样的话你会得到关于一个数据的不同角度的解读。

相关文章

物理服务器和大宽服务器怎么选

租用云服务器的注意事项的关键点

大数据如何实时拯救生命：车联网的数据分析有助预防交通事故

物理服务器对ai发展的应用

又一数据处理神器，通过GPU加速Pandas性能！

极光大数据社交狂欢背后，集体孤独