早在中学阶段,统计学就告诉我们一个事实:数据是不会说谎的,大量的统计数据经过整理建模,可以最直观地反映真实的情况。近几年来,大数据技术在各领域取得的成功也为这一事实提供了最佳的佐证。不过,最近普林斯顿大学和社交软件老大facebook之间的互掐事件,也说明了另一个事实:数据分析有时候也是会出问题的。
普林斯顿奇怪研究惹毛facebook
上个月底,美国普林斯顿大学发表了一篇十分有料的研究报告,报告上称,按照普林斯顿研究人员的统计和计算,目前的社交网站龙头老大facebook在三年内将会流失百分之八十的用户,面临关门大吉的境地。这份报告写得十分正式,一点也不像恶搞的玩笑,经过各大媒体的疯狂转载,facebook终于怒了,几天之后facebook的数据科学家们也发表了一份研究报告,用和普林斯顿研究员一样的数学模型和数据获取渠道,得到了更耸人听闻的分析结果:普林斯顿大学学生将在2018年减少一半,到2021年将失去所有学生。
很明显,facebook和普林斯顿的互掐在业界已经成了一个段子,他们的分析结果显然都是不靠谱的,但是他们所用的方法,却是实实在在的大数据技术和严谨的数学模型,难道,数据真的会说谎吗?
分析算法和数据渠道选用不当,数据确实会说谎
之所以普林斯顿和facebook的研究报告会得出那样离谱的结果,主要原因在于他们获取数据的渠道以及分析数据所用的算法模型不当,在数据分析中,只要这两个东西错了,数据一定会“说谎”。