大数据的局限性:算法不能完全代替人的判断

    如果你已经听过这个笑话,尽管打断我:有三位统计学家去猎兔。他们发现了一只兔子。第一位统计学家率先开枪,离兔子的头差了一英尺。第二位统计学家开枪射击,离兔子的尾巴差了一英尺。第三位统计学家大喊道:“我们逮住它了!”

  就算你并不觉得这个笑话有多么好笑,但你却很可能跟类似于它所描述的猎兔者的管理人员一起工作过。他们的数学水平或许无可挑剔,但可悲的是,他们在真实世界的成果毫无价值。谎言,该死的谎言。各大组织到底必须掌握什么东西,才能提高其数量分析专家产生真实价值(而不是统计幻象)的几率?不懂数学的高管们怎样才能确保他们不会受到“大数据”(Big Data)的蒙蔽?

  我们或许可以在塞缪尔-阿贝斯曼的著作《事实的半衰期》(The Half-Life of Facts)和内特-希尔的著作《信号与噪音》(The Signal and The Noise)中找到这些问题的精彩答案。这两部既相互独立、又互为补充的著作深入探索了“数据”如何变为“证据”,这么多看似高深莫测的数学模型为什么根本无法区分这两种事物等问题。这两本书接受、并进一步扩展了纳西姆-塔勒布备受欢迎并富于洞见的著作《被随机现象蒙蔽》(Fooled By Randomness)和《黑天鹅》(The Black Swan),以及诺贝尔奖得主丹尼尔-卡尼曼的卓越作品《思考,快与慢》(Thinking, Fast and Slow)所阐述的不确定性和数量的自我欺骗等主题。如同其先驱一样,阿贝斯曼和希尔也写出了不仅妙趣横生、而且具备可操作性的作品。

  两位作者都引用了马克-吐温、威尔-罗杰斯和查尔斯-凯特林等人颇具嘲讽意味的妙语:“引领我们进入困局的并不是我们不知道的事物,而是我们知道、但不那么真实的事物。”两人都探讨了用以区分“真实”知识和“不那么真实的”知识的媒介和机制。阿贝斯曼和希尔都言之凿凿地声称,目前占据上风的是“不那么真实的”知识。处理的数据越多,受到的关注也就越多。

  应用数学家、哈佛大学数量社会科学研究所(Harvard’s Institute for Quantitative Social Science)研究员阿贝斯曼解构了“事实”的定义。对读者颇为仁慈的一点是,他并没有跌入后现代主义哲学的泥沼。相反,他深入探索了严肃的科学家如何确定他们自认为了解、与其正在研究的事物相关的事实。这种“科学计量”方式——科学如何衡量其过程和进步的科学——在确定科学家所称的“事实”的生命周期和生态系统方面非常有帮助。通过这种方式,阿贝斯曼提出了一些有趣的问题,比如:“事实”是如何诞生的?它们通常如何复制、变异和进化?它们将在多久之后消逝?

  病理缺陷

  阿贝斯曼颇具挑衅性的核心观点是,有一个由事实组成的虚拟物理现象。“事实”遵从既定的规律和轨迹,这取决于它们的界定和衡量方式。“我们每天读新闻时,可能都要面对一个关于我们的世界,与我们自认为了解的状况完全不同的事实,”他写道。“但事实证明,这些日新月异的变化,虽然在我们看来它们发生了真实的相变,但并不意外,也不是随机的。通过应用概率,我们可以理解它们的总体行为方式,但我们也可以通过搜索我们对其认识的速度更慢、有规律的变化,来预测这些变化。事实的快速变化,如同我们看到的其他任何事物一样,有其自身的规则,是可衡量、可预测的。”

  “可衡量”、“可预测”是什么意思?阿贝斯曼非常擅长描述机构、个人和概率的偏差,这种偏差可以扭曲科学和科学家评估、发布以及消灭“事实”的方式。

  “这方面最明显的例子出现在负面结果领域,”阿贝斯曼这样写道。他援引了进化生物学家约翰-梅纳德-史密斯曾经说过的一段话:“统计学是一门让你每年进行20次试验,然后在《自然》杂志(Nature)发布一个错误结果的科学。然而,要是20位独立的科学家分别进行同一项试验,其中的19位将以失败告终,其职业生涯自然也就无法更进一步。这种情形当然令人苦恼,但这就是科学的运行方式。大多数想法和实验都是不成功的。但最重要的是,失败的结果也很少公布。”

  问题的关键并非统计科学或科学的统计学存在病理缺陷,而是这种已知的病理缺陷可以创造出动机,让我们重新思考、修改并重新设计我们衡量和测试的事物。我们需要“事实”帮助我们更新我们对于“事实”的思考和理解。科学——以及为其提供驱动和支持的日益数字化的技术——为难以理解自身不断增长的海量数据、无法为这些数据增添价值的企业提供了一个强大的模型。

  就这方面而言,《事实的半衰期》是一部入门读本,阐述的是认识论的流行病学,即对于知识和认知性质的理解在一门学科、一种职业或文化中如何传播的过程。阿贝斯曼的工作将敦促世界各地的决策者重新思考一个问题,他们的组织如何将有趣的数据转化为有用的事实。

  统计数据驱动

  统计学家、《纽约时报》(The New York Times)网站 FiveThirtyEight博客撰稿人内特-希尔则采用了一种完全不同,但又与阿贝斯曼相互兼容的方式探讨知识、事实和可预见性等问题。通过有些过于繁多的详细例证和插曲,希尔的这部著作就预测的傲慢发出了一组发人深省的警告。希尔这样写道:“这本书讲述的与其说是我们知道的事物,倒不如说是我们知道的事物与我们认为我们知道的事物之间的差异。”

  从天气、地震、全球变暖、足球,到次级抵押贷款和全球金融危机,希尔解释了建模者和预报者为什么难以将昨天的数据转化为明天“你可以赌一把”的预测。这些微观案例研究虽然肯定是肤浅的,但并没有回避数学,而且对大多数最重要的假设采取了一以贯之的公正态度。要是本书编辑更优秀一些的话,他或许将督促希尔牺牲数量,撰写更多的深刻见解,但这些例证的广度无可否认地揭示了“预测的病理学”。

  阿贝斯曼的分析单位是事实,希尔则聚焦于“预测的有效性”。希尔拥有良好的风度和自我认知,他承认人性的弱点是一种设计约束。“但我认为,我们的信念永远不能达到完美的客观性,合理性和准确性,”希尔写道。“相反,我们可以力争少一点主观性、少一点不合理性、少犯一点错误。根据我们的信念作出预测,是进行自我测试的最佳(或许也是唯一的)方式。如果客观性关系到一个更大的超越我们自身条件的真理,那么预测就是审视我们个人看法与那个更大真理之间的联系究竟有多么密切的最佳方式,最客观的往往是那些做出最准确预测的人。”

  然而,我想知道的是,希尔是否充分意识到,他将警示故事与令人震惊的失败混合在一起的做法,可能会对将其报道铭记于心的读者产生累积效应。他提供了一个又一个例子来说明,带有缺陷和偏见的人,使用带有缺陷和偏见的方式,构建出带有缺陷和偏见的模型。他非常出色地反复阐述了“过度拟合的”统计模型。希尔解释称,为了适应数据,统计学家们竭力调试自己的模型,最终往往大大降低了这些模型的准确性,进而无法用其进行可靠的预测。

  希尔的故事为现在的预测模型构建者提供了一个公平的样本。就这一点而言,这本书预测称,未来的新世界将充斥着许多由统计数据驱动的成功案例,既不快乐,也不勇敢。在这个世界中,平均表现距离世界级水准或许相差好几个标准差。

  希尔引用了菲利浦-泰洛克对专家意见所进行的经典研究。这项研究显示,数量多得令人不安的专业领域的“专家”在预测可能结果方面的表现往往差得离谱。此外,专家们往往对其预测的质量过度自信,简言之,专家意见时常获得两个世界的最差结果:以妄自尊大的态度给出了错误答案。这不是成功的秘诀。

  从IBM的超级电脑Watson,谷歌(Google)的搜索算法,到亚马逊网站(Amazon)的推荐引擎,数据驱动的计算系统无疑能够获得非凡的成功,特别是当它们专注于现实生活测试,而不是抽象理论的时候。“真正‘懂得’大数据的公司,比如谷歌,并没有将大量时间花在构建模型上,”希尔写道。“这些公司每年从事数十万次实验,在真实的顾客身上测试自己的想法。”

  然而,读完这两部著作,我们可以得出一个颇具讽刺意味的结论:一个人获得的数据和事实越多,预测就越有意义,人的判断也就显得愈发重要。人类、数据集和算法的协同进化将最终决定“大数据”究竟是会创造新财富,还是会摧毁旧价值。

(0)
上一篇 2022年3月22日
下一篇 2022年3月22日

相关推荐