Science 预测特刊：人工智能如何帮助我们预见未来-新闻详情

在阿西莫夫的《基地》系列科幻小说中，天才哈里·谢顿几乎完美地预测了银河帝国的衰落和之后相当长一段时间的发展。随着近年来机器学习技术的兴起，基于数据的预测在搜索引擎、定向广告和个性化推荐等许多特定的应用领域取得了很大的发展成果，但在更加广泛的科学发现预测、政治预测、社会事件预测乃至人类文明发展的预测上，机器学习还能实现同样的成就吗？而今天我们又已经在这些领域走到哪一步了呢？今日，Science 推出了一个关于「预测（prediction）」的专题，通过多篇文章解读了上述多个领域的研究进展和面临的挑战。机器之心选择了其中几个主题进行了详细编译，其余的则进行了一些摘要介绍 (篇幅限制没有列出参考文献）。

序言

人类从远古时代通过萨满烟熏内脏的方式开始就一直不断尝试着预测未来。正如本专题所探讨的，预测现在是一门高速发展的科学。该文章探讨了如下问题：怎样分配有限的资源、一个国家是否会陷入冲突中、谁将有可能赢得选举或发表一篇影响巨大的论文以及在这样一个新兴领域中如何建立标准。

社会科学家和机器学习社区正在学习新的分析工具，从而从乱糟糟的数据中分离出真正有意义的模式。新工具是令人兴奋的，但是如果只是使用框架上的软件包而没有完全去理解它，那么就会导致一些灾难。这一专题的几位作者描述了平衡机器学习方法和人类因素的现实目标的重要性。

在 20 世纪 50 年代，著名作家艾萨克·阿西莫夫想象了心理史学的图景，其中计算机可以通过庞大的数据集预测帝国的兴亡。现在科学还不能完全做到这样，就像上一次美国大选那样。新闻报道和相关的报告也都描述了最新的科学技术进展，科学家们也相信随着方法的改进和验证数据源的增长，选举和其他社会实践将变得越来越可以预测。

当在多学科交叉领域中努力解决问题时，如将人类对语义的理解和能处理 TB 级数据的算法结合起来，成功似乎将会到来。研究人员可能仍然远远不能做出政策制定者所期望精度的预测，但是他们现在能够预想的情景能帮助塑造一个更好的未来。

一、预测武装冲突：是时候调整我们的期望了吗？

摘要：这篇文章介绍了预测政治暴力（political violence）的一般性挑战，特别是相比于其它类型的事件（比如地震）的挑战。什么是可能的？什么又不太现实？我们的目标是揭穿关于预测暴力的神话，以及说明这一领域的实质进展。

如果「大数据（big data）」可以帮助我们找到合适的合作伙伴、优化酒店房间的选择和解决许多其它日常生活中的问题，那么它也应该能够通过预测致命冲突的未来爆发来拯救生命。这是许多将机器学习技术应用于来自互联网和其它来源的新且大规模的数据集的研究者的希望。鉴于世界上仍还有政治暴力所带来的苦难和不稳定，这一愿景是冲突研究者在政策影响和社会控制上的终极前沿。

话虽如此，但在学术的冲突研究上，预测仍然是非常有争议的。仅有相对很少的冲突专家尝试过明确的冲突预测。此外，还没有建好的早期警报系统可以作为决策的可靠工具，尽管目前已经有一些重大努力了。

近年来，我们已经看到了一系列想要填补这一空白的文章出现，它们利用了大规模数据收集和计算分析领域内的最新进展。这些研究中的任务是预测在给定的国家和年份是否有可能发生国际或国内的冲突，并借此创建全球暴力冲突的年度「风险地图（risk maps）」。最开始的预测模型基于当时政治学领域新兴的定量方法（quantitative methodology）且依赖于简单的线性回归模型。

但是，人们很快就认识到这些模型无法捕获冲突预测的多变影响和复杂的相互作用。这种认识导致了机器学习技术的引入，比如神经网络，这是一种持续至今的分析趋势。在这些模型中，生成暴力后果的风险因素的互动是从数据中归纳式地推断出来的，而且这个过程通常需要高度复杂的模型。今天，冲突预测工作的主要主要部分仍然是在年度上的国家层面分析，也有一些研究已经将其预测的时间范围推至了未来数十年。

最近，新的可用数据和改进过的模型让冲突研究者可以理清政治暴力的时空动态（temporal and spatial dynamics）。其中一些研究可以给出月度或日度的预测。这样的时间划分需要修正已有预测模型。比如说，在 [5] 中提出的方法基于以色列-巴勒斯坦冲突的冲突事件数据。该分析使用一个区分高强度和低强度冲突的模型，基于 1996 年到 2009 年的数据生成了 2010 年的预测。另一些方法的目标是利用新类型的预测器（predictor），比如战争相关新闻报道。因为它们能够以远远更高的时间频率上扑捉到政治紧张，这些报道被证明是比传统的结构变量（structural variables，如民主的水平）更强大的战争发生预测器。

其它研究则在尝试探索暴力的地方性变化（subnational variation），不仅试图预测冲突将在何时发生，更要预测会在何地发生。空间分解（spatial disaggregation）可以让冲突预测按行政单位产生，比如区或市或任意基于网格的位置。这一领域已有的研究重点是特定的国家和冲突。比如 Weidmann 和 Ward 为波斯尼亚的内战生成了市级水平的预测，如图 1 所示。另外也有为非洲的空间网格单元（spatial grid cells）得到的类似的暴力预测。同样，空间预测模型的复杂性的跨度可以非常大，从空间回归模型到更灵活但也更复杂的机器学习模型。

预测的愿景和陷阱

很显然，在冲突预测领域确实出现了一些可观的进步。使用明确的和客观的统计标准，更新的方法比传统的解释性模型实现更高水平的样本外准确度（out-of-sample accuracy）。和过去的暴力案例的因果解释相反，样本外预测（out-of-sample forecasting）可以实现不用于拟合模型的事件预测。依赖于先进的定量技术的研究者也取得了具体的预测成功。比如，在 Political Instability Task Force 委托的一份报告中，Ward 及其团队提前 1 个月预测了泰国 2014 年 5 月 7 日的军事政变。

此外，在解决罕见事件预测的挑战上也取得了一些进步。标准的、现成可用的机器学习模型通常适用于不同的输出之间相对平衡的问题。而暴力与和平的预测却并不是这样的问题，其中大部分时间所检查到的单元都是和平的。这个问题可以通过不同的重采样（resampling）技术来解决，这能实现该模型的远远更高的整体预测准确度。Muchlinski 等人应用这样技术在 2001 到 2014 年的样本上预测了内战。他们的模型正确地预测了 20 次内战中的 9 次，而传统的回归模型没有预测正确。

该文献还表明以样本外预测（out-of-sample prediction）为重心有助于防止包含进可能会恶化预测表现的解释性的长列表。更一般而言，这样的分析也是一个有用的提醒：过去事件和未来事件预测的因果解释是不同但相关的实证表现的标准。

尽管有这样的进展，但要说能拯救生命的冲突预防（conflict prevention）已经马上就能实现还是过于乐观。此外，这一领域还远远没有达到民意调查机构和经济预测机构所能接受的政策影响。为什么会这样呢？

也许最严重的问题在于在完全认识围绕和平与冲突的根本复杂性上的普遍失败。与相对结构化的机构决策设置（institutional decision-making settings，如在微观层面上的投票和消费者行为）相反，冲突过程通常包含一个难以处理的施动因素（actor）集合，这些施动因素以一种让人惊讶的而且从定义上打破规则的方式交互。这些情形可通过基本和固有的复杂性进行特征化，其允许的是实现「模式预测（pattern prediction）」而不是准确的特定事件的经验预测。在缺乏充分了解所有理论上的组件的交互方式以及缺乏足够用于测量相关变量的数据的情况下，我们所能希望的只有在能增加冲突的概率的结构特征的基础上的风险评估（risk assessment）。因此，至少在宏观层面上，要根据之前在稍不复杂的领域（如台球、行星运动或交通系统、）或更简单的政治环境（如选举竞争）上的成功来确定未来预测的表现是无效的；在这些更简单的问题中，理论原理得到了广泛的了解，而且相关事件发生的频率也很高。

即便神经网络这样的机器学习技术能在底层数据捕捉非线性，但是地缘政治的变化改变了如国家及其边界这样的分析单位，这种改变带来了一个更基本的挑战，尤其是对于长期宏观预测来说。大多数宏观模型倾向于跟踪一组给定的现有状态到未来的属性，而忽略了领土变化的可能性，比如分裂与统一。然而，正如前苏联和南斯拉夫冷战结束带来的变化所展现的那样，这些国家的国家层面上的数据几乎没有为冷战结束后的预测提供指导。地域的变化之外，这些隐含的恒常性假设更普遍地适用于单位和因果机制效应之间的互动。这个问题阻碍了「交叉验证」的使用，这种方法会将数据集分成若干部分，其中一些是用来「训练」预测算法，还有一些是作为「抵抗（holdout）」部分，后面会用来测试算法。在一些将历史切成碎片这种做法的情况下，关于长期趋势的有价值信息会丢失，因为这种方法打乱了历史时期，把它们看成了是等效的（equivalent）。

数据质量进一步阻碍了政治暴力预测的进展。与台球或行星运动轨迹不同，测量冲突的发生、地点和时间要难得多，而且这些预测与相当大的不确定性有关。对于许多暴力的决定因素，如经济状况，类似的问题也同样存在。即使在过去事件的统计解释测量上误差不是个问题，但它仍然对未来暴力行为的预测构成了挑战，同时还常常会降低暴力发生地点和时间预测的置信度。如果暴力测量结果与一个或更多的预测指标变量呈现系统性相关，那么会产生类型更多的严重错误。因为政治暴力往往是从新闻文章这样的次要来源（如新闻文章）编码而来的，所以高水平地暴力观察可能是源于高水平的实际暴力或者概率更高的报道（或者两者都是）。这使得预测很困难。扩大数据集——如在使用自动事件编码的几个项目中——可能加剧这一问题，因为它同样依赖次级来源。

即便在预测研究上的最近进展很有前景，我们还是要警告从理论和政策上高估其重要性的倾向。如上面所讨论，样本外预测有助于理论建设，但是，这并不意味着有效的解释必须始终是预测性的。根据达尔文的理论，一些高度依赖路径的过程只允许特定情况下的事后解释。鉴于冲突过程的复杂性特征，特别是在宏观层面，这样的解释仍然可以提供关于具体机制和政策有效性的关键信息。此外，将预测表现作为唯一有效的经验评估标准是不明智的，特别是在预测模型非常复杂和不透明，以至于尚不清楚预测成功的驱动因素是什么的情况下。例如，模型集合上的贝叶斯平均是一种优雅归纳技巧，它从竞争模型中汇聚了大量数据，但除非理顺理论上的问题，否则整体结果可能只不过是理论上的黑箱而已。

做政策相关的预测需要谨慎的原因研究还有一些。学者们给出的预测通常都假设政策制定者最要想要的是预测性的风险评估，因为这些东西能让他们通过配置预防性资源和干预减少潜在冲突。然而，这些希望假定了政策干预的效用已被广为人知。事实上，无理论的预测在不了解冲突的驱动因素的情况下很少能指导干预。因此，谨慎执行政策分析评估冲突减少措施带来的因果效用是有效政治宏观预测的先决条件。考虑到获得关键社会指标的可靠信息是有困难的，尤其在发展中国家，在许多情况下，一些基本描述和解释建模可能比预测更迫切需要。

推荐

有许多方法可以改善现有的冲突预测工作，例如，涉及到方法论和结果的沟通。在一些情况下，这需要更多用户友好的方式来呈现结果，比如报告现有和预测的趋势，而不仅仅是基于花哨估计技术的接收者操作特征（receiver operating characteristic，ROC）曲线。透明性还要求关于采样周期的关键假设和不确定性测量在多个场景中基于备选假设的情况下能被明确陈述和经过鲁棒性测试。否则，研究者的错误估计可能会传达一种错误的确定感。

为了评估新方法的附加值，分析师们需要更好地比较他们从复杂的预测机制中得出的预测与简单的基线模型。它最纯净的形式，比如一个基线模型，能简单地预测出过去没有给现在带来变化。例如，Lim 等人用一个基于 agent 的复杂模型预测了前斯拉夫种族暴力的位置。虽然该模型的预测精度乍一看令人印象深刻，进一步的检查发现，这种表现与一个在地图上随机标出暴力事件（塞尔维亚和黑山共和国除外）的模型差不多。

最终，在政治暴力这个问题上，希望大数据通过某种无理论的「蛮力」产生某种有效的预测是错误的想法。自动的数据提取算法，比如基于社交媒体的网页抓取和信号探测，可能会加剧政治紧张局势，但这并不意味着这些算法能以较高的时空精度预测低概率冲突事件。只有研究人员考虑到数据质量和代表性的局限性，大型自动编码的数据集才能发挥用处。这样一来，团队工作的人类「超级预测员」仍然能在一般政治事件预测上击败的不仅是更专业的专家，还包括预测市场和其他自动化的方法就不足为奇。

总体上看，我们坚决相信冲突预测非常有用，也值得投入研究。但是，未来的预测研究需要识别由人类系统的大量历史复杂性与偶然性导致的内在局限。如冷战的结果和更多的最近历史事件表面，像「英国退欧」和「特朗普大选胜利」这样的历史性「事件」经常会讽刺脱离语境的样本外的推算（out-of-sample extrapolation）。讨论经济发展长期预测的难度时，Milanovic 提醒我们「可以也确实会改变的变量数量，历史中（『自由意志』）人物的角色」，以及战争和自然灾害的影响是如此之大，以至于即使是一代人中最优秀的头脑所作出的大趋势预测也很少正确。

然而，同时，时空范围更有限的预测——例如预测的一个给定的处于内战的城市的短期暴力轨迹——是完全可能的，因为它们不太可能受到这些发展的影响。因此，该领域的挑战是，要在社会和政治世界固有的复杂性与我们准确预测政治暴力的能力的相关局限之间找到一个平衡点。最近收集冲突事件的非总体和空间直观（spatially explicit）的数据加快了，结果表明，在有限的时空半径内，政策相关的预测是可行的，同时潜在用处也非常大。然而，超出这些限制，大量的理论和经验的不确定性往往压倒了预测的尝试。在这样的情况下，在生成可能的情景这个任务上，预测建模作为一种启发式工具，而不是作为具体政策建议的生产工具，或许会更有用。

二、科学学领域中基于数据的预测研究

摘要：想要预测发现的愿望——提前知道将由谁在何时何处发现什么，几乎渗透了现代科学的所有方面：从个人科学家到出版商，从资助机构到招聘委员会。本文调查了「科学的科学（science of science，科学学）」的新兴和跨学科领域，以及使我们得知科学发现的可预测性的因素。而后我们将讨论改进源自科学的科学的未来机遇及科学社区中积极和消极的潜在影响。

想要预测发现的愿望——提前知道将由谁在何时何处发现什么，几乎渗透了现代科学的所有方面：从个人科学家到出版商，从资助机构到招聘委员会。本文调查了「科学的科学（science of science，科学学）」的新兴和跨学科领域，以及使我们得知科学发现的可预测性的因素。而后我们将讨论改进源自科学的科学的未来机遇及科学社区中积极和消极的潜在影响。

目前，对预测发现——对何人何时何地发现何物提前有些想法——的渴望几乎遍及现代科学的所有方面。个人科学家通常预测哪些研究问题或课题会是有趣的、有影响力的，并且可获得资金支持。出版商和资助机构评估手稿或项目意见书时，部分是通过预测其未来的影响力进行的。员工招聘委员会也会预测哪些候选人员会在其职业生涯中作出重要的科学贡献。对于通过税费资助大部分科学研究的社会大众来说，预测也是重要的。我们能使科学发现过程更有可预测性，就能将资源更高效地用于推动有价值的技术、生物医学和科学方面的进步。

尽管存在这种普遍的需求，我们对如何发现的理解仍然是局限的，并且个人、出版商、资助机构或招聘委员会做出的预测中相对来说极少是通过科学方式做出的。那么，我们如何能知晓哪些是可以预测的，哪些是无法预测的？尽管将发现与发现者相分离会存在困难，但该论文的首要关注点是科学的科学：为科学性地理解导致科学发现的社会过程（social processes）而进行一种跨学科工作。（是为了对科学哲学的现时思考及科学家如何在个别科学挑战方面取得进展，请看（1）

这种预测发现的兴趣可以向前追溯近 150 年，一直追溯到哲学家 Boleslaw Prus (1847–1912) 和经验主义学派的社会学家 Florian Znaniecki (1882–1958) 的作品。特别是 Znaniecki，在其倡议下，设立了对科学社会进程的数据导向研究。在 20 世纪的大部分时间里，该目标进展缓慢，部分是由于好数据难获取，且大部分人满足于专家评判。

今天，科学圈是一个巨大而又多变的生态系统，包含着数以百计的互相关联的研究领域，数以万计的研究人员和每年层出不穷眼花缭乱的新结果。这样惊人的体量和复杂度进一步扩大了对科学的科学研究的呼声并激发了对这种类型测量量化方法的研究，比如对过去成果的引用、新成果的产生、职业生涯轨迹、资金赞助、学术奖励等等。数字技术使得这些信息的生成量巨大，而研究人员则正在开发新的强大的计算工具来分析这些信息。举个例子，为了自动量化某些专业科学问题研究的进展，自动提取和分类论文中的相关内容。

目前普遍认为，通过挖掘这些信息所得到的预测远比专家的意见更为客观精确。书目数据库和在线平台——比如，Google Scholar、PubMed、Web of Science、JSTOR、ORCID、EasyChair、和「altmetrics,」——正在使研究人员对科学进展的深入洞见进入一个新的时代。

下载：