A new golden age of discovery Seizing the AI for Science opportunity
Authors: Conor Griffin | Don Wallace | Juan Mateos-Garcia | Hanna Schieve | Pushmeet Kohli
原文地址
Introduction
世界各地的实验室正在酝酿一场悄然的革命,科学家对人工智能的使用呈指数级增长。三分之一的博士后现在使用大型语言模型来帮助进行文献综述,编码和编辑。10月,AlphaFold 2系统的创造者Demis Hassabis和John Jumper因使用人工智能预测蛋白质结构而获得诺贝尔化学奖,与科学家大卫贝克一起设计新蛋白质。社会将很快开始更直接地感受到这些好处,在人工智能的帮助下设计的药物和材料目前正在开发中。
在这篇文章中,我们将介绍人工智能如何改变科学学科,从基因组学到计算机科学再到天气预报。一些科学家正在训练他们自己的人工智能模型,而另一些科学家正在微调现有的人工智能模型,或者使用这些模型的预测来加速他们的研究。科学家们正在使用人工智能作为一种科学工具来帮助解决重要的问题,例如设计与疾病靶点更紧密结合的蛋白质,但也在逐渐改变科学本身的实践方式。
科学家拥抱人工智能的背后越来越迫切。近几十年来,科学家们不断取得重大进展,从Covid-19疫苗到可再生能源。但是,要实现这些突破,并将其转化为下游应用,需要越来越多的研究人员。因此,尽管科学劳动力在过去半个世纪中显著增长,仅在美国就增长了7倍多,但我们预期的社会进步已经放缓。例如,世界许多地方生产力增长持续放缓,损害了公共服务的质量。实现2030年可持续发展目标的进展正在停滞,这些目标涵盖了健康,环境等方面的最大挑战。
特别是,今天希望取得突破的科学家越来越多地遇到与规模和复杂性有关的挑战,从他们需要掌握的不断增长的文献基础到他们想要进行的越来越复杂的实验。现代深度学习方法特别适合这些规模和复杂性挑战,可以压缩未来科学进步所需的时间。例如,在结构生物学中,确定蛋白质结构的单一X射线晶体学实验可能需要数年的工作,成本约为10万美元,具体取决于蛋白质。AlphaFold蛋白质结构数据库现在免费提供2亿个预测蛋白质结构的即时访问。
人工智能对科学的潜在好处并没有得到保证。很大一部分科学家已经使用基于法学硕士的工具来协助完成日常任务,例如编码和编辑,但使用以人工智能为中心的研究方法的科学家比例要低得多,尽管增长迅速。在匆忙使用人工智能的过程中,一些早期的科学用例产生了令人质疑的影响。政策制定者可以帮助加速人工智能的使用,并将其引导到影响力更大的领域。美国能源部、欧盟委员会、英国皇家学会和美国国家科学院等机构最近都认识到了人工智能对科学的重要性。但还没有一个国家制定全面的战略来实现这一目标。
我们希望我们的文章能够为这样的战略提供信息。它针对那些制定和影响科学政策和资助决定的人。我们首先确定了在科学中使用人工智能越来越迫切的5个机会,并研究了在这些领域取得突破所需的主要因素。然后,我们探讨了在科学中使用人工智能最常被引用的风险,例如科学创造力和可靠性,并认为人工智能最终可以在每个领域获得净收益。最后,我们提出了四个公共政策理念,以帮助迎来人工智能科学的新黄金时代。
在这篇文章中,我们从我们自己的AI for Science项目的专家以及外部专家的二十多次采访中汲取了见解。这篇文章自然反映了我们作为私营部门实验室的Vantage,但我们相信我们提出的案例与整个科学相关。我们希望读者能够通过分享他们对科学机会,成分,风险和政策想法最重要的人工智能的看法来做出回应。
目录
- A new golden age of discovery Seizing the AI for Science opportunity
- Introduction
- A. The opportunities
- 1. Knowledge
- 2. Data
- 3. Experiments
- 4. Models
- 5. Solutions
- B. The ingredients
- 1. Problem selection
- 2. Evaluations
- 3. Compute
- 4. Data
- 5. Organisational design
- 6. Interdisciplinarity
- 7. Adoption
- 8. Partnerships
- 9. Safety & responsibility
- C. The risks
- 1. Creativity
- 2. Reliability
- 3. Understanding
- 4. Equity
- 5. The environment
- D. The policy response
A. The opportunities
科学家的目标是理解,预测和影响自然和社会世界的运作方式,激发和满足好奇心,并解决社会面临的重要问题。技术和方法,如显微镜、X射线衍射和统计学,既是科学的产物,也是科学的推动者。在过去的世纪里,科学家们越来越多地依靠这些仪器来进行实验和推进理论。计算工具和大规模数据分析变得尤为重要,从希格斯玻色子的发现到人类基因组的绘制,一切都成为可能。从一个角度来看,科学家越来越多地使用人工智能是这一长期趋势的逻辑延伸。但它也可能预示着更深刻的东西–科学能力极限的不连续飞跃。
我们没有列出所有可能使用人工智能的领域,而是强调了我们认为必须使用人工智能的五个机会。这些机会适用于各个学科,并解决了与规模和复杂性相关的特定瓶颈,科学家在科学过程的不同阶段越来越多地面临这些瓶颈,从产生强大的新颖假设到与世界分享他们的工作。
1. Knowledge
Transform how scientists digest and communicate knowledge 改变科学家消化和交流知识的方式
为了做出新的发现,科学家需要掌握一个预先存在的知识体系,这个体系将继续呈指数级增长,并变得更加专业化。这种“知识负担”有助于解释为什么做出变革性发现的科学家年龄越来越大,跨学科,并且位于精英大学,以及为什么个人或小团队撰写的论文比例正在下降,尽管小团队通常更适合推进颠覆性科学思想。在分享他们的研究成果方面,已经有了一些受欢迎的创新,比如预印本服务器和代码库,但大多数科学家仍然在密集的、充满术语的、只有英文的论文中分享他们的发现。这可能会阻碍而不是激发对科学家工作的兴趣,包括政策制定者,企业和公众。
科学家们已经在使用LLM和基于LLM的早期科学助理来帮助应对这些挑战,例如通过综合文献中最相关的见解。在早期的演示中,我们的科学团队使用我们的Gemini LLM在一天之内从20万篇论文的最相关子集中找到,提取和填充特定数据。即将到来的创新,例如对更多科学数据的LLM进行微调,以及在长上下文窗口和引文使用方面的进步,将稳步提高这些能力。当我们在下面展开时,这些机会并非没有风险。但它们提供了一个窗口,从根本上重新思考某些科学任务,例如在一个科学家可以使用LLM来帮助批评它,为不同受众定制其影响,或将其转换为“交互式论文”或音频指南的世界中,“阅读”或“撰写”科学论文意味着什么。
2. Data
Generate, extract, and annotate large scientific datasets 生成、提取和注释大型科学数据集
尽管关于数据丰富时代的流行说法,但从土壤、深海和大气到非正规经济,大多数自然和社会世界长期缺乏科学数据。AI可以以不同的方式提供帮助。它可以使现有的数据收集更加准确,例如通过减少DNA测序、检测样本中的细胞类型或捕获动物声音时可能发生的噪音和错误。科学家还可以利用LLM不断增长的跨图像,视频和音频操作的能力,提取隐藏在科学出版物,档案和教学视频等不太明显的资源中的非结构化科学数据,并将其转换为结构化数据集。
人工智能还可以帮助科学家使用所需的支持信息来注释科学数据。例如,至少三分之一的微生物蛋白质没有可靠地注释它们被认为执行的功能的细节。2022年,我们的研究人员使用人工智能预测蛋白质的功能,在UniProt、Pfam和InterPro数据库中引入了新条目。
人工智能模型一旦得到验证,也可以作为合成科学数据的新来源。例如,我们的AlphaProteo蛋白质设计模型是在AlphaFold 2中超过1亿个AI生成的蛋白质结构上训练的,沿着来自蛋白质数据库的实验结构。这些人工智能机会可以补充并增加其他急需的科学数据生成工作的回报,例如数字化档案,或资助新的数据捕获技术和方法,例如单细胞基因组学正在进行的工作,以前所未有的细节创建强大的单个细胞数据集。
3. Experiments
Simulate, accelerate and inform complex experiments 模拟、加速复杂实验并为之提供信息
许多科学实验是昂贵、复杂和缓慢的。有些根本没有发生,因为研究人员无法获得他们所需要的设施、参与者或投入。核聚变就是一个很好的例子。它承诺提供一种几乎无限的、零排放的能源,并能够实现能源密集型创新的规模化,如海水淡化。为了实现核聚变,科学家需要创造和控制等离子体–物质的第四种基本状态。然而,所需设施的建造非常复杂。ITER的原型托卡马克反应堆于2013年开始建造,但等离子体实验最早要到21世纪30年代中期才能开始,尽管其他人希望在更短的时间内建造更小的反应堆。
人工智能可以帮助模拟聚变实验,并更有效地利用后续实验时间。一种方法是在物理系统的模拟上运行强化学习代理。在2019年至2021年期间,我们的研究人员与瑞士联邦理工学院洛桑合作,演示了如何在托卡马克反应堆的模拟中使用RL来控制等离子体的形状。这些方法可以扩展到其他实验设施,如粒子加速器,望远镜阵列或引力波探测器。
使用人工智能来模拟实验在不同学科之间看起来会有很大的不同,但一个共同点是,模拟通常会为物理实验提供信息和指导,而不是取代它们。例如,平均每个人的DNA中有超过9,000个错义变体或单字母替换。大多数这些遗传变异是良性的,但有些可能会破坏蛋白质执行的功能,导致罕见的遗传疾病,如囊性纤维化以及常见的疾病,如癌症。测试这些变体效果的物理实验通常仅限于单一蛋白质。我们的AlphaMissense模型将7100万个潜在的人类错误变体中的89%分类为可能有害或良性,使科学家能够将他们的物理实验集中在最有可能导致疾病的因素上。
4. Models
Model complex systems and how their components interact 对复杂系统及其组件如何交互进行建模
在1960年的一篇论文中,诺贝尔物理学奖得主尤金·维格纳(Eugene Wigner)对数学方程在模拟重要自然现象(如行星运动)时的“不合理有效性”进行了抨击。然而,在过去的半个世纪里,依赖于方程组或其他确定性假设的模型一直在努力捕捉生物学、经济学、天气学和其他领域系统的全部复杂性。这反映了构成这些系统的相互作用部分的绝对数量,以及它们的活力和潜在的紧急,随机或混乱行为。对这些系统进行建模的挑战阻碍了科学家预测或控制其行为的能力,包括在冲击或干预期间,如温度上升,新药或税收变化。
人工智能可以通过获取更多关于这些复杂系统的数据,并在这些数据中学习更强大的模式和知识,来更准确地对这些复杂系统进行建模。例如,现代天气预报是科学和工程的胜利。对于政府和工业界来说,它为从可再生能源规划到飓风和洪水的准备工作提供了一切信息。对于公众来说,天气是Google搜索中最受欢迎的非品牌查询。传统的数字预测方法基于仔细定义的物理方程,这些方程提供了对大气复杂动态的非常有用但不完美的近似。它们运行起来也是计算上昂贵的。2023年,我们发布了一个深度学习系统,可以提前10天预测天气状况,在准确性和预测速度上优于传统模型。随着我们在下面的扩展,使用人工智能来预测天气变量也有助于缓解和应对气候变化。例如,当飞行员飞过潮湿地区时,可能会导致冷凝尾迹,从而导致航空业的全球变暖影响。谷歌科学家最近使用人工智能来预测潮湿地区何时何地可能出现,以帮助飞行员避免飞越它们。
在许多情况下,人工智能将丰富复杂系统建模的传统方法,而不是取代它们。例如,基于代理的建模模拟个体参与者(如公司和消费者)之间的交互,以了解这些交互如何影响更大更复杂的系统,如经济。传统的方法要求科学家事先指定这些计算代理应该如何行为。我们的研究团队最近概述了科学家如何使用LLM来创建更灵活的生成代理,这些代理可以进行通信和采取行动,例如搜索信息或进行购买,同时还可以推理和记住这些行动。科学家们还可以使用强化学习来研究这些代理如何在更动态的模拟中学习和适应他们的行为,例如应对新能源价格或流行病应对政策的引入。
5. Solutions
Identify novel solutions to problems with large search spaces 为具有大搜索空间的问题确定新颖的解决方案
许多重要的科学问题都伴随着实际上难以理解的潜在解决方案。例如,生物学家和化学家的目标是确定分子(如蛋白质)的结构,特征和功能。这项工作的一个目标是帮助设计这些分子的新版本,作为抗体药物,塑料降解酶或新材料。然而,要设计一种小分子药物,科学家们面临着1060多种可能的选择。要设计一种含有400个标准氨基酸的蛋白质,他们面临20400种选择。这些大型搜索空间不仅限于分子,而且对于许多科学问题都很常见,例如找到数学问题的最佳证明,计算机科学任务的最有效算法或计算机芯片的最佳架构。
传统上,科学家依靠直觉、试错、迭代或蛮力计算的某种组合来找到最佳分子、证据或算法。然而,这些方法难以利用潜在解决方案的巨大空间,留下更好的未被发现。人工智能可以开辟这些搜索空间的新部分,同时也可以更快地找到最有可能可行和有用的解决方案-这是一种微妙的平衡行为。例如,在7月,我们的AlphaProof和AlphaGeometry 2系统正确地解决了精英高中竞赛国际数学奥林匹克的六个问题中的四个。该系统利用我们的Gemini LLM架构为给定的数学问题生成大量新颖的想法和潜在的解决方案,并将其与基于数学逻辑的系统相结合,这些系统可以迭代地朝着最有可能正确的候选解决方案工作。
AI scientists or AI-empowered scientists? 人工智能科学家还是人工智能授权的科学家?
人工智能在科学中的应用越来越多,早期人工智能科学助理的出现,引发了人们对人工智能能力发展的速度和程度以及这对人类科学家意味着什么的疑问。目前基于LLM的AI科学助理对相对狭窄的任务范围做出相对较小的贡献,例如支持文献综述。有一些合理的短期情景,他们在这些任务中变得更好,并且能够更有影响力,例如帮助产生强有力的假设,或帮助预测实验结果。然而,目前的系统仍然在与人类科学家完成这些任务所依赖的更深层次的创造力和推理作斗争。目前正在努力提高这些人工智能功能,例如将LLM与逻辑推理引擎相结合,就像我们的AlphaProof和AlphaGeometry 2示例一样,但还需要进一步的突破。加速或自动化实验的能力对于那些需要在湿实验室中进行复杂操作、与人类参与者互动或漫长过程(如监测疾病进展)的实验来说也将更加困难。尽管如此,其中一些领域的工作正在进行中,例如新型实验室机器人和自动化实验室。
即使人工智能系统的能力有所提高,最大的边际效益也将来自于将它们部署在发挥其相对优势的用例中-例如从大型数据集中快速提取信息的能力-并且有助于解决科学进步的真正瓶颈,例如上面概述的五个机会,而不是自动化人类科学家已经做得很好的任务。随着人工智能使科学变得更便宜、更强大,对科学和科学家的需求也将增长。例如,最近的突破已经在蛋白质设计、材料科学和天气预报等领域催生了一大批新的初创公司。与其他部门不同,尽管过去有相反的说法,但未来对科学的需求似乎几乎是无限的。新的进步总是在科学知识地图上开辟新的、不可预测的区域,人工智能也会这样做。正如赫伯特西蒙所设想的那样,人工智能系统也将成为科学研究的对象,科学家将在评估和解释他们的科学能力以及开发新型人类人工智能科学系统方面发挥主导作用。
B. The ingredients
我们对雄心勃勃的人工智能科学工作取得成功所需的要素感兴趣-无论是在个人研究工作层面还是在科学生态系统层面,决策者都有更多的空间来塑造它们。我们采访的专家经常引用我们组织成一个玩具模型的几种成分,我们称之为科学生产功能的人工智能。这个生产函数并不意味着是详尽的、规定性的或整齐的线性过程。这些成分对许多人来说是直观的,但我们的采访揭示了一些关于它们在实践中的样子的教训,我们在下面分享。
1. Problem selection
Pursue ambitious, AI-shaped problems 追求雄心勃勃的AI型问题
科学进步依赖于能够识别一个重要的问题,并就如何解决它提出正确的问题。Tsao证明了问题和答案之间的相互关系和递归关系是多么重要,包括提出雄心勃勃的新问题的重要性。我们的科学团队首先考虑一个潜在的研究问题是否足够重要,足以证明投入大量的时间和资源是合理的。我们的首席执行官Demis Hassabis有一个心理模型来指导这项评估:将所有科学视为一棵知识树。我们特别感兴趣的是根-基本的“根节点问题”,如蛋白质结构预测或量子化学,如果解决,可以解锁全新的研究和应用分支。
为了评估人工智能是否合适和可添加性,我们寻找具有某些特征的问题,例如巨大的组合搜索空间,大量的数据以及明确的目标函数来衡量性能。通常,一个问题在原则上是适合人工智能的,但输入还没有到位,需要存储起来供以后使用。AlphaFold最初的灵感之一是Demis多年前作为学生与一位痴迷于蛋白质折叠问题的朋友的对话。最近的许多突破也将一个重要的科学问题和一种已经达到成熟点的人工智能方法结合在一起。例如,我们的融合工作得到了一种名为最大后验策略优化的新型强化学习算法的帮助,该算法刚刚发布。再加上我们的合作伙伴EPFL刚刚开发的一个新的快速准确的模拟器,使团队能够克服数据不足的挑战。
除了选择正确的问题之外,重要的是要在正确的难度级别上指定它。我们的受访者强调,一个强有力的人工智能问题陈述往往是一个适合于中间结果的陈述。如果你选择了一个太难的问题,那么你就不会产生足够的信号来取得进展。要做到这一点,需要依靠直觉和实验。
2. Evaluations
Invest in evaluation methods that can provide a robust performance signal and are endorsed by the community 投资于能够提供强有力的绩效信号并得到社区认可的评估方法
科学家使用评估方法,如基准、指标和竞赛,来评估人工智能模型的科学能力。如果做得好,这些评估提供了一种跟踪进展的方法,鼓励方法创新,激发研究人员对科学问题的兴趣。通常需要多种评估方法。例如,我们的天气预报团队从基于几个关键变量(如表面温度)的初始“进度指标”开始,他们用来“爬山”,或逐渐提高模型的性能。当模型达到一定的性能水平时,他们借鉴欧洲中期天气预报中心的评估记分卡,使用1,300多个指标进行了更全面的评估。在过去的工作中,该团队了解到,人工智能模型有时可以以不受欢迎的方式在这些指标上取得好成绩。例如,“模糊”预测-例如预测大地理区域内的降雨-比“尖锐”预测-例如预测与实际位置略有不同的风暴-所谓的“双重惩罚”问题。为了提供进一步的验证,该团队评估了他们的模型在下游任务中的有用性,例如预测气旋路径的能力,以及评估“大气河流”的强度-可能导致洪水的狭窄的集中水分带。
最具影响力的人工智能科学评估方法通常是社区驱动或认可的。一个黄金标准是蛋白质结构预测竞争的关键评估。两年一度的CASP竞赛由John Moult教授和Krzysztof Fidelis教授于1994年创立,挑战研究小组,以测试他们的蛋白质结构预测模型对真实的,未发布的实验蛋白质结构的准确性。它也成为一个独特的全球社区和研究进展的催化剂,尽管很难迅速复制。社区购买的需要也为发布基准提供了一个论据,以便研究人员可以使用,批评和改进它们。然而,这也带来了基准测试会“泄漏”到人工智能模型的训练数据中的风险,从而降低了其跟踪进度的有用性。这种权衡没有完美的解决方案,但至少需要定期制定新的公共基准。科学家、人工智能实验室和政策制定者还应该探索评估人工智能模型科学能力的新方法,例如建立新的第三方评估机构、竞赛,以及让科学家对人工智能模型的能力进行更开放的探索。
3. Compute
Track how compute use is evolving and invest in specialist skills 跟踪计算使用的发展情况,并投资于专业技能
多项政府审查已经认识到计算对人工智能,科学和更广泛的经济发展越来越重要。随着我们在下文进一步展开,人们也越来越关注其能源消耗和温室气体排放。人工智能实验室和政策制定者应该采取一种有基础的长期观点,考虑计算需求在人工智能模型和用例中的变化,潜在的乘数效应和效率提高,以及这与不使用人工智能的反事实方法相比如何。
例如,一些最先进的人工智能模型,如蛋白质设计,相对较小。较大的模型,如LLM,训练时需要大量的计算,但通常需要更少的计算来微调或进行推理,这可以为科学研究开辟更有效的途径。一旦LLM经过训练,它也更容易使其更有效,例如通过更好的数据管理,或通过将大型模型“蒸馏”成较小的模型。人工智能计算需求也应该与其他科学进步模型进行比较。例如,人工智能天气预报模型的训练是计算密集型的,但仍然可以比传统技术更具计算效率。这些细微差别凸显了人工智能实验室和政策制定者需要凭经验跟踪计算使用情况,了解它是如何发展的,并预测这些趋势对未来需求的意义。除了确保对正确类型芯片的充分访问外,计算策略还应优先考虑管理访问和确保可靠性所需的关键基础设施和工程技能。学术界和公共研究机构的这方面资源往往不足。
4. Data
Blend top-down and bottom-up efforts to collect, curate, store, and access data 混合自上而下和自下而上的工作来收集、管理、存储和访问数据
与计算类似,数据可以被视为人工智能科学工作的关键基础设施,需要随着时间的推移进行开发,维护和更新。讨论的重点往往是确定决策者和从业人员应该创建的新数据集。这种自上而下的努力有其作用。2012年,奥巴马政府启动了材料项目,以绘制已知和预测的材料,如电池、太阳能电池板和计算机芯片中发现的无机晶体,如硅。我们最近的GNOME工作使用这些数据预测了220万种新型无机晶体,其中包括38万种模拟表明在低温下稳定的晶体,使它们成为新材料的候选者。
然而,通常很难提前预测哪些科学数据集将是最重要的,许多人工智能科学突破依赖于更有机地出现的数据,这要归功于有进取心的个人或小团队的努力。例如,布罗德研究所的研究员丹尼尔·麦克阿瑟(Daniel MacArthur)领导了基因变异gnomAD数据集的开发,我们的AlphaMissense工作随后借鉴了该数据集。同样,数学证明助手和编程语言Lean最初是由程序员列奥纳多·德·德·克拉(Leonardo de Réla)开发的。它不是一个数据集,但许多AI实验室现在使用它来帮助训练他们的AI数学模型,包括我们的AlphaProof系统。
像gnomAD或Lean这样的努力强调了自上而下的数据工作如何需要在数据管道的各个阶段为个人提供更好的激励。例如,一些来自战略性湿实验室实验的数据目前被丢弃,但如果有稳定的资金,可以收集和储存。数据管理也可以得到更好的激励。我们的AlphaFold模型是在蛋白质数据库的数据上训练的,这些数据质量特别高,因为期刊需要蛋白质结构的沉积作为发表的先决条件,PDB的专业数据管理员为这些数据制定了标准。在基因组学中,许多研究人员也有义务将原始测序数据存款Sequence Read Archive,但不一致的标准意味着单个数据集通常仍需要重新处理和组合。其他一些高质量的数据集完全没有使用,因为限制性的许可条件,例如生物多样性,或者因为数据集没有发布,例如来自公共资助的融合实验的数十年数据。这可能有合乎逻辑的原因,例如缺乏时间,资金,放置数据的地方,或者需要对开发数据的研究人员进行临时禁运。但总的来说,这些数据访问问题构成了使用人工智能推动科学进步的关键瓶颈。
5. Organisational design
Strike the right balance between bottom-up creativity and top-down coordination 在自下而上的创造力和自上而下的协调之间取得适当的平衡
一个简单的启发是,学术界和工业界倾向于在光谱的两端接近科学研究。学术界倾向于自下而上,而工业实验室倾向于自上而下。事实上,两者之间一直存在很大的空间,特别是在最成功的实验室中,例如贝尔实验室和施乐PARC的黄金时代,他们以蓝天研究而闻名,并在DeepMind的创立中发挥了灵感作用。最近,出现了新一波科学研究机构,试图从这些异常例子中学习。这些组织的目标、资助模式、学科重点以及组织工作的方式各不相同。但他们希望共同提供更多高风险、高回报的研究,减少官僚主义,并为科学家提供更好的激励。许多人都非常注重应用人工智能,例如英国的高级研究与发明机构,Arc研究所,以及越来越多的专注研究组织,旨在解决科学中的特定问题,这些问题对学术界来说太大,对工业界来说不够有利可图,例如负责扩展精益证明助理的组织,这对人工智能数学研究至关重要。
这些新机构的核心都是希望找到一种更好的结合,将自上而下的协调和重点与自下而上的科学家赋权结合起来。对于一些组织来说,这意味着专注于一个具有预先指定的里程碑的特定问题。对其他人来说,这意味着为主要研究人员提供更多不受限制的资金。保持这种平衡对于吸引和留住研究领导者至关重要,如果要取得成功,他们也必须接受它- Demis Hassabis认为这是成功协调大规模尖端研究的最大因素。在个人研究工作中,达到这种平衡也很重要。在谷歌DeepMind的案例中,工作通常在更非结构化的“探索”阶段和更快的“开发”阶段之间进行,在这两个阶段中,团队搜索新的想法,而在这两个阶段中,他们专注于工程和扩展性能。知道何时在这些模式之间切换以及如何相应地调整项目团队是一门艺术。
6. Interdisciplinarity
Approach science as a team, fund neglected roles, and promote a culture of contestability 将科学视为一个团队,资助被忽视的角色,并促进可持续发展的文化
许多最困难的科学问题需要在不同领域的边界上取得进展。然而,当从业者聚集在一起时,例如在新冠肺炎期间,他们往往很难从多学科团队(每个人都保留自己的学科角度)过渡到真正的跨学科,在那里他们共同开发共享的想法和方法。这一挑战反映了科学知识的日益专业化,以及赠款资金等激励措施,这些激励措施通常主要根据从业人员的核心专业知识进行评估。
AI for Science的工作通常是多学科的,但要取得成功,它们需要真正跨学科。首先,选择一个需要每种专业知识的问题,然后提供足够的时间和精力来培养团队围绕它的活力。例如,我们的伊萨卡项目使用人工智能来恢复受损的古希腊铭文,这可以帮助从业者研究过去文明的思想,语言和历史。为了取得成功,项目的共同领导人Yannis Assael必须发展对金石学的理解-对古代铭文的研究。反过来,该项目的金石学家必须学习人工智能模型是如何工作的,因为直觉对他们的工作很重要。培养这些团队动力需要正确的激励。让一个小而紧密的团队专注于解决问题,而不是撰写论文,是AlphaFold 2突破的关键。这种关注在行业实验室中更容易实现,但再次强调了与出版压力关系较小的长期公共研究资金的重要性。
为了实现真正的跨学科,组织还需要为能够帮助融合学科的个人创造角色和职业道路。在Google DeepMind,我们的研究工程师鼓励在研究和工程之间建立一个积极的反馈循环,而我们的项目经理帮助在研究工作中培养团队活力,并在他们之间建立联系。我们还优先雇佣那些喜欢在不同领域之间寻找和建立联系的人,以及那些在新领域快速提升技能的人。为了鼓励思想的交叉传播,我们还鼓励科学家和工程师定期交换项目。最终,我们的目标是创造一种鼓励好奇心、谦逊和经济历史学家乔尔·莫基尔所说的“可竞争性”的文化——在这种文化中,各种背景的从业者都有权在公开的谈话和讨论中陈述和建设性地批评彼此的工作。
7. Adoption
Carefully consider the best access option and spotlight AI models’ uncertainties 仔细考虑最佳访问选项并关注AI模型的不确定性
许多AI for Science模型,例如AlphaFold或我们的天气预报工作,都是专门执行少量任务的。但它们也是普遍的,因为大量科学家正在使用它们,从了解疾病到改进捕鱼计划。这种影响远未得到保证。疾病的细菌理论花了很长时间才传播开来,而科学突破可能带来的下游产品,如新型抗生素,往往缺乏正确的市场激励。
在决定如何发布我们的模型时,我们会尝试平衡科学家广泛采用和验证的愿望与商业目标和其他考虑因素,例如潜在的安全风险。我们还创建了一个专门的影响加速器,以推动突破的采用,并鼓励可能不会发生的社会有益应用,包括通过与被忽视疾病药物倡议和全球抗生素研发伙伴关系等具有类似任务的组织合作。
为了鼓励能够从新模型或数据集中受益的科学家使用它,开发人员需要尽可能让科学家易于使用并集成到他们的工作流程中。考虑到这一点,对于AlphaFold 2,我们开源了代码,但也与EMBL-EBI合作开发了一个数据库,科学家,包括那些计算技能和基础设施较少的科学家,可以从一组预先存在的2亿个蛋白质结构中搜索和下载。AlphaFold 3扩展了模型的功能,导致潜在预测数量的组合爆炸。这就需要一个新的界面,AlphaFold服务器,它允许科学家按需创建结构。科学界还开发了自己的AlphaFold工具,如ColabFold,展示了存在的需求的多样性,以及培养科学界的计算技能以满足这些需求的价值。
科学家还需要信任人工智能模型才能使用它。我们在下面扩展了可靠性问题,但一个有用的起点是主动指示科学家应该如何使用模型,以及它的不确定性。通过AlphaFold,在与科学家对话之后,该团队开发了不确定性指标,以传达模型对给定蛋白质结构预测的“信心”程度,并得到直观可视化的支持。我们还与EMBL-EBI合作开发了一个培训模块,为如何最好地使用AlphaFold提供指导,包括如何解释置信度指标,并通过其他科学家如何使用它的实际例子提供支持。同样,我们的MedGemini系统最近在回答健康相关问题方面取得了最先进的性能。它使用一种不确定性引导的方法,通过生成多个“推理链”来回答问题。然后,它使用这些初始答案之间的相对偏差来计算答案的不确定性。在不确定性很高的地方,它调用网络搜索来整合最新的最新信息。
8. Partnerships
Aim for early alignment and a clear value exchange 目标是尽早实现一致性和明确的价值交换
人工智能的科学工作需要多样化的专业知识,这就迫切需要在公共和私营组织之间建立正式和非正式的伙伴关系。从创建数据集到共享研究,整个项目生命周期都需要这些伙伴关系。特别是,人工智能实验室通常需要科学家帮助评估人工智能模型的输出。例如,最近的研究强调了具有丰富领域专业知识的高级材料科学家对于评估人工智能模型预测的新材料是否可行至关重要。同样,我们的蛋白质设计团队与弗朗西斯克里克研究所的研究小组合作,进行湿实验室实验,以测试我们的人工智能设计的蛋白质是否与其目标结合,以及是否具有所需的功能,例如防止SARS-CoV-2感染细胞。我们的FunSearch方法能够为Cap Set问题开发一种新的构造,着名数学家Terence Tao曾将其描述为他最喜欢的开放问题。这是通过与威斯康星大学麦迪逊分校数学教授、著名Cap Set专家Jordan Ellenberg合作实现的。鉴于行业实验室在推进人工智能能力方面发挥的核心作用,以及对丰富领域专业知识的需求,这些公私合作伙伴关系可能会对推进人工智能科学前沿变得越来越重要,并可能需要更多的投资,例如更多的资金来支持大学和公共研究机构的合作伙伴关系团队。
发展伙伴关系是困难的。在开始讨论时,重要的是要尽早就总体目标达成一致,并解决潜在的棘手问题,例如各方应该对输出拥有什么权利,是否应该发布,模型或数据集是否应该开源,以及应该应用什么类型的许可。意见分歧是自然的,通常反映了公共和私人组织面临的激励措施,而这些激励措施又因研究成熟度或其商业潜力等因素而存在很大差异。最成功的伙伴关系涉及明确的价值交换,利用每个组织的优势。例如,来自190多个国家的200多万用户使用了AlphaFold蛋白质结构数据库。这需要密切合作,将我们的AI模型与EMBL-EBI的生物定位专业知识和科学网络相结合。
9. Safety & responsibility
Use assessments to explore trade-offs and inspire new types of evaluation methods 利用评估来探索权衡,并激发新型评价方法
科学家们经常对人工智能模型可能对科学和更广泛的社会产生的潜在利益和风险持不同意见,有时甚至是强烈的意见。进行伦理和安全评估可以帮助构建讨论框架,并使科学家能够决定是否以及如何开发给定的人工智能模型。一个出发点是确定最重要的影响领域,并在正确的抽象级别上指定这些领域。有越来越复杂的框架来识别和分类不同的人工智能风险,例如提供错误和虚假信息。但这些框架很少考虑人工智能在同一领域的潜在好处,例如改善对高质量信息合成的访问,或者可能发生的权衡,例如限制对人工智能模型的访问或限制其功能。评估还应明确其时间尺度、任何影响的相对确定性以及人工智能对实现这一目标的相对重要性或额外性。例如,那些担心人工智能和气候变化的人往往关注训练大型人工智能模型所需的即时能力,而人工智能的支持者往往关注未来人工智能应用对气候的不那么直接、不那么明确但潜在的更大下游利益。在进行评估时,人工智能从业者还应避免对模型的能力进行过度索引,他们将更接近模型的能力,并更好地了解第三方实际使用模型或受其影响的程度,这通常需要外部专家的输入才能做好。
从业者还需要新的方法来更好地评估在科学中使用人工智能的潜在风险和益处。目前,许多人工智能安全评估依赖于指定模型不应该输出的内容类型,并量化模型遵守这一政策的程度。这些评估对于在科学中使用人工智能所带来的某些风险非常有用,例如生成不准确的内容。但对于其他风险,例如生物安全,我们可以事先可靠地将某些类型的科学知识确定为危险的想法受到了挑战,因为科学知识具有双重用途的性质,但也因为这种努力往往侧重于历史上造成伤害的因素,例如过去爆发的病毒,而不是新的风险。更好的方法可能是评估AI模型的危险能力,或者AI模型对人类危险能力的提升程度。在许多情况下,这些能力也具有双重用途,例如帮助设计或执行实验方案的能力。这些人工智能功能指向风险或机会的程度将取决于如何评估潜在的威胁行为者以及如何管理对模型的访问。除了安全性之外,评估在科学中使用人工智能的其他风险,例如科学创造力或可靠性(我们将在下面讨论),将需要全新的评估方法。考虑到研究和执行此类评估的难度,在社区一级进行评估是有意义的,而不是每个实验室进行孤立的努力。
C. The risks
政策文件、政府文件和对科学家的调查经常提到人工智能在科学中越来越多的使用所带来的某些风险。其中三个风险–科学创造力、可靠性和理解力–主要与科学实践有关。另外两个风险–对公平和环境的风险–主要涉及科学如何代表和影响更广泛的社会。人工智能的使用通常被专门视为对这些领域的风险,而科学可靠性或环境等领域通常被描述为稳定的、有些理想化的术语,这可能会忽视它们面临的更广泛的挑战。我们相信,在科学中使用人工智能最终将使这五个领域中的每一个都受益,因为有机会减轻人工智能带来的风险,并利用人工智能帮助解决这些领域中更广泛的挑战,在某些情况下是深刻的。实现有益的结果可能会更难实现不平等,这在多个层面上根深蒂固地存在于人工智能和科学中,从劳动力的构成到支撑研究的数据,以及科学创造力,这是非常主观的,因此个人可能会合理地不同意某个结果是否是积极的。这些细微差别增加了科学家、政策制定者和其他人对在科学中使用人工智能将如何影响这5个领域的期望的价值。
1. Creativity
Will AI lead to less novel, counterintuitive, breakthroughs? 人工智能会导致不那么新颖、违反直觉的突破吗?
科学创造力描述了创造有用的新事物。在实践中,科学家认为一个新的想法、方法或产出具有创造性的程度通常取决于更主观的因素,比如它的简单性、反直觉性或美感。今天,科学创造力受到科学劳动力相对同质化的破坏,这缩小了思想的多样性。研究人员面临的“要么发表,要么灭亡”的压力,也促使他们在风险较低的主题上发表“追随大众”的论文,而不是进行深入的研究,或跨越学科的概念,这往往是创造性突破的基础。这也许可以解释为什么随着科学的发展,导致一个领域转向新方向的破坏性科学思想的份额似乎在下降,超出了通常的预期。
一些科学家担心,使用人工智能可能会加剧这些趋势,因为它会破坏人类科学家更直观、非正统和偶然的方法,比如伽利略关于地球绕轴旋转的假设。这可能以不同的方式发生。一个令人担忧的问题是,人工智能模型经过训练,可以最大限度地减少训练数据中的异常,而科学家通常会通过遵循他们对复杂数据点的直觉来放大异常。其他人担心人工智能系统被训练来执行特定的任务,因此依赖它们将放弃更多偶然的突破,例如研究人员意外地发现他们没有研究的问题的解决方案。在社区层面上,一些人担心,如果科学家接受人工智能,可能会导致输出的逐渐同质化,例如,如果LLM在回应不同科学家的询问时产生类似的建议。或者,如果科学家过度关注最适合人工智能的学科和问题。
保持对探索性研究和非人工智能研究的支持可能有助于减轻其中一些风险。科学家们还可以调整他们使用人工智能的方式,使其提高而不是削弱自己的创造力,例如通过微调LLM来提出更个性化的研究想法,或者帮助科学家更好地引出自己的想法,类似于我们早期开发人工智能导师的努力,可以帮助学生更好地思考问题,而不仅仅是输出问题的答案。人工智能还可以实现可能不太可能发生的新型科学创造力。人工智能创造力的一种类型是插值,人工智能系统在其训练数据中识别新的想法,特别是在人类能力有限的情况下,例如使用人工智能来检测大型强子对撞机实验中大规模数据集的异常。第二种类型是外推,人工智能模型在训练数据之外推广到更新颖的解决方案,例如我们的AlphaGo系统提出的令人类围棋专家震惊的著名移动37,或者我们的AlphaProof和AlphaGeometry 2系统产生的新颖数学证明和非显而易见的结构。第三种类型是发明,人工智能系统提出了一个全新的理论或科学系统,完全从其训练数据中删除,类似于广义相对论的最初发展,或复数的创造。人工智能系统目前还没有表现出这种创造力,但新的方法可能会解锁这一点,例如针对不同目标(如新奇和反直觉性)进行优化的多智能体系统,或者经过训练以产生新的科学问题以激发新的解决方案的人工智能模型。
2. Reliability
Will AI make science less self-correcting? 人工智能会让科学更少自我纠正吗?
可靠性描述了科学家相互依赖对方发现的能力,并相信他们不是偶然或错误。今天,一系列相互关联的挑战削弱了科学的可靠性,包括可能导致研究人员少报负面结果的p-黑客和出版偏见;科学家如何执行常规科学任务缺乏标准化;错误,例如科学家如何使用统计方法;科学欺诈;以及同行评审过程中的挑战,包括缺乏合格的同行评审员。
一些科学家担心,人工智能将加剧这些挑战,因为一些人工智能研究也存在不良做法,例如从业者对他们用来评估模型性能的评估进行了精心挑选。人工智能模型,特别是LLM,也容易产生“幻觉”输出,包括虚假或误导性的科学引文。其他人则担心,法学硕士可能会导致大量低质量的论文,类似于“米尔斯”生产的论文。社区正在努力缓解这些问题,包括研究人员遵守的良好实践清单和不同类型的人工智能真实性研究,例如训练人工智能模型将其输出与可信来源联系起来,或帮助验证其他人工智能模型的输出。
科学家还可以利用人工智能来提高更广泛研究基础的可靠性。例如,如果人工智能可以帮助自动化数据注释或实验设计的各个方面,这可以在这些领域提供急需的标准化。随着人工智能模型在将其输出与引用联系起来方面变得越来越好,它们还可以帮助科学家和政策制定者对证据基础进行更系统的审查,例如在气候变化方面,政府间气候变化专门委员会等组织已经在努力跟上出版物的不可阻挡的增长。从业者还可以使用人工智能来帮助检测错误或欺诈性的图像,或者误导性的科学主张,正如科学杂志最近对人工智能图像分析工具的试验所示。更有可能的是,人工智能可能有助于同行评审,因为一些科学家已经使用LLM来帮助评论他们自己的论文,并帮助验证人工智能模型的输出,例如在定理证明中。然而,人们也有理由担心保密性、人工智能系统检测真正新颖工作的能力,以及考虑到同行评议在批准拨款等过程中所起的重要作用,需要科学家的支持。
3. Understanding
Will AI lead to useful predictions at the expense of deeper scientific understanding? 人工智能是否会以牺牲更深入的科学理解为代价来实现有用的预测?
在《自然》杂志最近的一项调查中,科学家们指出,以牺牲更深入的理解为代价,依赖模式匹配是在科学中使用人工智能的最大风险。理解并不总是发现新的科学现象所必需的,如超导性,或开发有用的应用,如药物。但大多数科学家认为理解是他们的主要目标之一,是人类知识的最深形式。对人工智能破坏科学理解的担忧包括现代深度学习方法是非理论性的,不包含或有助于它们预测的现象的理论。科学家们还担心人工智能模型是不可解释的,因为它们不是基于清晰的方程和参数集。还有一个问题是,对人工智能模型输出的任何解释都不会对科学家有用。总的来说,人工智能模型可以提供有关蛋白质结构或天气的有用预测,但它们是否能够帮助科学家了解蛋白质以某种方式折叠的原因,或者大气动力学如何导致天气变化?
对用“低俗的”取代“真实的理论科学”的担忧.“计算”并不是新的,并且是针对过去的技术,例如蒙特卡罗方法。合成生物学等融合了工程和科学的领域也面临着将有用的应用置于更深入的科学理解之上的指责。这些方法和技术导致了科学理解的进步,我们相信人工智能也会,即使其中一些进步很难提前预测。首先,大多数人工智能模型不是理论性的,而是以不同的方式建立在先验知识的基础上,例如在构建数据集和评估时。一些AI模型也有可解释的输出。例如,我们的FunSearch方法输出的计算机代码也描述了它是如何得到解决方案的。
研究人员还在研究可解释性技术,这些技术可以揭示人工智能系统的工作方式,例如识别模型学习的“概念”。许多这些可解释性技术都有重要的局限性,但它们已经使科学家能够从人工智能模型中提取新的科学假设。例如,转录因子是与DNA序列结合以激活或抑制附近基因表达的蛋白质。一项人工智能研究能够预测DNA序列中每个碱基对不同转录因子结合的相对贡献,并使用生物学家熟悉的概念解释这一结果。一个更大的机会可能是基于人工智能系统的学习方式来学习全新的概念。例如,我们的研究人员最近证明,我们的AlphaZero系统学习了关于下棋的“超人”知识,包括非常规的移动和策略,并使用另一个人工智能系统提取这些概念并将其教授给人类象棋专家。
即使没有可解释性技术,人工智能也将通过开辟新的研究方向来提高科学理解,否则这些研究方向将是禁止的。例如,通过解锁生成大量合成蛋白质结构的能力,AlphaFold使科学家能够跨蛋白质结构进行搜索,而不仅仅是跨蛋白质序列。一个研究小组利用这种方法发现了Cas13蛋白家族的一个古老成员,该家族为编辑RNA提供了希望,包括帮助诊断和治疗疾病。这一发现也挑战了先前关于Cas13如何进化的假设。相反,修改AlphaFold模型架构以纳入更多先验知识的努力导致了更差的性能。这突出了准确性和可解释性之间可能发生的权衡,以及人工智能系统如何能够促进科学理解,而不是尽管它们的不透明性,而是因为它,因为这种不透明性可能源于它们在人类无法解释的高维空间中操作的能力,但对于取得科学突破是必要的。
4. Equity
Will AI make science less representative, and useful, to marginalised groups? 人工智能会让科学对边缘化群体的代表性和有用性降低吗?
在科学工作者中,在他们研究的问题中,在他们开发的数据和模型中,以及在由此产生的利益和危害中,不平等是显而易见的。这些不平等是相互关联的,随着时间的推移会变得更加复杂。例如,高收入城市的少数实验室和个人在科学产出中所占的份额不成比例。确定与疾病相关的遗传变异的研究在很大程度上依赖于欧洲祖先群体的数据,而被忽视的热带疾病对贫穷国家的影响不成比例,得到的研究资金相对较少。在农业方面,作物创新主要针对高收入国家最常见的害虫,然后不适当地用于低收入国家的不同害虫,损害产量。尽管有积极的趋势,但女性仅占科学家的33%,长期以来在临床试验中的代表性不足,特别是有色人种女性。
观察人士担心,人工智能在科学中的日益广泛使用可能会加剧这些不平等。人工智能和计算机科学的劳动力在性别、种族和领先实验室的位置方面的代表性低于许多其他科学学科,因此人工智能的日益普及可能会损害科学界更广泛的代表性。作为一种数据驱动的技术,人工智能也有可能继承和巩固科学数据集中的偏见。
也有机会利用人工智能来减少科学领域的不平等,尽管这不能代替更系统的变革。如果人工智能模型通过低成本的服务器或数据库提供,它们可以使科学家,包括那些来自代表性不足的群体的科学家,更容易和更便宜地研究传统上被忽视的问题,类似于释放更多的卫星数据如何导致代表性不足的社区进行更多的研究。通过吸收更多的数据,人工智能模型也可以学习科学家研究的复杂系统的更多通用模式,使这些模型更强大,更不容易出现偏差。例如,由于其非代表性数据,识别与疾病相关的遗传变异的研究可能会发现混淆,而不是因果变异。相反,一些早期尝试在较大的蛋白质结构和遗传变异数据集(包括跨物种数据)上训练人工智能模型,在预测疾病风险最大的个体方面表现更好,人口群体之间的差异更小。然而,最终改善公平性需要长期努力,例如基因组学的H3非洲倡议和人工智能的深度学习Indaba倡议,旨在建立最缺乏的科学基础设施,社区和教育。
5. The environment
Will AI hurt or help efforts to achieve NetZero? AI会伤害还是帮助实现NetZero的努力?
鉴于他们对了解自然世界的渴望,许多科学家长期以来一直积极参与保护环境的努力,从提供有关气候变化的早期证据到开发光伏电池。近年来,越来越多的科学家表达了对人工智能对环境潜在影响的担忧,并开发了试图量化这些影响的方法。大多数关注点集中在培训和使用LLMs对温室气体排放的潜在影响,以及相关的关注点,例如冷却数据中心所需的水。考虑这些影响的一种方法是生命周期方法,该方法同时包含直接和间接影响。直接影响包括建造数据中心和为人工智能模型训练和运行的设备供电所产生的排放。目前还没有对人工智能产生的所有直接排放进行全面的估计。然而,2021年的一项估计显示,云和超大规模数据中心(许多大型人工智能模型都在其中进行训练和部署)的排放量仅占全球排放量的0.1-0.2%。
随着LLMs规模的持续增长,观察人士警告说,这些数字可能会增加,而且可能会大幅增加。然而,包括科学家在内的许多LLM用户将能够以相对较低的计算成本对其进行微调或使用其预测,而不是从头开始训练它们。人们也在努力提高LLM的效率,数字技术的历史表明,相当大的收益是可能的,尤其是由于提供更快、更便宜的人工智能模型的商业压力。在某些情况下,人工智能模型的排放量将低于其他方法。例如,我们的内部分析表明,通过实验确定少量(<10)蛋白质的结构所使用的能量与AlphaFold 2的完整训练运行大致相同。这些结果需要仔细解释,因为人工智能模拟依赖于物理实验,并为物理实验提供信息,而不是取代它们。但它们也展示了人工智能如何以较低的平均能源成本实现更大量的科学活动。
至关重要的是,人工智能对排放的直接影响,无论是积极的还是消极的,与人工智能应用程序对排放的间接影响相比,都可能是微不足道的。在科学中使用人工智能为减少排放提供了三个主要机会。首先,人工智能、数学和计算机科学之间关系的进展可以显着提高互联网的效率,从设计更高效的芯片到为常规任务找到更高效的算法。随着经济中越来越多的份额转移到网上,这应该有助于抵消这些部门的排放。人工智能可以加速可再生能源的开发和使用,例如通过设计新材料,如电池或太阳能电池板,通过优化电网的运行方式和如何整合可再生能源,以及通过更具变革性但不确定的机会,如聚变。最后,世界已经变得越来越温暖,人工智能可以帮助更好地为极端天气事件做好准备。例如,我们的天气预报模型最近提前七天正确地预测了致命的飓风贝里尔将在德克萨斯州“登陆”。非人工智能模型最初预测登陆墨西哥,然后在发生前三天将其预测修正为德克萨斯州。
D. The policy response
鉴于科学进步对几乎所有主要经济、环境和安全目标的重要性,因此科学以及人工智能加速科学进步的潜力应该成为任何政府的首要任务。新的人工智能科学政策议程应该是什么样子?政策制定者可以从实施已经存在的许多良好的科学和创新政策想法开始,这些想法在人工智能科学时代更有意义。例如,人工智能将提高科学研究经费的回报,因此它为加大对人工智能的投资并尝试新想法以加快和试验资金分配方式提供了强有力的理由。在计算方面,政府可以实施英国《独立审查》中提出的想法,授权一个专门机构不断评估政府的潜在投资并为其提供建议。为了支持人工智能科技初创企业,政策制定者可以改善其分拆政策,并支持运营良好的初创企业孵化器和奖学金。但也需要雄心勃勃的新政策来利用人工智能的科学机会。我们在下面分享四个想法。这些准则旨在广泛适用,但具体细节需要根据一国的具体情况加以调整,同时考虑到国家的优先事项、独特优势和体制环境。
1. Define the ‘Hilbert Problems’ for AI in Science 为科学中的人工智能定义“希尔伯特问题”
科学的进步取决于正确地解决问题。1900年,德国数学家大卫希尔伯特发表了23个未解决的问题,这些问题被证明对随后的世纪数学方向具有巨大的影响力。作为即将举行的国际活动的一部分,如巴黎的人工智能行动峰会,政策制定者,人工智能实验室和科学资助者可以向科学家和技术人员发出公开呼吁,以确定最重要的人工智能科学问题,并得到一个新的全球基金的支持,以推动这些问题的进展。提交的材料应该详细说明为什么这个问题很重要,为什么它适合现代人工智能系统,为什么它可能会被忽视,存在的数据瓶颈,以及如何评估近期的技术进步。
这些最好的想法可以成为新的科学竞赛的基础,科学家们在新的数据集、评估方法和竞争基准的支持下,通过人工智能来解决这些问题。这些可以建立在最近出现的评估人工智能模型科学能力的竞赛的基础上,并包括一个新的人工智能科学奥林匹克竞赛,以吸引来自世界各地的优秀年轻人才进入该领域。除了其直接影响外,人工智能科学“希尔伯特问题”倡议还可以为国际科学合作和资助提供一个受欢迎的焦点,并激励新一代跨学科科学家识别和追求人工智能形状的问题。
2. Make the world readable to scientists 让世界对科学家可读
大多数科学数据是未收集的,部分的,未经管理的或不可访问的,因此无法用于训练AI模型。对于远非统一的挑战,没有单一的政策回应。政策制定者和资助者需要将少量自上而下的举措与支持相结合,以扩大有希望的基层努力。应该建立一个新的人工智能科学数据观测站国际网络,以帮助实现这些目标。这些观测站可以获得长期支持,并负责运行快速的人工智能科学“数据盘点”,专家团队在优先学科和应用领域绘制数据状态。盘点可以识别现有的数据集,例如序列读取档案,其质量可以进一步提高,以及未开发或未充分利用的数据集,例如科学家目前无法获得的数十年实验融合数据或受限制性许可条件限制的领先生物多样性数据集。盘点还可能包括新的“数据愿望清单”。例如,我们的内部分析表明,在关键的环境研究领域,只有不到7%的论文使用人工智能。我们最近资助了气候变化人工智能,以确定数据集,如果可用或改进,可以消除一些瓶颈,以提高人工智能的使用。为了确保这种分析导致行动,政策制定者应该指定并授权组织负责处理数据盘点的结果。
这些观测站还可以确定创建新数据库的范围,包括确保充分考虑其长期存储、维护和激励措施。这可能包括新的数据库,以安全地存储目前被丢弃的战略性湿实验室实验的结果,并通过将这些实验结果的沉积作为公共研究资金的要求来补充。或者将更多的公共档案数字化,例如最近英国政府和自然历史博物馆合作将其自然科学收藏数字化,其中包括超过1.37亿件物品,从蝴蝶到豆类,跨越46亿年的历史。政策制定者还可以授权科学家使用LLM创建和改进自己的数据集,确保公共资助的研究在可能的情况下默认开放,以英国,美国和日本最近的例子为基础,包括通过预印服务器发布研究的授权。政策制定者可以寻求与行业和慈善机构共同资助最雄心勃勃的数据集计划。
3. Teach AI as the next scientific instrument 教AI成为下一个科学工具
在过去的半个世纪里,随着科学技术数量的增长,大多数科学家与它们的距离也越来越远。许多技术都是科学的产物,但受过如何有效开发和使用这些技术培训的科学家比例却越来越小。近期迫切需要的是为现有的科学家和研究领导者提供资金和激励,以大规模接受更短、更有战术性的人工智能培训计划和奖学金。政策制定者可以通过设定一个明确的目标来激励这些努力,即每个理科研究生都应该能够获得有关在科学中使用人工智能的入门课程,包括其领域中最重要的工具,就像今天经常教授的基本统计一样。所需培训的类型和深度将取决于个人的学科和个人资料,范围可以从关于如何可靠地使用LLM进行日常研究任务的基本入门课程,到关于如何根据科学数据微调AI模型的更高级课程,以及如何解决更复杂的挑战。比如评估他们用来测试模型性能的数据是否有意或无意地“泄露”到了用来训练模型的数据中。
这些计划可以建立在既定的例子上,例如剑桥大学的加速计划,该计划为博士和博士后研究人员提供人工智能方面的结构化培训,或者Carpentries提供的关于研究所需的编程,数据和计算技能的短期课程。
决策者还需要迅速采取行动,制定长期方案,以确保下一代科学家拥有所需的技能。这意味着在各级科学教育中将人工智能培训和技能发展纳入主流并深化。中学理科学生需要尽早接触人工智能的影响,而大学生需要获得新型的跨学科人工智能科学学位,例如我们与非洲数学科学研究所合作开发的泛非洲人工智能科学硕士项目。专门的奖学金也可以提供帮助。例如,英国的BIG奖学金计划为高中生提供了出色的机会,重点关注那些在国际科学奥林匹克竞赛中表现出色,希望继续在领先的科学中心学习但缺乏资金的学生。
4. Build evidence and experiment with new ways of organising science 用组织科学的新方法建立证据和实验
科学家对人工智能的使用呈指数级增长,但政策制定者几乎没有证据表明谁做得最好,他们是如何做的,以及阻碍其他人的障碍。这种证据差距阻碍了确定最佳的人工智能科学政策想法并有效地瞄准它们。从历史上看,这些问题的答案往往来自经济学或创新研究等领域,但结果可能需要数年才能得出。我们使用引文数据分析、访谈和社区参与来了解科学家如何使用我们的人工智能模型。政府也在投资这些元科学能力,以改善他们资助、分享和评估科学研究的方式。在这一势头的基础上,科学家们可以肩负起快速评估基础政策问题的使命,包括:对科学研究最有影响力的人工智能在哪里,以及哪些类型的组织、人才、数据集和评估正在实现这一目标?科学家在多大程度上使用和微调LLM与更专业的AI模型,以及他们如何访问这些模型?人工智能在多大程度上实际上有利于或损害科学创造力、可靠性、环境或其他领域?人工智能如何影响科学家对自己工作的看法,以及哪些技能、知识差距或其他障碍阻碍了他们更广泛地使用人工智能?
除了为强有力的政策反应提供信息外,这一证据基础还将为政策制定者提供他们所需的远见,以预测人工智能将如何改变科学和社会,类似于他们通过不断增长的人工智能安全研究所网络为人工智能安全风险开发的远见。这些证据还将突显出重新构想人工智能时代科学所需的激励措施和机构的机会。特别是,科学家和政策制定者只探索了组织和执行科学研究的一小部分可能方法。人工智能的兴起提供了一个受欢迎的强制功能,以试验新类型的机构,从那些更自由地追求高风险,高回报研究的机构,到旨在解决特定瓶颈的重点研究组织。从气候或粮食安全等优先领域的新型跨学科人工智能科学研究所,到我们尚未想象到的全新机构。那些实验速度更快的人将从新的发现黄金时代中受益最多。
以上内容全部使用机器翻译,如果存在错误,请在评论区留言。欢迎一起学习交流!