人工智能是科学技术中发展最快的领域之一。它不仅是一个自己的领域,也是一个强大的工具,有助于拓展基于计算机的学习功能。当应用于科学技术研究时,它可能会改变科学家进行实验的方式。
例如,在天文学中,产生的大量数据需要一种新的范式方法,人工智能被用来在包含数百万颗恒星的望远镜图像中搜索星系团。在天平的另一端,它也被用于生物化学和生物物理研究,以了解复杂的微观过程。
大型国际实验机构的科学家也热衷于利用AI和机器学习来提升研究成果。目前,中子和X射线仪器采集的数据量呈指数级增长,但实际上只有一小部分数据得到了正确分析。一方面,人工智能具有改进测量策略的潜力;另一方面,它可以帮助科学家快速识别数据中的关键特征。
数据挑战
随着人工智能研究能力和范围的增加,大型组织在生产、处理、加工和充分利用其数据方面面临的挑战也在增加。技术进步通常会导致生成越来越复杂的数据,这使得提取科学观点的任务更加困难。
来访的科学家经常在主要设施中进行基于中子和X射线散射的研究。他们来自世界各地,使用世界一流的仪器进行实验。这些外部科学家从负责仪器的内部中子或x光专家那里获得了宝贵的帮助,以建立和进行实验并解释获得的数据。然而,这些实验会产生大量的原始数据,其中许多可能无法分析。
人工智能的联合使用
应ILL、欧洲同步辐射装置(ESRF)和英国科学技术委员会(STFC)的联合邀请,来自世界各地的专家齐聚法国格勒诺布尔的EPN科学园,共同探讨AI潜在的机器学习能力,以应对与光子和中子科学相关的独特挑战。
研讨会吸引了全球关注,其最大容量来自使用中子、X射线和子的主要研究机构的150多名参与者,包括钻石光源、ISIS中子和子源、橡树岭国家实验室(ORNL)和上海同步辐射装置,当然还有ESRF和ILL。最重要的是,来自世界各地的近2600人连接到实时流。热烈讨论,深入探讨当前在探索AI潜在应用方面的见解。
独特的环境
尽管在任何科学领域使用人工智能和机器学习的好处似乎显而易见,但像ILL这样的设施带来了许多独特的挑战。尤其是:
可用数据量通常不足。可用数据是具有必要元数据的数据,因此AI可以建立联系并得出结论。它还涵盖了具有已知结论的过去数据——因为这些数据可以帮助我们训练AI,这样我们就可以识别这些数据集的意义。例如,知道样本的结构和最佳设置是为了图像,这有助于我们训练人工智能来识别其中的特征。
直接在仪器上生成数据非常昂贵且耗时,这限制了开发基于人工智能的方法的可用资源。
包含所有可能的实验条件(如温度、压力、样品成分和方向)的清晰信息的元数据通常会丢失或不完整,这限制了使用数据集进行神经网络训练的可能性。
由于上述原因,大多数AI训练都是用模拟数据进行的,因此拥有一个可靠的物理系统模型是非常重要的。
在ILL,我们已经在探索有助于最大化中子潜能和增强科学理解的技术。ILL是首批为其科学用户实施DOI的科学用户设施之一。它在为科学数据的处理和访问提供新标准方面处于领先地位。我们正在利用人工智能等数字技术的进步来改善科学成果的处理和可用性,并开发世界领先的软件解决方案,特别是数据的数字对象标识符的管理,以确保从生产到生产的科学成果的可追溯性发布。
我们最初选择如何使用AI进行中子散射的实验技术是小角度中子散射(SANS),可以用于从生物分子到晶体材料的软硬物质的深度探测。这项技术已被用于ILL的许多仪器,包括D22,除其他外,该技术已被用于旨在增强我们对与二型糖尿病相关的分子如何发展或探索蚕的潜力的理解的实验。释放伤口敷料的蛋白质。
为了通过让科学家更容易进行研究来加快实验并使访问民主化,我们已经开始创建神经网络的原型,它可以识别样本结构并预测最佳的测量设置。
该系统已经显示出良好的预测能力,现在有必要将网络知识扩展到更复杂的结构。通过进一步开发这个程序和其他类似的技术,我们可以使用户在不久的将来摆脱一些最重复和繁琐的任务。
标签: