在最近与Calico Life Sciences合作的一项研究中,谷歌研究人员建立了一个“全基因组”机器学习模型来调节基因表达。在这个过程中,来自基因的信息被用来产生功能性蛋白质或核糖核酸。酵母。虽然这项工作的重点是酵母,但它可能适用于人类,因为它揭示了基因是如何作为一个系统一起工作的,这是一个核心且仅被部分理解的微生物问题。
正如该团队在技术论文和博客文章中解释的那样,酵母(一种单细胞生物)会发芽(即产生几乎遗传相同的后代)30次,然后变老并死亡。发芽会在强大的显微镜下可见的酵母细胞上产生“疤痕”,因此可以从细胞的外观来确定细胞的年龄。
利用这一点,Google Research的Ted Baltz和他的团队在Calico生产的酵母生长数据集上训练了一个模型,其中包含了200多种不同酵母菌株的实验结果。在每次实验中,菌株中的单个基因被激活,在90分钟内对6000个基因的表达水平进行了8次测量,总共进行了近2000万次个体测量。
谷歌研究人员的方法是将整个数据集建模为微分方程系统,使基因表达的变化率与所有基因表达水平的权重成正比。Baltz报告说,这项工作最终涉及5000多万条正则化途径,这为预测哪些基因将编码调控因子(即参与控制一个或多个其他基因表达的基因)提供了基础。
为了验证模型的预测,研究人员在包含10种新酵母菌株的验证数据集上进行了测试。他们报告说,十个预测中有三个被保留在实验中,包括一个科学家以前没有发现的基因。
巴尔茨说:“基于详细的实验,我们建立了一个全基因组模型来调控(酵母)中的基因表达,并通过实验验证了部分结果,从而使人们能够进一步研究鲜为人知的生物系统。“我们的模型可以在没有生物学先验知识的情况下识别这些,这表明这些(机器学习)技术可能会扩展到其他研究较少的领域或生物体。”
谷歌在人工智能和基因表达方面的工作是在一项研究发表后进行的,该研究描述了一个大规模的平行报告基因检测(MPRA),这是一个旨在研究脱氧核糖核酸的框架。研究人员声称,它可以用来创建人工智能模型,可以预测工业和生命科学应用中的基因调控。早期的一项工作提出了一个统一的人工智能架构来建模和解释染色质(真核细胞中脱氧核糖核酸和蛋白质的复合物)是如何控制基因调控的。
标签: