由美国佐治亚大学食品安全中心的研究人员领导的一个科学小组开发了一种机器学习方法,可以更快地识别某些沙门氏菌暴发的动物来源。
在这项近期发表于《新发传染病》上的研究中,佐治亚大学食品安全中心助理教授Xiangyu Deng、博士后Shaokang Zhang及其合作者使用了1000多个基因组来预测鼠伤寒沙门氏菌的动物来源,特别是家畜。
根据食源性疾病暴发监测系统,2009—2015年,美国报告了近3000起食源性疾病暴发。Deng介绍道,“其中900例或者说30%是由不同血清型的沙门氏菌引起的,包括鼠伤寒。”
“我们在2018年至少暴发过三次鼠伤寒或其近似变种。这些暴发与鸡肉、鸡肉沙拉和干椰子有关。”他说,“尽管有超过2600种血清型的沙门氏菌,而鼠伤寒只是其中之一,但自20世纪60年代以来,暴发的与报告给美国国家监测部门有关的沙门氏菌分离株,大约1/4是鼠伤寒。”
研究人员训练了“机器”,这是一种称为“随机森林”的算法,具有1300多种已知来源的鼠伤寒沙门氏菌基因组。培训结束后,“机器”学会了如何预测鼠伤寒沙门氏菌基因组的某些动物来源。
在这项研究中,研究人员使用了来自3个主要监测项目的鼠伤寒沙门氏菌基因组:疾病预防控制中心(CDC)的PulseNet网络;食品药品监督管理局(FDA)在美国、欧洲、南美洲、亚洲和非洲的GenomeTrakr数据库;FDA国家抗菌药物耐药监测系统的零售肉类分离物。
“有了这么多基因组,机器学习是处理所有这些数据的自然选择。”Deng说道。
研究人员使用这一大量的鼠伤寒基因组作为训练集来构建分类器。分类器通过询问其基因组的数千个遗传特征来预测鼠伤寒分离物的来源。
总体而言,该系统预测鼠伤寒沙门氏菌的动物来源,准确率为83%。其在预测家禽和猪源方面表现最佳,其次是牛和野鸟源。它还能检测自己的预测是否精确。Deng表示,“当预测精确时,机器准确率约为92%。”
“我们回顾性分析了1998—2013年美国发生的8起主要人畜共患病暴发事件,分类器将其中7个都归因于正确的牲畜来源。”他说。
但他表示,这个工具有局限性——它不能预测海产品的来源,并且难以预测“在不同的动物中跳跃”的沙门氏菌菌株。
“我称这种方法是一种概念验证。随着不同来源的更多基因组变得可用,它也会越来越好。”Deng说。
一位来自FDA的副主任Frank Yiannas称,全机基因组序列的机器学习进入“智能食品安全和流行病学的新时代”。
对于普通人来说,这个项目的成功意味着鼠伤寒沙门氏菌的菌株可以更快地追溯到源头。确定导致食源性疾病暴发的原因正是阻止和预防疾病的关键。
“使用我们的方法,研究人员可以更好地将同一类暴发的病例联系起来,并把食品或食品加工环境中的菌株与病人隔离开来。”Deng说道,“这将使研究人员更有信心找到暴发背后的特定来源。”