IT之家 10 月 10 日音书,IT之家从中山大学官方微信公众号获悉,10 月 9 日,中山大学医学院施莽教学团队与阿里云李兆融团队在《细胞》(Cell)杂志上发表论文,叙述了 180 个轶群、逾越 16 万种各人 RNA 病毒的发现,这是迄今收尾限制最大的 RNA 病毒策动,大幅彭胀了各人 RNA 病毒的各样性,该策动将东说念主工智能本事应用于病毒果决,发现了传统武艺未能发现的病毒“暗物资”,探索了病毒学策动的新旅途。
据先容,传统的病毒发现武艺包括病毒折柳和生命组学的生物信息学分析,高度依赖既有常识,靠近 RNA 病毒这种高度分化、种类宽广且容易变异的病毒识别后果低。该策动团队修复的 LucaProt 东说念主工智能算法大约对病毒和非病毒基因组序列深度学习,并在数据汇集自主判断病毒序列。
据IT之家了解,LucaProt 是一种大约深度学习的 Transformer 模子,在无边学习病毒和非病毒基因组序列后,不错自主造成一套对于病毒的判断标准,从而在无边的 RNA 测序数据汇集挖掘出病毒序列。在测试中,LucaProt 进展出极高的准确性和特异性,假阳性率为 0.014%,假阴性率为 1.72%。在与其他病毒挖掘器具的对比中,它也在惩处较长序列的方面展现出上风。
利用 LucaProt,策动团队对来自负家生物环境样本的 10,487 份 RNA 测序数据进行病毒挖掘,发现了逾越 51 万条病毒基因组,代表逾越 16 万个潜在病毒种及 180 个 RNA 病毒轶群(迥殊于门或纲的分类级别),使 RNA 病毒轶群数目扩容约 9 倍。其中 23 个轶群无法通过序列同源武艺识别,被称为病毒圈的“暗物资”。
在这项策动中,团队叙述了迄今最长的 RNA 病毒基因组,长度达到 47,250 个核苷酸;发现了超出以往解析的基因组结构,展现出 RNA 病毒基因组进化的天真性;识别到多种病毒功能卵白,迥殊是与细菌酌量的功能卵白,进一步标明还有更多类型的 RNA 噬菌体亟待探索。
策动指出,新发现的病毒散布在地球的各样生态环境中。总体上,落叶层、湿地、淡水和废水环境的病毒各样性最高。关联词,在南极底泥、深海热泉、活性污泥和盐碱滩等顶点环境中,RNA 病毒的各样性和品貌并不低,以致在深海热泉的高温环境中,仍有 RNA 病毒在活跃复制。
LucaProt 固然是一个荒谬为 RNA 病毒发现诡计的模子,但它同期会通了对卵白质序列和隐含结构信息识别的功能,也可用于卵白质功能的果决。在论文中,策动团队开源了 LucaProt 模子,并通过在线网站共享给各人科学家。