标签:
导读 单细胞多组学技术的指数级进步导致了大型且多样化的多组学数据集的积累。然而,单细胞蛋白质组学和转录组学(或表观基因组学)数据的整合对现
单细胞多组学技术的指数级进步导致了大型且多样化的多组学数据集的积累。然而,单细胞蛋白质组学和转录组学(或表观基因组学)数据的整合对现有方法提出了重大挑战。一些基于Transformer的模型,例如Geneformer,已经显着改变了单细胞转录组分析的范式。然而,这些方法对计算资源提出了很高的要求。
为了应对这些挑战,中国科学院武汉植物园的研究人员开发了一种基于Transformer的方法,称为scmFormer,使用多任务Transformer集成大规模单细胞蛋白质组和转录组数据。该研究题为“scmFormerIntegratesLarge‐ScaleSingle‐CellProteomicsandTranscriptomicsDatabyMulti‐TaskTransformer”,发表在《AdvancedScience》上。
研究人员对该方法进行了综合评估并进行了案例研究,结果表明,scmFormer在利用有限的计算机资源协调细胞类型和更精细细胞水平的大规模单细胞组学和蛋白质组学数据集方面表现出了卓越的能力。
此外,scmFormer具有集成多个单细胞配对多模式数据集的能力,从而带来降低高成本和提高生物学洞察力的双重好处。
此外,scmFormer表现出出色的能力,可以消除不同组学模式之间的技术差异,同时保留数据中固有的潜在生物信息,涵盖细胞类型和实验条件。
scmFormer用于集成两个具有148万个细胞的COVID-19数据集的应用进一步证明了scmFormer在普通笔记本电脑上处理大型数据集的明显优势。