本报电(华轩)近日,在第二十届国际基因组学大会上,华大生命科学研究院与之江实验室联合发布了百亿参数人类基因组通用基础模型——Genos。这一针对人类基因组深度优化的基因组基础模型,可支持高达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别。
Genos的推出标志着基因组研究从“读出”碱基序列迈向“读懂”生命底层逻辑,有望促进临床疾病诊断、个人基因组解读及前沿科学研究。
要读懂“生命之书”,首先需要一本完整的“字典”
基因组学领域内的现有模型大多基于一到两个参考基因组进行训练,难以捕捉人类丰富的遗传多样性。而Genos则系统整合了人类泛基因组参考联盟、人类基因组结构变异图谱计划等多个公开资源,汇聚了全球范围内636个“端粒到端粒”级别的高质量人类基因组作为训练数据。这些数据覆盖了全球不同人群,旨在从源头减少数据偏见,更全面地代表人类遗传多样性。
基因组的语言极其复杂,一个微小的单碱基突变,其影响可能由百万碱基之外的“遥远”调控元件决定。这要求模型既要有“显微镜”般的单碱基精度,又要有“广角镜”般的百万级超长上下文理解能力。
如同阅读一部鸿篇巨著,既能一字不差地记住细节,又能洞悉全局的宏大叙事。Genos通过混合专家(MoE)架构,助力解决这一难题。MoE架构如同一个拥有众多顶尖专家的智慧团队,面对任务时,总能精准调度最相关的几位专家协同处理,而不是调动所有人全部待命。这一“按需激活”的机制,让Genos在拥有百亿级参数的庞大知识总量的同时,推理成本和资源消耗却远低于同等规模的模型,真正实现了“既强大,又好用”。
为了全面验证模型的性能,研发团队进行了一系列测试。在基因组元件识别、远程调控预测、突变致病性预测等经典评测任务里,Genos在超过一半的任务里比所有现有模型都表现更好,而且长序列评测任务里,如突变热点识别和族群分类上,Genos的表现远超同类模型,展现了其强大的上下文分析能力,有效破译基因组中的“暗物质”。
Genos在直接面向临床应用的致病性突变解读任务中,实现了较高的准确性,当结合021科学基础模型后,准确率更高,为临床诊断提供了全新的高效工具。综合多项评测结果,Genos在各项核心任务中的表现优越,证明了其全面的能力。
“共有、共为、共享”,让前沿科技触手可及
一个模型无论多么强大,如果不能被方便地部署和使用,其价值便大打折扣。Genos是一个可以走向临床、走向个人、走向每一个实验室的“实践先锋”,为下游应用创新提供了坚实的地基。
今年是人类基因组草图绘制完成25周年。“共有、共为、共享”,既是人类基因组计划的精神传承,也是Genos的核心理念。
发布会上,华大生命科学研究院宣布,Genos模型将全面开源开放,且同时提供12亿和100亿参数两个版本,满足不同应用场景的需求。目前,两个版本的模型权重、架构细节与完整训练流程,均已在GitHub、Hugging Face、魔搭等平台公开发布,供全球开发者和科研人员自由使用。同时,在之江实验室的开放平台Zero2X也已发布。
另外,考虑到并非所有使用者都拥有强大的算力资源,该模型已被深度整合进DCS Cloud云平台。用户无需进行复杂的安装配置,即可一键调用Genos,平台为每个账户提供了高达10万次的免费推理服务,极大地降低了基因组智能分析的门槛。
目前,在科研领域,Genos模型通过与DCS cloud结合,能仅凭DNA序列“秒级”预测RNA表达谱,将过去数周甚至数月才能完成的生物信息分析流程极大提速。此外,Genos模型也已整合进生命科学数据库CNGBdb,可帮助用户精准预测细胞表达量,高效筛选和验证关键候选基因,大幅加速科研发现。




甘公网安备 62010502000333