药王孙思邈曾有言:“人命至重,有贵千金,一方济之,德逾于此”,药方的重要性可见一斑。但由于人体分子系统的复杂性,以及药品研发的过程充满了不确定性,因此,业界一直流传着“双十定律”的说法,即成功研发出一款新药,需要耗费超过10亿美元的资金和十多年的时间。不过,随着AI技术的快速发展,这个定律有望被打破。
近日,阿里云与深势科技联合推出创新的Bohrium®科研云平台和Hermite®药物计算设计平台,实现了分子模拟技术的飞跃。这两项先进的工业设计与仿真基础设施成果通过AI技术赋能科学研究和工业研发,我不仅大幅缩短了药物研发周期,降低了成本,还显著提高了研发成功率,为生物医药行业带来了前所未有的变革,这是AI for Science领域的重大突破。
科学计算任务对资源的需求具有极致弹性,峰值资源需求可达数十万核,需要在亚分钟级甚至秒级完成计算和数据资源的准备。
其次,AI for Science全链路涉及多种异构算力和数据池化的需求,需要充分共享数据以满足不同环节的算力需求;此外,科学计算对性能要求极高,需要对热点小文件实现低延迟加速,并且在高频弹性任务中实现数据的极速加载和统一的数据集管理;最后,作为面向大量知名高校和科研学者的平台,深势科技还需要对终端客户的数据Quota进行精准的配额管理,以控制数据量。
深势科技基于阿里云提供的一套融合技术方案解决这些问题并不断迭代演进,经过多年演进,将科学计算的数据基础设施做了充分的分层设计:
● 数据缓存层:这一层作为近计算端高速数据层,用于满足超高速的数据读取需求。这一层使用阿里云 Fluid 将集群内的高速存储介质抽象成逻辑缓存,进行模型管理和加速加载,同时采用镜像缓存实现镜像的快速拉取,实现Pod在秒级快速拉起。
● 共享加速层:这一层作为共享加速层,用于满足多集群共享数据读写的需求。这一层采用阿里云通用型 NAS 方案,解决科学计算场景大量小文件热点读取的性能问题,同时提供弹性可分配的数据存储空间。
● 长期存储层:这一层作为全量数据存储层,用于满足模型文件、CKPT、数据集的长期低成本存储。这一层采用阿里云多级OSS对象存储方案,借助阿里云的全球一张网,实现一套 Bucket 数据跨地域加载传输的需求。
在实际应用中,深势科技的平台帮助用户从繁重的重复实验中脱离出来,将原本需要数年才能完成的药物筛选和优化工作,用更大规模的算力协同调度缩短至几个月甚至几周,极大地加速了新药的研发进程。同时,研发成本也得到了有效控制,相较于传统研发模式,节省了大量资金投入,为药物研发企业带来了可观的经济效益。
图:阿里云存储解决方案架构图
此外,阿里云还提供了多租户成本控制的能力,帮助深势科技实现了对终端客户数据Quota的精准管理,有效控制了数据量和成本。除了在药物研发领域的合作,阿里云还具备其他多项相关技术能力,能够为不同行业的客户提供全面的解决方案。
例如,在能源领域,通过云和AI技术可以帮助进行能源消耗预测和优化,提高能源利用效率;在材料科学领域,高性能算力加速新材料的研发和性能模拟;在信息科学与工程研究方面,大数据处理和分析能力为研究提供强有力的支持。
对于此次合作,深势科技技术架构师李祥兵表示:“阿里云云原生计算服务结合云原生存储服务,实现了业务发展过程中对资源的充分有效利用,有效降低了业务上线过程的研发成本和管理成本,实现了业务敏捷高效。”阿里云工程师也认为,与深势科技的合作是一次成功的实践,充分展示了阿里云技术在AI for Science领域的强大实力和广阔应用前景。未来,双方将继续深化合作,共同探索更多创新技术和应用场景,为推动科学研究和工业研发的发展做出更大贡献。
在实际应用中,深势科技的平台在多个能源、药物研发等项目中得到了验证。例如,在与某创新实验室的合作中,运用深势科技的勒贝格平台科研协作效率提升30%,最大资源管理规模超10万核,极大提升开发效率,除此之外深势科技也与业内超过50家生物医药、新能源和新材料企业进行合作,共同提升药物研发、新材料研发的开发效率。这些实践数据充分证明了深势科技与阿里云合作的成果为科研领域树立了新的标杆。