近日,得一微电子(YEESTOR)发布集成AI-MemoryX技术的显存扩展解决方案。该方案依托自研存储控制芯片和AI存储系统级创新,显著提升单机的显存容量,让32B、70B、110B、671B等DeepSeek系列大模型实现单机微调训练,为AI大模型的微调训练提供功能强大且经济实惠的解决方案。
得一微电子及相关合作伙伴将提供完整的微调训练机解决方案,助力众多行业拓展智能应用边界,在产业竞争中占据先机。
低成本实现显存扩展,解锁百倍大模型微调训练提升
训练和推理对GPU显存的需求存在显著差异。对于同一尺寸的模型,训练所需的显存通常是推理的20倍以上。目前市场上,训推一体机在支持大模型微调训练方面仍面临显存容量的挑战,通常只能支持7B、14B等大模型的微调训练,难以支持110B、70B、32B等更大模型的微调训练。
得一微发布的AI-MemoryX显存扩展卡,将促进训推一体机能够支持超大尺寸大模型的微调训练,帮助客户支持高达110B(甚至671B)规模的训练任务。同时,AI-MemoryX技术将原本需耗费数百上千万的硬件扩充成本,降低至数万元级别,大幅降低了超大模型训练的门槛。这将使得更多企业甚至个人都能够以有限的资源,高效开展大规模模型的训练与微调。
高效解决显存瓶颈,开启单机微调训练新方式
显存不足,一直是单机微调训练超大模型的最大障碍。当下受GPU技术以及商业模式的限制,单张GPU显存容量极为有限,中端显卡的显存容量大多在48GB到64GB之间。以DeepSeek 70B模型为例,微调训练所需的显存高达1TB到2TB,这意味着需要动用30多张显卡;而对于DeepSeek 671B模型,更是需要达到10TB到20TB的显存,对应300多张显卡。如此庞大的硬件需求,不仅成本高昂,还使得部署极为复杂,严重阻碍了大模型单机微调的普及。
得一微电子的AI-MemoryX技术通过其创新性的显存扩展方案,使单机显存容量从传统显卡的几十GB提升到10TB级别,大幅降低了微调训练对GPU数量的需求。得益于此,DeepSeek不同尺寸的大模型(如32B、70B、110B、671B等)仅需1到16张显卡,配合显存扩展技术,即可高效完成单机训练微调。该技术为大模型在各行业的应用推广提供了有力支持。
得一微电子推出的 AI-MemoryX 解决方案,是一个完整的微调训练机方案,涵盖大模型训练框架、显存扩展卡软件栈以及显存扩展卡X200系列,为大模型微调训练提供全方位的技术支持与赋能。
得一微AI-MemoryX技术特色,发掘微调的潜力和价值
监督微调SFT:小样本撬动大效能
华裔科学家、“AI教母”李飞飞团队等研究人员,仅用1000个样本对模型进行监督微调,并创新性地提出预算强制(budget forcing)技术,让s1-32B模型在多个基准测试中超越闭源模型OpenAI o1-preview,成为目前样本效率极高的推理模型。
s1-32B模型并非从零构建,而是基于预训练模型(阿里通义千问 Qwen2.5-32B - Instruct)进行监督微调。这一成果表明,当模型知识基础足够扎实时,少量高质量示例即可通过推理链激活其潜在推理能力,无需依赖海量数据,高效且实用。
思维链微调CoT:注入行业思维,提升推理
各行各业都有其独特的思维方式,而精心设计的推理链,不仅能助力模型精准理解问题,还能显著提升其推理的准确性和泛化能力。
DeepSeek通过蒸馏技术,将R1模型的思考能力传递给其他模型,让它们也具备R1级别的思考实力。企业开发者可以提供优质的行业问题与示范,引导模型自主深入思考,以微调为桥梁,将千行百业的人类专家的思维模式和思考过程融入大模型的推理链条中,使模型更契合行业特点和实际需求。
强化学习微调RFT:规则框架下的自我进化
每个行业都有每个行业需要解决的问题和方法。强化学习微调,相当于赋予AI一套复杂的规则与思考框架,使其在反复实践与推理中,逐步掌握解决问题的高效方法。这一训练方式依托微调数据集和测试数据集两大核心数据集。模型先通过微调数据集进行学习,再使用测试数据集验证推理能力,找出不足并针对性调整。通过这种持续迭代的自我训练与验证,模型推理能力不断攀升,最终在特定领域达到专业级水平,为专业应用场景提供强大支撑。
得一微电子,引领存算技术新潮流
得一微电子始终锚定存储控制、存算一体、存算互联领域的技术前沿,致力成为行业领先的芯片设计公司。公司面向企业级、车规级、工业级、消费级等全场景应用,提供量身定制的解决方案与服务。