随着数字化转型和业务创新不断深入,金融、制造和医疗等高度依赖信息技术的行业对基础设施层提出了更高要求。这些行业不仅需要满足传统应用对性能和稳定性的要求,还需要适应现代云原生应用程序的敏捷性需求,同时,希望在边缘计算场景中实现简单、统一的 IT 基础设施管理。因此,超融合解决方案成为了推动企业 IT 基础设施升级的重要力量。
根据IDC发布的《中国软件定义存储(SDS)及超融合存储系统(HCI)市场季度跟踪报告,2024 年第一季度》,超融合市场在 2024 年第一季度实现了 9.1% 的显著增长,并且在未来5年都将保持 4.4% 的年复合增长率。其中,中国超融合整体市场规模已经超过 27 亿人民币,青云在该市场软件供应商中位列前三。
近日,青云科技(qingcloud.com)发布了超融合解决方案云易捷 v5.0,青云科技云易捷产品经理曹振在发布会上分享了该产品的情况。
四大关键特性
云易捷的定位是专为中小算力规模打造轻量化私有云产品,通过“可靠、简单、智能”的产品特性,助力业务效率提升。可靠是指集群在线迁移/升级/扩容的能力,保证业务不中断;简单是指全流程可视化操作,操作简单便捷;智能即AI训推一体,可以同时提供训练和推理两种运行任务的支持。
从2019年至今,云易捷已经发布了16个版本,平均每3-4个月就会发布一个版本。曹振指出,青云希望通过这种快速迭代的方式,不断吸收来自客户和同事的反馈,持续快速的交付产品需求和行业场景需求,让产品更加贴近真实用户的使用情况。
此次发布的云易捷 v5.0具有四大关键特性:
l 多集群管理:将分布在不同地点/区域的云易捷数据中心进行统一化管理,实现对多个集群的集中监控和管理,降低运维复杂性和成本。
l 存储易运维:随着业务拓展和时间推移,在集群存储空间不足或磁盘损坏时,页面提供纵向扩容磁盘以及磁盘替换等能力,轻松完成存储场景的运维操作。
l Vmware迁移多方案:提供多种 VMware 资源迁移方式,VMware 纳管迁移、NFS 文件离线迁移、在线热迁移,可根据需求场景选择最合适的迁移工具。
l AI开发推理平台:基于云原生架构的一体化的大模型训推平台,提供企业级 AIOps 管理系统,集成计算能力、尖端模型和加速优化,简单快速地进行大模型训练和部署。
曹振表示,我们的愿景是希望让每个人都能装、用和管理。让 IT 管理变得如呼吸般自然流畅,让繁琐的IT管理成为过去式,让稳定与效率并驾齐驱,让用户拥有更多时间专注业务创新与价值创造。
三大场景力迭代
据介绍,云易捷v5.0主要适合三大场景
第一个场景是VMware国产化替换。
曹振指出,有这类替换需求的客户多是基于成本效益考量、技术创新的需求和自主安全可控的目标。在这个场景中,云易捷提供了五个替换方案:
一是纯虚拟化替换。云易捷可以提供纯IaaS虚拟化,加上青云自研的SDN网络,可以对标VMware的 VVS和VVEP两个产品套件。
二是超融合产品架构替换。云易捷在虚拟化基础上增加了高性能分布式块存储,可对标VMware的VVF产品套件。特别是青云全新SDS(软件定义存储)v5.0架构,可以达到百万级IOPS。
三是容器引擎。云易捷提供“VM+容器”两种资源,可以对标VMware“VVF+Tanzu”产品套件,满足客户微服务架构改造需求。
四是稳定升级到全栈私有云,对标的是VMware的VCF。曹振强调,虚拟化和超融合都是过渡性方案,最终目标是完成核心业务系统的替换,只有全栈私有云能承载核心业务系统,是最终替换的产品形态。
五是混合云,对标的也是VMware的VCF套件。
“无论哪种方案替换都绕不过一个核心需求——VMware虚拟机迁移。”曹振谈到,因此,青云在云易捷 v5.0中提供了三种迁移能力:
一是VMware纳管迁移,是将VMware集群的资源纳管到云易捷集群,并在纳管完成后提供迁移能力。只要网络互通就可以完成纳管,在页面上完成迁移操作。
二是NFS离线迁移,迁移工具可直接读取vNAS存储文件数据,通过NFS协议将文件平滑迁移到集群中。
“这两种方案都是免费的,但是在迁移过程中需要暂停业务。”曹振表示,“考虑到很多企业的业务场景不能中断,青云还提供了在线热迁移方案。”
在线热迁移是VMware虚拟机在不关机或者业务不停机的情况下,能够将虚拟机迁移到云易捷平台里。整机迁移方案基于块级别的CDP技术,在磁盘卷的驱动层面上能实时捕捉生产环境上每个块的改动,完成捕捉、读写、存放、复制等操作,进而实现整个热迁移。
除了迁移能力,云易捷v5.0还增强了角色权限、配额管理、安装部署优化、HTTPS一键改造、虚拟机快照和大页内存等功能。
第二个场景是人工智能。
当前人工智能应用已经深入到各个行业,如金融行业有反欺诈、智能理赔、智能保顾等应用;医疗行业有药物研发、用药提醒、智能导诊等应用。与此同时,底层IT系统也在向人工智能化改造迈进。
与IT大厂构建基础大模型、行业大模型不同,青云更擅长的是调用大模型服务,帮助企业基于大模型做AI类型的应用。
曹振表示,青云的企业愿景“云之基石,自由计算”,青云基于服务好AI应用的前提条件下,推出了AI开发推理平台。
据悉,该平台除了常见的模型部署、任务调度、训练任务等可视化的管理外,还具备以下几个核心能力:
一是多元基础设施整合。云易捷提供异构算力的统一管理,支持主流的英伟达、国产GPU/NPU等算力设备。支持多样化存储服务的对接,包括对象存储、第三方并行文件存储等;自动采集各类任务的运行监控和日志数据,如节点负载、GPU利用率、功耗等情况,并自动计算综合功耗,评估当前任务资源使用情况。
二是AI数据资产管理。企业AI数据资产中的数据集、模型、算法、镜像等在云易捷AI开发推理平台上都能进行统一管理,并通过访问权限控制,保证数据访问的安全性。
三是AI服务中台。通过内置Notebook和VsCode,以及pySpark在线IDE环境,提供交互式建模和数据分析能力。通过内置成熟的AI训练和推理的框架,加速AI应用落地。
第三个场景是边缘计算。边缘计算场景普遍存在异构设备集群纳管困难、资源调度和管理复杂、缺乏统一的管理平台、网络稳定性无法保障的情况。
针对边缘计算四大难题,云易捷提供了多集群管理的组件。它可以将分布在不同的地点、区域的数据中心进行统一化管理,并通过中央控制集群,实现对多个集群的集中监控和管理,降低整个运维的复杂性和成本。该功能有三大亮点:
一是跨区域的管理。只要网络能够触达,可以不限区域、不限地点、不限版本、不限架构,完成多个数据中心集群的统一管理。
二是降低资源开销。多集群组件是跑在管理节点上的进程服务,而不是创建一定规格虚拟机来部署的管理服务。所以对CPU、内存、存储等资源的消耗基本上可以忽略不计。与同类厂商的方案对比,云易捷对资源的消耗是最低的。
三是不限版本、不限架构,只要网络能互通,都可以构建集群的统一管理,避免了异构管理的复杂性。
“此外,总部作为管控端,可以将更新完成后的镜像自定义,让它在闲时自动下发到每一个边缘集群,从而有效避免网络延迟的问题,避免需要实时更新、拉取镜像,导致网络负载异常高的现象。”曹振指出,“而且,整个多集群管理组件的部署是分钟级的。从点击安装开始,到最终用户看到的管理组件页面,在一分钟内就能完成,部署效率极高。”
除了对运维管理能力有提升之外,云易捷针对边缘集群的存储也进行了简化和优化,包括纵向易扩容、磁盘易替换、缓存易变更、存储全升级。
为客户提升基础设施能力,加速业务创新
目前云易捷的客户已经覆盖金融保险、教育、工业智能、医院、大健康、能源矿产等行业。以半导体行业某集成电路厂家为例。该厂家是世界领先的集成电路晶圆代工企业之一,中国大陆集成电路制造业的领导者。随着新一轮科技革命和产业变革到来,对于芯片产业的重视和发展成为全球共识,该厂家对于底层IT能力建设也提出了新的要求:希望进行数字化IT能力的建设、提升运维管理效果、实现国产化替换。该厂商采用青云云易捷解决方案,构建了超融合云化平台,为数据安全和高可用提供了保障,实现了跨域统一管理,加速了云原生应用创新。通过这一系列举措,该厂商提升了基础设施能力,降低了运维成本,增强了数据安全和业务连续性,加速了业务创新。
曹振强调,针对已经交付的客户集群,青云都会免费提供版本升级的能力,让所有老版本客户都能及时享受产品优化的体验,让它底层运行更稳定,管理起来更简单。而且这个升级是无感进行的,整个升级过程都可以做到无人值守。
在会上,曹振还透露了云易捷未来的路线图:今年12月将推出v5.1版本,引入软件定义存储5.0架构,并升级告警和巡检功能升级,同时将陆续集中在AI异构算力和多存储的兼容性优化上更新、对AI推理场景进行升级,整合RAG管理、向量数据库和知识图谱,提升AI应用的使用体验等,进一步增强产品竞争力。