产品动态:新增沐曦C500加速卡、应用更新过程进度控制能力、训练监控指标丰富
查看详情弹性算力池 ECP
弹性算力池ECP(Elastic Compute Pool)是面向企业级客户AI大模型训练、推理场景的算力和AI作业管理平台,支持高性能异构算力管理,多团队任务管理,大规模作业智能调度,训练任务容错加速和模型灵活部署能力,提供模型训练、微调、部署最佳实践。提升各行业用户提升算力资源效能,加速AI工程落地,助力AI应用落地和产业智能升级。
产品动态:新增沐曦C500加速卡、应用更新过程进度控制能力、训练监控指标丰富
查看详情弹性算力池ECP(Elastic Compute Pool)是面向企业级客户AI大模型训练、推理场景的算力和AI作业管理平台,支持高性能异构算力管理,多团队任务管理,大规模作业智能调度,训练任务容错加速和模型灵活部署能力,提供模型训练、微调、部署最佳实践。提升各行业用户提升算力资源效能,加速AI工程落地,助力AI应用落地和产业智能升级。
多元算力支持,高效分配调度策略,极致算力利用,高可用模型部署
多种异构算力支持
资源闲置低
有效训练时间长
推理服务可用性强
支持高性能异构算力管理,训练任务容错加速和模型灵活部署能力
多种高性能CPU和GPU算力,搭配高性能 SSD存储,配备高吞吐低时延独立训练网络,RDMA数据网络,满足大模型的大算力要求
支持节点、集群、工作空间灵活分配,提供预付、按量多种资源使用方式,用户可根据需求灵活配置和分配资源
提供CheckPoint读写加速,通信优化,训练环境检测,任务健康检测,自动重试等多种训练优化能力,实现大规模高效长时稳定训练
丰富的健康检测手段,便捷的环境管理配置能力,可控的应用版本更新过程,多种服务暴露方案支持,灵活的弹性伸缩规则
为企业级用户提供模型训练加速,持续部署,算力和作业管理能力
多类型训练任务高性能、高效率,解放生产力
Pytorch、TensorFlow、SenseParrots多种训练框架
大规模训练加速,提升算力利用率
训练容错和故障定位,无值守长稳训练
云原生模型部署,提供安全、弹性、可靠推理服务
容器化无侵入的模型部署
弹性伸缩部署,兼顾服务可用性和算力消耗
持续部署平稳变更,保证服务可用性
灵活资源分配,智能调度策略,避免资源闲置
多团队资源共池管理,灵活划分集群分配
在线服务与离线任务共池混部
按优先级保证作业资源供给