产品介绍
高性能AI算力池

高性能AI算力池是依托商汤多年研发与运营超大规模AI超级计算集群经验,打造的高性能、弹性扩展、安全稳定、智能调度的AI算力平台,大幅提高算力资源的利用率及AI应用的效率,助力AI业务增长。

产品优势
专为AI应用打造的高效率、低成本和规模化的算力平台
  • 01弹性扩展
  • 02高性能
  • 03开发友好
  • 04低成本
弹性扩展
01弹性扩展

分布式部署,通过 RDMA(IB/RoCE)或 TCP/IP 网络连接各个节点,实现资源池弹性扩展

高性能
02高性能

极致的硬件配置和最佳的调度优化,带给AI模型训练最有效的算力供应

开发友好
03开发友好

基于云原生技术,降低AI开发者的使用门槛;轻松解决 AI 开发人员面临的训练模型中 GPU/CPU 配比和多机多卡模型拆分等问题

低成本
04低成本

多种弹性调度策略,按需使用算力资源,降低AI应用交付成本

弹性扩展
01
弹性扩展

分布式部署,通过 RDMA(IB/RoCE)或 TCP/IP 网络连接各个节点,实现资源池弹性扩展

高性能
02
高性能

极致的硬件配置和最佳的调度优化,带给AI模型训练最有效的算力供应

开发友好
03
开发友好

基于云原生技术,降低AI开发者的使用门槛;轻松解决 AI 开发人员面临的训练模型中 GPU/CPU 配比和多机多卡模型拆分等问题

低成本
04
低成本

多种弹性调度策略,按需使用算力资源,降低AI应用交付成本

01
/
04
产品功能
支持TensorFlow、PyTorch训练框架、MPI方式的单机和分布式训练任务,多种智能调度策略,丰富的可观测性
  • 多种框架的单机和分布式任务的生命周期管理
    多种框架的单机和分布式任务的生命周期管理

    支持TensorFlow、PyTorch训练框架、MPI方式的单机和分布式训练任务以及各种角色的配置,支持按需创建训练任务以及管理任务各种状态操作;提供多种调度策略满足各种任务的高效低成本诉求。

  • 高性能网络
    高性能网络

    通过 2*200Gbps的RDMA或 TCP/IP 网络连接各个节点,实现资源池弹性扩展。

  • 智能调度策略
    智能调度策略

    支持AI场景下的Gang、组调度、任务优先级、GPU拓扑感知、Quota租借、任务热迁移等多种智能调度策略。

  • 任务的可观测性
    任务的可观测性

    提供提供多种任务资源、业务指标的监控和日志服务,满足算法工程师在调试过程中的运维诉求。

应用场景
基于深度学习、计算机视觉应用模型、AI药物研究等模型训练场景
  • 01AI训练
  • 02科学计算
AI训练
AI训练
AI训练使用高性能的GPU、高速网络和并行文件存储,支持大规模、高并发的任务创建和规模,满足算法工程对各类算力的诉求

提供了Tensorflow、Pytorch、Horovod等多种AI训练框架的单机与多机分布式训练能力,实现了AI训练业务从研发、调试到上线运行、任务状态与日志服务等全流程服务

AI训练场景的高性能和高可扩展性需求,加速模型迭代,赋能AI业务落地

科学计算
科学计算
科学计算领域,譬如新药研发使用高性能算力池可大大减小工作量,帮助研发人员实现大量小分子库的快速并发处理

基于计算节点的通用算力、内存和异构算力池化技术,提供了批处理、反碎片化等多种细粒度的动态灵活调度技术和租户级资源隔离能力

01AI训练
02科学计算
AI训练
AI训练
AI训练使用高性能的GPU、高速网络和并行文件存储,支持大规模、高并发的任务创建和规模,满足算法工程对各类算力的诉求

提供了Tensorflow、Pytorch、Horovod等多种AI训练框架的单机与多机分布式训练能力,实现了AI训练业务从研发、调试到上线运行、任务状态与日志服务等全流程服务

AI训练场景的高性能和高可扩展性需求,加速模型迭代,赋能AI业务落地

科学计算
科学计算
科学计算领域,譬如新药研发使用高性能算力池可大大减小工作量,帮助研发人员实现大量小分子库的快速并发处理

基于计算节点的通用算力、内存和异构算力池化技术,提供了批处理、反碎片化等多种细粒度的动态灵活调度技术和租户级资源隔离能力

全线产品持续上新,推诚相与,合作共赢

专业的AI解决方案、先进的AI产品助力您的业务实现新的突破