快速部署Llama3-8B-Instruct | 大装置帮助中心
跳到主要内容

快速部署Llama3-8B-Instruct

创建推理服务

如下图所示,录入推理实例名称、选择地域及可用区。
模型标识选择:公开模型->llama-3-8b-instruct->master;
推理镜像选择:官方镜像->cuda-rt-v2->v0.0.27_20240910T074801Z_bdb242f9e;
高级配置:

 "framework": /br{
    "commands": [
      "sh",
      "-c",
      " /opt/etc/monorepo/prod/studio/ams/v2/engine/tgi/qwen2/qwen2 --model={{ .MODEL_PATH_PREFIX }} --port 18001"
    ],
    "envs": [
      {
        "name": "NCCL_DEBUG",
        "value": "WARN"
      }
    ],
    "sidecar": {
      "pool_size": 1,
      "pool_wait": 100,
      "load_threshold": 0.999
    }
  }

工作空间:选择提前预创建的工作空间,具体创建流程可参考:弹性计算集群AEC2->工作空间管理。
计算集群:选择工作空间已绑定的计算集群;
单副本规格:按需选择算力资源及规格,llama3-8B-instruct模型推荐算力规格为:2NVIDIA A100-80G-SXM4/2*NVIDIA A800-80G-SXM4。
副本数量:按需选择。

其他配置信息中,资源组、计费账户以及推理服务名称,按需配置即可。 创建推理服务1 创建推理服务2

注:因模型部署目前的主要收费项目为底层使用的算力资源,所以模型部署的相关收费订单都在算力资源上。