语音合成 | 大装置帮助中心
跳到主要内容

语音合成

接口描述(Description)

基于给定的文字信息,生成音频(一次性文本输入,一次性音频输出)。


请求地址(Request URL)

[POST] https://api.sensenova.cn/v1/audio/speech

请求头(Request Header)

无特殊Header,请参考接口鉴权


请求体(Request Body)

名称类型必须默认值可选值描述
modelstring-参考模型清单模型ID
inputstring--用于生成音频的文本信息
voicestring-枚举值音色ID,表示使用创建好的精品音色
speedfloat1.0[0.5,2.0]请求合成音频的语速;其中 1.0 是正常语速,数字越小语速越慢,数字越大语速越快
response_formatstringmp3["pcm", "wav", "mp3", "aac"]输出音频文件的编码格式
  • voice 可选音色如下:
ID名称类别支持语言
cheerfulvoice-general-male-cn通用-中文-男阳光男声中文及中英文混合
sweetvoice-general-female-cn通用-中文-女飒爽女声中文及中英文混合
neutralvoice-general-male-en通用-英文-男美语男声英文
neutralvoice-general-female-en通用-英文-女美语女声英文

请求示例(Request Example)

curl --request POST "https://api.sensenova.cn/v1/audio/speech" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $API_TOKEN" \
-d '{
"model": "string",
"input": "string",
"voice": "string",
"speed": float,
"response_format": "string"
}'

响应示例(Response Example)

返回与输入参数response_format指定格式相同的音频文件,单声道,采样率为16000Hz 。

  • mp3,有损压缩格式,默认输出,不支持流式传输;
  • acc,有损压缩格式,采用ADTS格式编码,支持流式传输;
  • wav,无损压缩格式,不支持流式传输,标准格式解码;
  • pcm,无损压缩格式,支持流式传输,解码参数为:
    • 采样率:16000
    • 通道数:1
    • 采样位数:小端模式16位有符号整数 采样