语音快速复刻
接口描述(Description)
基于给定的文字信息和示例音频,生成音频(一次性文本输入,一次性音频输出)。
请求地址(Request URL)
[POST] https://api.sensenova.cn/v1/audio/speech_clone
请求头(Request Header)
无特殊Header,请参考接口鉴权
请求体(Request Body)
名称 | 类型 | 必须 | 默认值 | 可选值 | 描述 |
---|---|---|---|---|---|
model | string | 是 | - | 参考模型清单 | 模型ID |
input | string | 是 | - | - | 用于生成音频的文本信息 |
voice_file | string | 是 | - | - | 音频文件 ID,通过文件管理接口上传的AUDIO_TTS_1类型音频文件的file_id |
speed | float | 否 | 1.0 | [0.5,2.0] | 请求合成音频的语速;其中 1.0 是正常语速,数字越小语速越慢,数字越大语速越快 |
response_format | string | 否 | mp3 | ["pcm", "wav", "mp3", "aac"] | 输出音频文件的编码格式 |
备注
快速复刻短音频文件,上传时文件格式 scheme=AUDIO_TTS_1,用于合成的同时快速复制音色,不持久化形成音色 ID;用户传入格式支持 wav;文件大小小于等于1M;(16K 采样率 小端模式16位有符号整数 采样位数 wav 格式,1s 原音频对应是 32K 大小,20s 对应 640K);推荐用法:10s 左右的短音频,且必须有人声。
请求示例(Request Example)
curl --request POST "https://api.sensenova.cn/v1/audio/speech" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $API_TOKEN" \
-d '{
"model": "string",
"input": "string",
"voice_file": "string",
"speed": float,
"response_format": "string"
}'
响应示例(Response Example)
返回与输入参数response_format指定格式相同的音频文件,单声道,采样率为16000Hz 。
- mp3,有损压缩格式,默认输出,不支持流式传输;
- acc,有损压缩格式,采用ADTS格式编码,支持流式传输;
- wav,无损压缩格式,不支持流式传输,标准格式解码;
- pcm,无损压缩格式,支持流式传输,解码参数为:
- 采样率:16000
- 通道数:1
- 采样位数:小端模式16位有符号整数 采样