语音快速复刻 | 大装置帮助中心
跳到主要内容

语音快速复刻

接口描述(Description)

基于给定的文字信息和示例音频,生成音频(一次性文本输入,一次性音频输出)。


请求地址(Request URL)

[POST] https://api.sensenova.cn/v1/audio/speech_clone

请求头(Request Header)

无特殊Header,请参考接口鉴权


请求体(Request Body)

名称类型必须默认值可选值描述
modelstring-参考模型清单模型ID
inputstring--用于生成音频的文本信息
voice_filestring--音频文件 ID,通过文件管理接口上传的AUDIO_TTS_1类型音频文件的file_id
speedfloat1.0[0.5,2.0]请求合成音频的语速;其中 1.0 是正常语速,数字越小语速越慢,数字越大语速越快
response_formatstringmp3["pcm", "wav", "mp3", "aac"]输出音频文件的编码格式

备注

快速复刻短音频文件,上传时文件格式 scheme=AUDIO_TTS_1,用于合成的同时快速复制音色,不持久化形成音色 ID;用户传入格式支持 wav;文件大小小于等于1M;(16K 采样率 小端模式16位有符号整数 采样位数 wav 格式,1s 原音频对应是 32K 大小,20s 对应 640K);推荐用法:10s 左右的短音频,且必须有人声。

请求示例(Request Example)

curl --request POST "https://api.sensenova.cn/v1/audio/speech" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $API_TOKEN" \
-d '{
"model": "string",
"input": "string",
"voice_file": "string",
"speed": float,
"response_format": "string"
}'

响应示例(Response Example)

返回与输入参数response_format指定格式相同的音频文件,单声道,采样率为16000Hz 。

  • mp3,有损压缩格式,默认输出,不支持流式传输;
  • acc,有损压缩格式,采用ADTS格式编码,支持流式传输;
  • wav,无损压缩格式,不支持流式传输,标准格式解码;
  • pcm,无损压缩格式,支持流式传输,解码参数为:
    • 采样率:16000
    • 通道数:1
    • 采样位数:小端模式16位有符号整数 采样