1. 原生OpenAI格式
you-token文档
  • 引言
    • 获取令牌
    • 一个完整的请求案例
    • 关于缓存创建与命中
    • 联系客服
    • 定价说明
    • 常见接口错误类型说明
  • 模型介绍
    • GPT 系列
    • Claude 系列
    • Gemini 系列
    • DeepSeek系列
    • 百度文心一言
    • 阿里通义千问
  • 模型接口
    • 模型查询相关
      • 模型列表查询
      • 令牌用量查询
      • 获取账号信息
    • 聊天(Chat)
      • OpenAI
        • 基础聊天(ChatCompletions格式)
          • 基础文本对话
          • 流式响应
          • 内容补全(早期接口)
          • PDF文件分析
          • 代码生成(codex)
          • 结构化输出
          • 联网搜索
          • GPTs对话
        • 会话聊天(Responses格式)
          • 基础文本响应
          • 图像分析响应
          • 网络搜索工具
          • 文件搜索工具
          • 计算机模拟
          • 深度研究
          • 函数调用
          • 推理能力
      • Google Gemini
        • 文本聊天
        • 媒体识别
        • 视频理解
      • Anthropic Claude
        • 文本生成
        • 图片理解
        • 深度思考
        • 函数调用
        • 联网搜索
        • 带缓存创建的文本对话
    • 图像(Images)
      • Midjourney
        • 文生图(Imagine)接口
        • 按钮点击(Action)接口
        • 图片融合(Blend)接口
        • 窗口执行(Modal)接口
        • 图生文(Describe)接口
        • 缩短提示词(Shorten)接口
        • 换脸(FaceSwap)接口
        • 上传(upload)接口
        • 查询接口
        • 批量查询接口
        • 获取种子(Seed)接口
        • 编辑图片(Edit)接口
        • 生成视频(Video)接口
      • OpenAI
        • 图片生成 / gpt-image-1.5
        • 图片生成 / dall-e-3
        • 图片编辑 / edits接口
        • 图片变体生成
        • gpt-4-all(生成图片)
      • Google Gemini
        • OpenAI聊天格式
          • 图片生成(Nano-banana2)
          • 图片生成 / Imagen 4
        • Gemini原生格式
          • 图像生成
      • 豆包(Doubao)
        • 文生图(纯文本输入单图输出)
        • 图文生图(单图输入单图输出)
        • 多图融合(多图输入单图输出)
        • 组图输出(多图输出)
      • 阿里通义千问
        • 文生图-Z-Image
        • 文生图
        • 文生图V2版
        • 文生图V1版
    • 视频(Videos)
      • OpenAI兼容接口
        • Veo 视频生成(OpenAI 兼容格式)
        • 查询视频生成状态 Copy
        • luma
        • runway
      • Veo 3
        • Veo 视频生成
        • 查询视频生成状态
      • Sora-2
        • Sora-2(创建视频)
        • Sora2官方接口(Chat格式)
        • 查询视频(异步任务)
        • 获取视频内容
      • 阿里通义千问
        • 通义万相2.6(创建视频)
        • 查询视频(异步任务)
      • 豆包(Doubao)
        • 豆包-文生视频
        • 查询视频
      • 可灵AI(Kling)
        • 可灵AI-文生视频
        • 可灵AI-文生视频kling-video-o1
        • 可灵AI-图生视频
      • 即梦(Jimeng)
        • 即梦AI-文生视频S2.0Pro
    • 音频(Audio)
      • 原生OpenAI格式
        • 文本转语音 / TTS
          POST
        • 语音转文本 / whisper-1
          POST
        • 语音转文本 / gpt-4o-transcribe
          POST
        • 音频翻译
          POST
        • Audio接口 / 输出
          POST
        • Audio接口 / 输入
          POST
        • MiniMax语音合成TTS
          POST
        • 豆包语音2.0
          POST
      • 原生Gemini格式
        POST
    • 音乐(Music)
      • Suno
        • 生成歌曲
        • 生成歌词
        • 上传音乐
        • 歌曲拼接
        • 单个查询任务
        • 批量查询任务
      • Udio
        • Udio(Chat格式)
    • 嵌入(Embeddings)
      • 创建文本嵌入(OpenAI)
      • 批量创建嵌入(OpenAI)
      • 创建文本嵌入(Gemini)
    • 重排序 (Rerank)
      • Jina AI 重排序格式
      • Cohere 重排序格式
      • Xinference 重排序格式
    • 审查(Moderations)
      • 创建内容审核
  1. 原生OpenAI格式

文本转语音 / TTS

POST
v1/audio/speech
了解如何将文本转换为音频。
相关指南:本转换为音频
使用 AI 模型将文本转换为自然语音,支持多种语音风格和输出格式
​
介绍
文本转语音(TTS)API 基于先进的生成 AI 模型,可以将输入的文本转换为逼真的语音音频。支持多种用途:
为书面博客文章配音
生成多种语言的语音音频
提供实时音频输出流
可用模型列表:
gpt-4o-audio-preview —— OpenAI 最新的音频生成模型,支持对话式音频生成
gpt-4o-mini-tts —— 智能实时应用的首选模型,支持高级语音控制,可以通过提示词控制多种语音特性:
口音 (Accent)
情感范围 (Emotional range)
语调 (Intonation)
印象/风格 (Impressions)
语速 (Speed of speech)
语调 (Tone)
轻声说话 (Whispering)
tts-1-hd —— 高清音质的上一代 TTS 模型
tts-1 —— 标准 TTS 模型,平衡质量和速度
性能建议: 为获得最快的响应时间,建议使用 wav 或 pcm 作为响应格式。对于高质量音频,建议使用 tts-1-hd;对于更快的生成速度,使用 tts-1;对于智能语音应用,推荐使用 gpt-4o-mini-tts。
音色预览: 你可以在 OpenAI.fm 试听不同音色效果。
模型调用方式
标准 TTS 模型(tts-1, tts-1-hd)
使用 /v1/audio/speech 端点,通过 client.audio.speech.create() 方法调用。
​
gpt-4o-mini-tts 模型
使用 /v1/audio/speech 端点,支持 instructions 参数进行高级语音控制。
gpt-4o-audio-preview 模型
使用 /v1/chat/completions 端点,需要设置 modalities: ["text", "audio"] 和 audio 配置。

请求参数

Authorization
在 Header 添加参数
Authorization
,其值为在 Bearer 之后拼接 Token
示例:
Authorization: Bearer ********************
Body 参数application/json必填

示例
{
    "model": "tts-1",
    "input": "The quick brown fox jumped over the lazy dog.",
    "voice": "alloy",
    "response_format": "wav"
}

请求示例代码

Shell
JavaScript
Java
Swift
Go
PHP
Python
HTTP
C
C#
Objective-C
Ruby
OCaml
Dart
R
请求示例请求示例
Shell
JavaScript
Java
Swift
curl --location --request POST 'v1/audio/speech' \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: application/json' \
--data-raw '{
    "model": "tts-1",
    "input": "The quick brown fox jumped over the lazy dog.",
    "voice": "alloy",
    "response_format": "wav"
}'

返回响应

🟢200成功
application/json
Body

示例
{
    "model": "tts-1",
    "input": "The quick brown fox jumped over the lazy dog.",
    "voice": "alloy"
}
修改于 2026-03-16 14:55:01
上一页
即梦AI-文生视频S2.0Pro
下一页
语音转文本 / whisper-1
Built with