① 🤖
Realtime Voice Chat
gpt-realtime-2
② 🔊
Neural TTS
DragonHD · 14 voices
③ 🌐
Live Interpret
同传 + 语音
④ 💬
Realtime STT
实时字幕
⑤ 📁
Transcript Lab
Fast Transcription
⑥ 🎬
Video Translation
视频本地化
⑦ 🎙️
Custom Voice
品牌音色克隆
⑧ 🧑💼
Digital Human
真人数字人
① Realtime Voice Chat gpt-realtime-2 · WebRTC
点击麦克风开始对话。说英文或中文都可以,模型用 Microsoft 颜色亲和的 Teams 伙伴口吻回复。可以随时打断。
② Neural TTS Gallery DragonHD Omni · 14 voices
输入任意文本,选择音色一键合成。这是行业内目前最自然的中英 TTS 之一(DragonHD Omni Latest)。
③ Live Interpret Suite Speech Translation · TTS · OpenAI Summary
🎧
同声传译
单向 · 听者带耳机 · 边说边译
🤝
面对面对话
双向 · 手机对说 · 自动切换
📝
随身记录
长会 · 转写+译文+AI 摘要
数据流 · 全程在 Microsoft Azure 租户内
📡
Speech SDK
PCM 流 · WebSocket
☁️
Azure Speech
Translator · East US 2
🔊
Neural TTS
DragonHD · 译文朗读
🧠
Azure OpenAI
gpt-5.4 · 摘要+术语
— ms 端到端延迟
0 段已识别
0:00 累计时长
EN→ZH
讲者语言
English (US)
中文(普通话)
日本語
한국어
Español
Français
听者语言
中文
English
日本語
한국어
Español
译文音色
晓悦 · 中文女声
云奇 · 中文男声
Marin · 英文女声
Cedar · 英文男声
🔊 朗读译文(同传耳机模式)
🎤
使用建议:讲者带麦克风,听者带蓝牙耳机听译文。低延迟模式下译文会在讲者每个停顿处自动播报。
翻译(听者)
Translation will stream here…
左侧人(我)
🇨🇳 中文
🇺🇸 English
🇯🇵 日本語
右侧人(对方)
🇺🇸 English
🇨🇳 中文
🇯🇵 日本語
🔊 朗读给对方
使用建议:把手机放在两人中间,按住自己一侧的话筒说话,松手后另一侧立即收到译文+朗读。适合展会/门店/出差遇到外宾的场景。
↔
🇺🇸 对方说 English
🎤 Hold to speak
会议主语言
English (US)
中文(普通话)
日本語
翻译输出
中文
English
日本語
场景(影响摘要风格)
客户拜访
内部评审
行业演讲
培训课堂
🎤
使用建议:整场会议常开。Azure Speech 流式转写 + Translator 双语对照,结束后 Azure OpenAI 一次性产出结构化纪要(决定/行动项/风险/术语表),一键保存到 Obsidian Vault。
📋 AI 纪要 Azure OpenAI · gpt-5.4
Waiting for summary…
④ 实时字幕 Speech-to-Text
单语种实时识别,适合会议大屏字幕、直播 CC、课堂记录。
识别语言
English (US)
中文(普通话)
日本語
한국어
🎤 开始字幕
清空
idle
⑤ Transcript Lab Fast Transcription
上传 WAV 文件 → Azure Speech 转写 → Azure OpenAI 双语摘要 + 术语提取。
上传并转写
语言
English (US)
中文
日本語
翻译输出
中文
English
日本語
idle
Translation + Summary
等待转写后生成…
⑥ Video Translation Azure Video Translation · 真实 API
上传英文视频 → Azure Video Translation 自动配音 + 烧入字幕。生产 API 调用,异步处理 5-15 分钟/分钟视频。下方 3 个预烤样本可秒演前后效果。
真实流程:上传并本地化
源语言
English (US)
中文
日本語
Español
目标语言
中文(普通话)
English (US)
日本語
Español
说话人
1 人
2 人
3 人
选择视频或点击预烤样本开始
⑦ Custom Voice · 品牌音色克隆 Personal & Pro Voice
录制 30 秒 ~ 5 分钟样本,克隆品牌代言人/CEO/IVR 主持人的专属音色。生产部署走 Azure Speech Studio + 法务声纹授权流程。
第一步 · 采集声纹样本
朗读以下提示句(英文 10 秒即可):
"Welcome to Microsoft Azure AI Speech. With just a short sample, you can craft a brand voice that sounds uniquely yours."
或
使用上传的样本
第二步 · 训练你的专属音色
开始克隆
等待样本…
第三步 · 用克隆音色合成任意文本
演示阶段使用占位音色 yunqi 模拟克隆输出;生产部署接入用户专属 endpoint 后,输出即为 1:1 克隆品牌嗓音。
⑧ Digital Human · 真人数字人 Azure TTS Avatar · Real-time WebRTC
真实驱动 Azure 官方数字人,WebRTC 流式输出到右侧视频窗。点 "连接" 拉起 Lisa,输入文字 → 真人立刻说话(2-3 秒响应)。适合 IVR / 电商直播 / 银行柜员 / 虚拟主持人。
⊕
Azure TTS Viseme · Lip-Sync Mode
Ava
💬 唇形驱动 · 国内首选 · 纯 HTTPS
未连接 · 点击"连接"
WebRTC ICE · 通过 Azure TURN 中继
▶︎ 连接
Full Body Lisa / Anna / Harry / Meg · 全身 · WebRTC
Photo Head VASA-1 · 30 张真人头像 · WebRTC
💬 唇形驱动 国内首选 纯 HTTPS · viseme 实时驱动 · 0 等待
让数字人说话
形象
Lisa · 商务女
Anna · 客服女
Harry · 主持男
Meg · 接待女
风格
坐姿 · 亲和
坐姿 · 优雅
站姿 · 专业
TTS 音色
Ava · 英文女声(多语)
Andrew · 英文男声(多语)
晓晓 · 中文女声(多语)
云希 · 中文男声
Nanami · 日文女声
🗣 让数字人说话
⏹ 停止/打断
断开连接
未连接
Prebuilt Avatar Lisa / Anna / Harry / Meg · 即开即用
Custom Avatar 真人拍摄 5min · 训练专属形象
Realtime Avatar WebRTC 流式驱动 · 适配交互对话
🆕
Custom Photo Avatar Studio
Azure 官方流程 · aka.ms/customneural
诚实交付: Azure 不支持「上传任意照片→秒级生成」的纯自助路径。但您有 两个真实选项 :
① 实时秒选 — 用上方 Photo Head 切换器,从 30 张 VASA-1 预训练真人头像挑一张,立刻说话(无需训练)。
② 专属定制 — 用下方流程上传您的照片,Microsoft 团队 3-7 天审核+训练完成后,在第 5 步用 character ID 调用,效果完全私有化。
1 上传照片
2 自动质检
3 录制同意视频
4 打包提交
5 调用已训练形象
① 照片(肩部以上 · 正脸 · 自然光)
📸
拖拽照片到这里 或 点击选择
PNG / JPG · 推荐 ≥ 1024×1024 · < 8 MB
○ 已上传照片
○ 文件大小 < 8 MB
○ 分辨率 ≥ 1024 px
○ 检测到 1 张正脸
○ 构图 ≈ 肩部以上(头部占比合理)
💡 选好照片后会自动跑 5 项官方质检 — 仅在浏览器本地完成,不会上传
④ 打包并提交给 Microsoft
头像 ID
使用场景
Voice Live 对话客服
营销/培训视频
线下大屏 IVR
电商直播
目标语言
多语种(Ava/Andrew/晓晓)
中文为主
英文为主
先完成左侧 1-3 步,然后生成提交包
真实交付时间线: 提交 → MSFT 团队审核(1-3 工作日) → 训练+部署到您的 Foundry resource(3-7 天) → 拿到 character ID → 在第 5 步实时调用
⚡ 立即演示 · 让我的照片现在就说话 国内可用 · 0 等待
无需等待 3-7 天! 用照片 + Azure TTS viseme(22 种口型实时数据)驱动嘴形动画,
2 秒 内开始说话。100% HTTPS,国内必通。视觉效果约 80% 接近真 Custom Photo Avatar,适合现场客户演示。
选音色
Ava · 英文女声(多语)
Andrew · 英文男声(多语)
晓晓 · 中文女声(多语)
云希 · 中文男声
云扬 · 中文男声(新闻)
Nanami · 日文女声
▶︎ 立即用我的照片说话
⏹ 停止
先上传左侧照片
⑤ 调用已训练好的 Photo Avatar
Character ID
风格
default
formal
casual
▶︎ 调用并连接(替换上方 Lisa)
输入 character ID 后,会用现有 Real-time Avatar 通道连接您的专属数字人 — 整条链路和 Lisa 完全相同。
没有 character ID? Microsoft 团队部署完后会发邮件告诉您,通常是您选定的 ID 字符串。