음성 라이브 API란?
음성 라이브 API는 음성 에이전트에 대해 대기 시간이 짧고 고품질 음성 음성 상호 작용을 가능하게 하는 솔루션입니다. API는 여러 구성 요소를 수동으로 오케스트레이션할 필요가 없으므로 확장 가능하고 효율적인 음성 기반 환경을 찾는 개발자를 위해 설계되었습니다. 음성 인식, 생성 AI 및 텍스트 음성 변환 기능을 단일 통합 인터페이스에 통합하여 원활한 환경을 만들기 위한 엔드투엔드 솔루션을 제공합니다.
음성 간 상호작용 경험 이해
음성 음성 변환 기술은 인간이 시스템과 상호 작용하는 방식에 혁명을 일으키고 직관적인 음성 기반 솔루션을 제공합니다. 기존의 구현에는 음성 텍스트 변환, 대화 상자 관리, 텍스트 음성 변환 등과 같은 서로 다른 모듈을 결합하는 것이 포함되었습니다. 이러한 연결로 인해 엔지니어링 복잡성이 증가하고 최종 사용자가 대기 시간을 인식할 수 있습니다.
LLM(대규모 언어 모델) 및 멀티모달 AI의 발전으로 Voice Live API는 이러한 기능을 통합하여 개발자를 위한 워크플로를 간소화합니다. 이 접근 방식은 실시간 상호 작용을 향상시키고 고품질의 자연스러운 통신을 보장하여 즉각적인 음성 지원 솔루션이 필요한 산업에 적합합니다.
음성 라이브 API에 대한 주요 시나리오
Azure AI Voice Live API는 음성 기반 상호 작용이 사용자 환경을 개선하는 시나리오에 이상적입니다. 예를 들면 다음과 같습니다.
- 연락처 센터: 고객 지원, 제품 카탈로그 탐색 및 셀프 서비스 솔루션을 위한 대화형 음성 봇을 개발합니다.
- 자동차 도우미: 명령 실행, 탐색 및 일반 문의에 핸즈프리 차량 내 음성 도우미를 사용하도록 설정합니다.
- 교육: 대화형 교육 및 교육을 위한 음성 지원 학습 도우미 및 가상 튜터를 만듭니다.
- 공공 서비스: 시민에게 행정 쿼리 및 공공 서비스 정보를 지원하는 음성 에이전트를 빌드합니다.
- 인적 자원: 직원 지원, 경력 개발 및 교육을 위한 음성 지원 도구를 사용하여 HR 프로세스를 개선합니다.
음성 라이브 API의 기능
음성 라이브 API에는 다양한 사용 사례를 지원하고 우수한 음성 상호 작용을 보장하는 포괄적인 기능 집합이 포함되어 있습니다.
- 광범위한 로캘 적용 범위: 음성 텍스트 변환을 위해 140개 이상의 로캘을 지원하고 텍스트 음성 변환을 위해 150개 이상의 로캘에서 600개 이상의 표준 음성을 제공하여 전역 접근성을 보장합니다.
- 사용자 지정 가능한 입력 및 출력: 오디오 입력에 대한 가벼운 Just-In-Time 사용자 지정을 위해 구문 목록을 사용하거나, 고급 음성 인식 미세 조정을 위해 사용자 지정 음성 모델을 활용합니다. 사용자 지정 음성을 사용하여 오디오 출력을 위한 고유한 브랜드 맞춤 음성을 만듭니다. 자세한 내용은 음성 라이브 입력 및 출력을 사용자 지정하는 방법을 참조하세요.
- 유연한 생성 AI 모델 옵션: GPT-5, GPT-4.1, GPT-4o, Phi 등을 비롯한 여러 모델에서 대화형 요구 사항에 맞게 조정된 모델 중에서 선택합니다.
-
고급 대화형 기능:
- 노이즈 억제: 보다 명확한 통신을 위해 환경 노이즈를 줄입니다.
- 에코 제거: 에이전트가 자신의 응답을 수집하지 못하도록 방지합니다.
- 강력한 방해 감지: 대화 중 방해를 정확히 인식할 수 있도록 보장합니다.
- 고급 턴 종료 감지: 상호 작용을 조기에 종료하지 않고도 자연스러운 일시 중지를 허용합니다.
- 아바타 통합: 오디오 출력과 동기화된 표준 또는 사용자 지정 가능한 아바타를 제공하여 음성 에이전트에 대한 시각적 ID를 제공합니다.
- 함수 호출: VoiceRAG 패턴을 사용하여 외부 작업, 도구 사용 및 접지된 응답을 사용하도록 설정합니다.
작동 방식
음성 라이브 API는 완전히 관리되므로 고객이 백 엔드 오케스트레이션 또는 구성 요소 통합을 처리할 필요가 없습니다. 개발자는 대기 시간을 최소화하면서 오디오 입력을 제공하고 오디오 출력, 아바타 시각적 개체 및 작업 트리거를 수신합니다. API가 모든 기본 인프라를 처리하므로 생성 AI 모델을 배포하거나 관리할 필요가 없습니다.
API 디자인 및 호환성
Voice Live API는 Azure OpenAI Realtime API와의 호환성을 위해 설계되었습니다. 지원되는 실시간 이벤트는 대부분 Azure OpenAI Realtime API 이벤트와 동등하며, 음성 라이브 API에서 설명하는 지침에 설명된 몇 가지 예외가 있습니다.
Voice Live API에 고유한 기능은 선택 사항 및 추가 기능으로 설계되었습니다. 기존 아키텍처를 변경하지 않고도 노이즈 억제, 에코 취소 및 고급 엔드 오브 턴 검색과 같은 Azure AI Speech 기능을 기존 애플리케이션에 추가할 수 있습니다.
API는 WebSocket 이벤트를 통해 지원되므로 서버 간 통합이 용이합니다. 백 엔드 또는 중간 계층 서비스는 WebSocket을 통해 음성 라이브 API에 연결합니다. WebSocket 메시지를 직접 사용하여 API와 상호 작용할 수 있습니다.
지원되는 모델 및 지역
음성 에이전트의 인텔리전스를 강화하려면 GPT-Realtime, GPT-5, GPT-4.1, Phi 및 기타 옵션 간의 생성 AI 모델에서 유연성과 선택을 할 수 있습니다. 다양한 생성 AI 모델은 다양한 유형의 기능, 인텔리전스 수준, 추론 속도/대기 시간 및 비용을 제공합니다. 비즈니스 및 사용 사례에 가장 중요한 사항에 따라 요구 사항에 가장 적합한 모델을 선택할 수 있습니다.
기본적으로 지원되는 모든 모델은 완전히 관리되므로 모델을 배포하거나 용량 계획에 대해 걱정하거나 처리량을 프로비전할 필요가 없습니다. 필요한 모델을 사용할 수 있으며 Voice Live API는 나머지를 처리합니다.
Voice Live API는 다음 모델을 지원합니다. 지원되는 지역은 Azure AI Speech Service 지역을 참조하세요.
| 모델 | 설명 |
|---|---|
gpt-realtime |
GPT 실시간 + Azure 텍스트 음성 변환 음성을 사용하는 옵션(오디오용 사용자 지정 음성 포함). |
gpt-realtime-mini |
GPT mini 실시간 + Azure 텍스트 음성 변환 음성을 사용하는 옵션(오디오용 사용자 지정 음성 포함). |
gpt-4o |
GPT-4o + Azure 음성 텍스트 변환을 통한 오디오 입력 + 사용자 지정 음성을 포함한 Azure 텍스트 음성을 통한 오디오 출력. |
gpt-4o-mini |
GPT-4o mini + Azure 음성 텍스트 변환을 통한 오디오 입력 + Azure 텍스트 음성 변환 음성을 통한 오디오 출력(사용자 지정 음성 포함). |
gpt-4.1 |
GPT-4.1 + Azure의 음성 인식을 통한 오디오 입력을 텍스트로 변환 + 사용자 지정 음성을 포함한 Azure의 텍스트-음성 변환을 통한 오디오 출력 |
gpt-4.1-mini |
GPT-4.1 mini + Azure 음성 텍스트 변환을 통한 오디오 입력 + 사용자 지정 음성을 포함한 Azure 텍스트 음성 변환을 통한 오디오 출력. |
gpt-5 |
GPT-5 + Azure 음성 텍스트 변환을 통한 오디오 입력 + Azure 텍스트 음성 변환 음성을 통한 오디오 출력(사용자 지정 음성 포함). |
gpt-5-mini |
GPT-5 mini + Azure 음성 텍스트 변환을 통한 오디오 입력 + Azure 텍스트 음성 변환 음성을 통한 오디오 출력(사용자 지정 음성 포함). |
gpt-5-nano |
GPT-5 nano + Azure 음성 텍스트 변환 오디오 입력 + Azure 텍스트 음성 변환 음성을 통한 오디오 출력(사용자 지정 음성 포함). |
gpt-5-chat |
GPT-5 채팅 + Azure 음성 텍스트 변환 오디오 입력 + Azure 텍스트 음성 변환 음성을 통한 오디오 출력(사용자 지정 음성 포함). |
phi4-mm-realtime |
Phi4-mm + Azure 텍스트 음성 변환 음성을 통한 오디오 출력(사용자 지정 음성 포함). |
phi4-mini |
Phi4-mm + Azure 음성 텍스트 변환을 통한 오디오 입력 + Azure 텍스트 음성 변환 음성을 통한 오디오 출력(사용자 지정 음성 포함). |
음성 라이브 API와 다른 음성 대 음성 솔루션 비교
음성 라이브 API는 음성 인식, 생성 AI 및 텍스트 음성 변환과 같은 여러 구성 요소를 오케스트레이션하는 대안입니다. 이 오케스트레이션은 복잡하고 시간이 오래 걸릴 수 있으므로 통합 및 유지 관리에 상당한 엔지니어링 노력이 필요합니다. Voice Live API는 이러한 모든 구성 요소에 단일 인터페이스를 제공하여 이 프로세스를 간소화하므로 개발자는 기본 인프라를 관리하지 않고 애플리케이션을 빌드하는 데 집중할 수 있습니다.
요구 사항을 충족하기 위해 고유한 솔루션을 빌드하거나 Voice Live API를 사용할 수 있습니다. 이 표에서는 다음 방법을 비교합니다.
| 애플리케이션 요구 사항 | 직접 수행 | 음성 라이브 API |
|---|---|---|
| 높은 정확도를 갖춘 광범위한 지역 범위(오디오 입력) | ✅ | ✅ |
| 브랜드 및 캐릭터 개성 유지(오디오 출력) | ✅ | ✅ |
| 대화형 향상된 기능 | ❌ | ✅ |
| 생성형 AI 모델 선택 | ✅ | ✅ |
| 텍스트 음성 변환 아바타가 있는 시각적 출력 | ✅ | ✅ |
| 낮은 엔지니어링 비용 | ❌ | ✅ |
| 최종 사용자가 인식하는 짧은 대기 시간 | ❌ | ✅ |
가격 책정
Voice Live API에 대한 가격은 2025년 7월 1일부터 적용됩니다.
Voice Live API에 대한 가격 책정은 사용되는 생성 AI 모델을 기반으로 계층화됩니다(Pro, Basic 및 Lite).
계층을 선택하지 않습니다. 생성 AI 모델을 선택하면 해당 가격이 적용됩니다.
| 가격 책정 범주 | 모델들 |
|---|---|
| 음성 라이브 전문가 |
gpt-realtime, gpt-4o, gpt-4.1, gpt-5gpt-5-chat |
| 기본 음성 라이브 |
gpt-realtime-mini, gpt-4o-mini, gpt-4.1-minigpt-5-mini |
| 보이스 라이브 라이트 |
gpt-5-nano,phi4-mm-realtime, phi4-mini |
음성 출력에 사용자 지정 음성을 사용하도록 선택하는 경우 사용자 지정 음성 모델 학습 및 호스팅에 대해 별도로 요금이 청구됩니다. 자세한 내용은 Text to Speech – Custom Voice – Professional 가격 책정을 참조하세요. 사용자 지정 음성은 제한된 액세스 기능입니다. 사용자 지정 음성을 만드는 방법에 대해 자세히 알아봅니다.
아바타는 여기에 게시된 대화형 아바타 가격 책정으로 별도로 청구됩니다.
사용자 지정 음성 및 아바타 학습 요금에 대한 자세한 내용은 이 가격 책정 정보를 참조하세요.
가격 책정 시나리오 예제
다음은 Voice Live API가 청구되는 방식을 이해하는 데 도움이 되는 몇 가지 가격 책정 시나리오 예제입니다.
시나리오 1
표준 Azure AI Speech 입력, GPT-4.1, 사용자 지정 Azure AI Speech 출력 및 사용자 지정 아바타를 사용하여 빌드된 고객 서비스 에이전트입니다.
다음 항목에는 음성 라이브 프로 요금이 부과됩니다.
- 문자 메시지
- Azure AI Speech를 사용한 오디오 - 표준
- Azure AI Speech를 사용한 오디오 - 사용자 지정
다음의 학습 및 모델 호스팅에 대해 별도로 요금이 청구됩니다.
- 사용자 지정 음성 – 전문가
- 사용자 지정 아바타
시나리오 2
gpt-realtime 네이티브 오디오 입력과 표준 Azure AI Speech 출력을 사용하여 빌드된 학습 에이전트입니다.
다음 항목에는 음성 라이브 프로 요금이 부과됩니다.
- 문자 메시지
-
gpt-realtime가 포함된 네이티브 오디오 - Azure AI Speech를 사용한 오디오 - 표준
시나리오 3
gpt-realtime-mini 네이티브 오디오 입력, 표준 Azure AI 음성 출력 및 표준 아바타로 빌드된 인재 인터뷰 에이전트입니다.
다음의 경우 음성 라이브 기본 요금이 부과됩니다.
- 문자 메시지
-
gpt-realtime-mini가 포함된 네이티브 오디오 - Azure AI Speech를 사용한 오디오 - 표준
다음의 경우 별도로 요금이 청구됩니다.
- 텍스트 음성 변환 아바타(표준)
시나리오 4
phi4-mm-realtime 및 Azure 사용자 지정 음성으로 빌드된 차량 내 도우미.
다음과 같은 경우 음성 라이브 라이트 요금으로 요금이 청구됩니다.
- 문자 메시지
-
phi4-mm-realtime가 포함된 네이티브 오디오
다음 항목에는 음성 라이브 프로 요금이 부과됩니다.
- Azure AI Speech를 사용한 오디오 - 사용자 지정
다음의 학습 및 모델 호스팅에 대해 별도로 요금이 청구됩니다.
- 사용자 지정 음성 – 전문가
토큰 사용량 및 비용 예측
토큰은 생성 AI 모델이 입력을 처리하고 출력을 생성하는 데 사용하는 단위입니다.
오디오 길이에 따라 Voice Live API를 사용하여 다양한 모델 패밀리에 대한 토큰 사용량을 예측할 수 있습니다. 다음 토큰 계산은 각 모델 패밀리에 적용됩니다.
| 모델 패밀리 | 입력 오디오(초당 토큰 수) | 출력 오디오(초당 토큰 수) |
|---|---|---|
| Azure OpenAI 모델 | ~10개의 토큰 | 최대 20개의 토큰 |
| Phi 모델 | ~12.5개의 토큰 | 최대 20개의 토큰 |
또한 프롬프트 및 대화 컨텍스트를 포함하여 캐시된 오디오 및 텍스트 입력에 대한 요금이 청구됩니다.
관련 콘텐츠
- 음성 라이브 API를 사용하는 방법에 대해 자세히 알아보기
- 음성 라이브 API 빠른 시작 사용해 보기
- 음성 라이브 API 참조를 확인하십시오.