서비스 특징
이용 목적에 따른 최적의 음성 인식 엔진 제공
다양한 환경, 높은 인식률
CLOVA Speech는 국내 가장 높은 수준의 한국어 인식률을 제공하며 미디어 및 전화망 음성(PSTN)에서도 높은 성능의 음성 인식률을 제공하고 있습니다.
지속적 품질 개선
네이버의 풍부한 데이터를 바탕으로 스피치 음성인식 엔진을 머신 러닝(Machine Learning)을 통해 지속적으로 사용자 음성 인식 환경을 개선하고 있습니다.
손쉬운 사용
콘솔 및 빌더를 통해 누구나 손쉽게 서비스 데모를 이용할 수 있습니다. 데모를 통해 음원을 업로드하면 인식 결과를 수 분내로 확인할 수 있습니다.
CLOVA Speech 활용 가능 영역
상세 기능
문장 자동 분리 및 타임스탬프 지원
타임스탬프 기능을 제공하여 음성을 텍스트로 변환하는 과정에서 적절한 길이로 문장을 분리하고 시간을 표시합니다.
또한 문장의 시작과 끝을 시각적으로 표시해 주어 자막을 생성하는 등 다양한 방식으로 활용할 수 있습니다.
* 장문인식에서 제공하는 기능입니다.
키워드 부스팅 및 인식 후 보정
고유 명사(이름, 제품 등) 등 특정 단어에 대한 인식률을 높이거나, 음원 인식 후 더 적합한 단어로 보정할 수 있습니다.
인식 결과 수정 에디터 제공
CLOVA Speech 를 통해 인식된 데이터를 손쉽게 수정, 편집하여 재가공할 수 있습니다.
편집하고자하는 파일을 재생하며 인식된 데이터를 바로바로 수정할 수 있으며, 적절한 길이로 문장을 분리하여 타임 스탬프 정보를 표시해줍니다.
자막은 물론 다양한 파일 포맷으로 추출하여 다양한 고객 서비스에 활용할 수 있습니다.

실시간 음성 인식
CLOVA Speech API를 통해 실시간으로 음성을 인식하고, 음성 인식 결과를 텍스트로 반환할 수 있습니다.
* 장문인식에서 제공하는 기능입니다.
API 기반 인식 제공
CLOVA Speech의 API를 이용하여 음원 인식 결과를 텍스트로 반환합니다.
REST API는 Client ID와 Client Secret을 이용하여 인증합니다. 인증부터 API 이용까지 데이터 전송 구간은 모두 암호화를 적용할 수 있습니다.
유형 | 이용 방식 | 인식 가능 언어 | 인식 가능 시간 | 인식 파일 크기 | 인식 가능 음성파일 포맷 |
|---|---|---|---|---|---|
장문인식 | REST API | 한국어 영어 한/영 동시 인식 일본어 중국어(번체/간체) | 최대 2시간 (sync) 최대 6시간 (Batch, async) | 최대 2GB (빌더) 최대 20GB (API) | Audio: mp3, aac, ac3, ogg, flac, wav, m4a
Video: avi, mp4, mov, wmv, flv, mkv |
단문인식 | REST API | 한국어 | 최대 60초 | 최대 10MB (빌더, API) | Audio: mp3, aac, ac3, ogg, flac, wav, m4a |
요금 안내
CLOVA Speech 서비스는 음성인식 시간에 대해 비용 효율적으로 사용하실 수 있는 서비스 입니다.
유형 | 서비스 플랜 | 서비스 | 과금 단위(초) | 요금 |
|---|---|---|---|---|
장문 인식 | Free 플랜 | 음성 인식(Batch) | 15 | 무료 |
장문 인식 | Free 플랜 | 화자 인식(Batch) | 15 | 무료 |
장문 인식 | Basic 플랜 | 음성 인식(Batch) | 15 | - |
장문 인식 | Basic 플랜 | 화자 인식(Batch) | 15 | - |
단문 인식 | Basic 플랜 | 음성 인식(Batch) | 15 | - |
(VAT 별도)
* Free 플랜 요금제는 20분을 무료로 제공합니다.
* 이용시간은 15초 단위로 올림됩니다.
장문 인식 요금 예시)
Case 1) CLOVA Speech를 10초간 이용(화자 인식 미사용 시)했을 경우: 5원이 과금됨.
Case 2) CLOVA Speech를 32초간 이용(화자 인식 미사용 시)했을 경우: 15원이 과금됨.