블로그

Whisper vs Deepgram: 2026년 최고의 음성 엔진은?

음성 인식의 두 가지 철학

OpenAI Whisper와 Deepgram은 음성 인식 시스템을 구축하는 두 가지 뚜렷한 접근 방식을 대표합니다. Whisper는 방대한 인터넷 오디오 코퍼스로 훈련된 범용 다국어 모델로 설계되었습니다. Deepgram은 속도와 개발자 통합에 최적화된 상용 API 우선 제품으로 구축되었습니다. 두 가지 모두 탁월합니다. 어느 쪽도 모든 면에서 더 낫지는 않습니다.

어떤 특정 사용 사례에 어느 쪽이 맞는지 이해하려면 아키텍처, 벤치마크, 가격 모델, 다양한 워크로드에 대한 실용적 함의를 살펴봐야 합니다.

아키텍처

Whisper

Whisper는 OpenAI가 웹에서 수집한 680,000시간의 다국어 오디오로 훈련한 인코더-디코더 트랜스포머 모델입니다. 아키텍처는 오디오를 로그-멜 스펙트로그램 특징으로 처리하고, 컨볼루션 인코더를 통해 전달하고, 언어 모델 디코더를 사용하여 텍스트로 디코딩합니다.

모델은 tiny, base, small, medium, large-v2, large-v3의 다양한 크기로 제공됩니다. Telvr가 사용하는 large-v3 모델이 가장 정확하지만 가장 무겁습니다 — 로컬 실행에는 강력한 GPU 또는 상당한 CPU 시간이 필요합니다.

핵심 특성: Whisper는 인터넷의 다양하고 노이즈가 있는 오디오로 훈련되었습니다. 이것이 억양, 배경 소음, 비공식적인 발화에 대한 놀라운 견고성을 부여합니다. 트레이드오프는 가장 빠른 모델이 아니며 일부 사용 사례에서 요구하는 스트리밍/실시간 아키텍처를 제공하지 않는다는 것입니다.

Deepgram

Deepgram은 실시간 스트리밍 전사에 최적화된 자체 엔드-투-엔드 딥러닝 아키텍처를 구축했습니다. Nova-3 모델은 특히 구어 영어(시간이 지나면서 강력한 다국어 지원이 추가됨)를 위해 훈련되었으며 아키텍처적으로 낮은 지연 시간으로 토큰별 출력을 생성하도록 설계되었습니다.

Deepgram의 모델은 오픈소스로 공개되어 있지 않습니다. Deepgram API 또는 온프레미스 Deepgram 엔터프라이즈 배포를 통해서만 실행됩니다. 훈련 데이터는 방대하지만 Whisper의 인터넷 규모 코퍼스보다 더 선별되어 있습니다.

정확도 벤치마크

정확도 비교는 맥락에 크게 의존합니다. 두 모델 모두 잘 수행하며 차이는 특정 조건에서 나타납니다.

표준 벤치마크의 단어 오류율(WER):

  • Whisper large-v3와 Deepgram Nova-3는 표준 영어 벤치마크에서 경쟁력이 있으며, 깨끗한 오디오에서 모두 WER 5% 미만을 달성합니다.
  • Whisper large-v3는 강한 억양의 발화와 혼합 언어 입력에서 Nova-3를 능가합니다.
  • Nova-3는 발화가 완료되기 전에 부분 결과가 필요한 스트리밍 사용 사례에서 Whisper를 능가합니다.

Whisper가 뛰어난 실제 조건:

  • 혼합 언어 발화(코드 스위칭)
  • 강한 억양의 비원어민 영어
  • 훈련 없는 기술 어휘
  • 다양한 소스(거리, 카페)의 배경 소음

Deepgram이 뛰어난 실제 조건:

  • 알려진 화자 프로필이 있는 콜센터 오디오
  • 최초 토큰 지연 시간이 중요한 실시간 스트리밍
  • 깨끗하거나 반깨끗한 환경의 미국 영어
  • 화자 분리(누가 무엇을 말했는지 식별)

속도와 지연 시간

Whisper (Groq API를 통해, Telvr가 사용하는 방식): 전사 단계만 1초 미만. Groq의 추론 하드웨어는 트랜스포머 모델을 위해 특화되어 있어 Whisper large-v3가 로컬 GPU 추론보다 훨씬 빠르게 실행됩니다.

Whisper (로컬, Apple M3): 30초 오디오 클립에서 3~6초. 소형 모델은 더 빠르게 실행됩니다.

Deepgram Nova-3 (스트리밍): 스트리밍 모드에서 첫 단어 표시까지 300~500ms. 완전한 오디오 파일의 일괄 전사의 경우 총 지연 시간은 API를 통한 Whisper와 유사합니다.

스트리밍 기능은 실시간 애플리케이션에서 Deepgram의 두드러진 장점입니다. 푸시 투 토크 워크플로우(녹음, 정지, 결과 받기)의 경우 전체 파이프라인을 고려하면 Groq를 통한 Whisper와 Deepgram 사이의 지연 시간 차이는 실제로 미미합니다.

언어 지원

Whisper large-v3: 99개 언어를 지원합니다. 저자원 언어의 경우 완전히 실패하지 않고 우아하게 성능이 저하됩니다. 자동 언어 감지가 내장되어 있습니다.

Deepgram Nova-3: 강력한 영어 지원, 시간이 지남에 따라 추가 언어가 추가되었습니다. 2026년 기준 다양한 품질 수준의 약 35개 언어를 지원합니다. 영어 정확도는 탁월하지만 많은 다른 언어는 아직 Whisper 수준에 미치지 못합니다.

다국어 워크플로우의 경우 Whisper가 명확한 선택입니다. 속도와 스트리밍이 중요한 영어 우선 애플리케이션의 경우 Deepgram이 경쟁력이 있습니다.

가격

Whisper (OpenAI API): 분당 $0.006. 스트리밍 옵션 없음.

Whisper (Groq API를 통해): 티어에 따라 다릅니다. 빠른 추론, 개발자 워크로드에 경쟁력 있는 가격.

Deepgram Nova-3: 종량제 기준 분당 $0.0043부터 시작. 대용량 할인 가능. 스트리밍도 동일한 요율이 적용됩니다.

Telvr의 사용 비용: 분당 EUR 0.003부터 시작. 이는 전사 + AI 강화 처리의 결합 비용을 반영합니다. 원시 Deepgram이나 Whisper API는 분당 더 저렴하지만, 그것들은 애플리케이션 레이어가 없는 원시 API입니다.

개발자 경험

Whisper (OpenAI API):

  • 간단한 REST 엔드포인트, 표준 오디오 파일 업로드
  • 스트리밍 없음
  • 오디오 파일 크기 제한(무료 25MB, 유료 100MB)
  • 푸시 투 토크 워크플로우에 적합한 응답 시간, 실시간 자막에는 부적합

Deepgram:

  • 실시간 스트리밍을 위한 WebSocket API
  • 일괄 파일을 위한 REST API
  • 더 많은 기능: 화자 분리, 키워드 부스팅, 커스텀 어휘
  • 실시간 사용 사례를 위한 더 나은 개발자 문서

자체 호스팅 Whisper:

  • 완전히 오픈소스, Docker 배포 가능
  • API 비용 없음
  • GPU 인프라 필요
  • 커스텀 파이프라인을 위한 최대 유연성

사용 사례별 선택 가이드

푸시 투 토크 데스크톱 앱: 빠른 추론 API를 통한 Whisper large-v3. 정확도와 언어 지원이 더 나은 선택이며, 전체 파이프라인을 고려하면 지연 시간은 Deepgram과 비슷합니다.

실시간 자막 / 라이브 전사: Deepgram 스트리밍 API. 읽기 가능한 라이브 자막에는 500ms 미만의 첫 토큰 지연이 필요합니다.

콜센터 / 전화 오디오: 커스텀 어휘와 화자 분리 기능이 있는 Deepgram.

다국어 애플리케이션: Whisper. 자동 감지와 함께 99개 언어 커버리지에 필적하는 대안이 없습니다.

개인 정보 보호가 중요한 로컬 배포: 자체 호스팅 Whisper. Deepgram의 자체 호스팅 옵션이 있지만 엔터프라이즈 전용입니다.

비용 민감하고 대용량 영어 전사: Deepgram Nova-3 분당 $0.0043이 OpenAI의 $0.006보다 약간 저렴합니다.

Telvr가 선택한 것

Telvr는 Groq의 추론 API를 통한 Whisper large-v3를 사용합니다. 이 선택은 의도적이었습니다. large-v3는 언어 전반에 걸쳐 가장 높은 정확도를 제공하고, Groq의 하드웨어는 전사 단계의 지연 시간을 1초 미만으로 줄이며, 자동 언어 감지는 언어를 전환할 때 사용자가 아무것도 설정할 필요가 없다는 것을 의미합니다.

이어지는 강화 레이어 — 출력을 정리하고, 이메일을 서식화하고, 노트를 구조화하는 AI 후처리 — 는 Whisper나 Deepgram의 일부가 아닙니다. 원본 전사를 서식이 갖춰지고 사용 가능한 텍스트로 변환하는 별도의 LLM 단계입니다.

결론

Whisper와 Deepgram은 직접적인 경쟁자라기보다 다른 작업을 위한 다른 도구입니다. Whisper large-v3는 다국어, 노이즈가 있는 실제 오디오에서 정확도 선두주자입니다. Deepgram Nova-3는 영어 우선, 실시간 애플리케이션에서 속도와 스트리밍 선두주자입니다.

품질이 실시간 스트리밍보다 중요한 데스크톱 생산성 도구의 경우 빠른 추론 API를 통한 Whisper large-v3가 더 나은 기반입니다. 사용자가 말하는 것과 동시에 단어가 나타나야 하는 애플리케이션의 경우 Deepgram의 스트리밍 아키텍처가 바로 그 사용 사례를 위해 구축되었습니다.