dev.Log

Whisper vs NeMo (EPD) 본문

인공지능

Whisper vs NeMo (EPD)

초코푸딩 2025. 12. 30. 14:46

실시간 STT에서 무엇을 선택해야 할까?

최근 음성 인식(STT) 서비스를 설계하거나 운영하다 보면
Whisper를 쓸지, NVIDIA NeMo를 쓸지 고민하게 된다.
두 모델 모두 성능은 뛰어나지만, 지향점과 구조가 완전히 다르다.

이 글에서는

“실시간 STT 관점에서 Whisper와 NeMo는 무엇이 다르고, 언제 어떤 선택이 맞는지”
를 중심으로 정리한다.


1. 출발점부터 다르다: 설계 철학의 차이

Whisper

  • OpenAI에서 공개한 범용 ASR 모델
  • 30초 길이의 음원을 입력으로 받아 전체 문맥을 보고 인식
  • 다국어, 잡음, 다양한 발화에 매우 강함
  • 기본 철학: 배치 인식 + 슬라이딩 윈도우

NeMo

  • NVIDIA의 ASR 프레임워크
  • 스트리밍 ASR을 전제로 설계
  • 프레임/청크 단위 처리
  • 실시간 Partial → Final 결과가 안정적

👉 한 줄로 말하면
Whisper는 “잘 듣는 모델”, NeMo는 “빠르게 확정하는 모델”이다.


2. 실시간 STT의 핵심: EPD(Endpoint Detection)

실시간 음성 인식에서 가장 중요한 문제는

“언제 이 발화가 끝났다고 판단할 것인가?”
이다. 이걸 EPD(Endpoint Detection) 라고 한다.


Whisper의 EPD

사실 Whisper에는 명시적인 EPD가 없다.

  • 발화 종료를 직접 예측하지 않음
  • 대신 아래 요소들을 간접적으로 조합해 판단
    • no_speech probability
    • log probability
    • compression ratio
    • 토큰 반복 패턴
    • 외부 VAD 결과

즉,

Whisper의 EPD = VAD + 디코딩 휴리스틱

이 구조 때문에:

  • 묵음 구간에서 반복 출력
  • 문장 끝에서 같은 문장 재출력
  • partial / final 경계가 흔들림

같은 현상이 자주 발생한다.


NeMo의 EPD

NeMo는 다르다.

  • 스트리밍 ASR 구조에 EPD가 설계 단계부터 포함
  • 프레임 단위로 speech / non-speech 판단
  • silence duration, blank ratio, confidence 기반으로
    End-of-Utterance(EoU) 를 명확히 결정

즉,

NeMo의 EPD = 모델 + 규칙 기반의 명시적 종료 판단

그래서:

  • 발화가 끝나자마자 결과 확정
  • 반복 출력 거의 없음
  • 실시간 UX가 매우 안정적

3. 실시간 UX 관점 비교

항목WhisperNeMo
기본 구조 30초 배치 스트리밍
EPD 없음 (추정) 있음
Partial 안정성 낮음 높음
반복 출력 자주 발생 거의 없음
발화 종료 지연 있음 매우 적음
콜센터/자막 부적합 적합

👉 실시간 서비스 UX는 NeMo가 압도적으로 유리하다.


4. 그렇다면 Whisper는 왜 많이 쓰일까?

그럼에도 Whisper가 널리 쓰이는 이유는 분명하다.

Whisper의 강점

  • 다국어 성능 우수 (특히 한국어)
  • 잡음/억양/발음 다양성에 강함
  • 별도 학습 없이 바로 사용 가능
  • GPU 없이도 CPU 운용 가능
  • 운영·배포 난이도 낮음

그래서:

  • 회의록
  • 녹취
  • 파일 기반 STT
  • 범용 STT API

에는 여전히 Whisper가 매우 강력하다.


5. 운영 관점에서의 현실적인 선택

Whisper가 맞는 경우

  • 빠르게 서비스해야 함
  • 학습 데이터 없음
  • 다국어/범용 STT
  • 실시간이 “준실시간”이어도 됨
  • 운영 안정성과 단순함이 중요

NeMo가 맞는 경우

  • 콜센터 / 실시간 자막
  • 낮은 지연(latency)이 핵심
  • partial → final 안정성 중요
  • GPU 인프라와 학습 리소스 있음

6. 실무에서 가장 많이 쓰는 구조

현업에서는 둘 중 하나만 고집하지 않는다.

가장 현실적인 구조는:

  • 실시간 채널 / EPD 중요 → NeMo
  • 녹취 / 정확도 / 다국어 → Whisper
  • Gateway에서 요청 목적에 따라 엔진 선택

즉,
전략 패턴 기반의 혼합 구조가 최종 해답인 경우가 많다.


7. 정리

Whisper와 NeMo는 “성능 비교”의 문제가 아니라
“문제 정의가 다른 두 모델”이다.

  • Whisper: 잘 듣는 범용 모델
  • NeMo: 빨리 확정하는 실시간 모델

한 줄 결론

실시간 UX가 핵심이면 NeMo, 범용·운영 안정성이 중요하면 Whisper가 맞다.

Comments