dev.Log

실시간 STT 본문

인공지능

실시간 STT

초코푸딩 2025. 12. 23. 11:10

✔️ 실시간 자막 / 스트리밍

  • CTC: wav2vec2 (경량화)
  • RNN-T: NVIDIA NeMo

✔️ 연구 / 비교 실험

  • ESPnet

❌ Whisper 단독 실시간

  • 구조적으로 부적합
모델 방식 실시간  비고
wav2vec2 CTC ⭕ (개조 필요) 가장 대중적
DeepSpeech CTC deprecated
ESPnet CTC / RNN-T 연구용
Kaldi CTC 계열 레거시
NVIDIA NeMo RNN-T ⭐⭐⭐⭐⭐ 실서비스급
torchaudio RNN-T 학습용

'인공지능' 카테고리의 다른 글

FP16과 BF16의 차이  (0) 2025.12.29
A-law와 μ-law(뮤로우)의 차이점 정리  (0) 2025.12.26
CTC vs RNN-T vs Attention Seq2Seq  (1) 2025.12.23
DVC?  (0) 2025.12.23
ONNX란 무엇인가?  (0) 2025.11.26
Comments