dev.Log
실시간 STT 본문
✔️ 실시간 자막 / 스트리밍
- CTC: wav2vec2 (경량화)
- RNN-T: NVIDIA NeMo
✔️ 연구 / 비교 실험
- ESPnet
❌ Whisper 단독 실시간
- 구조적으로 부적합
| 모델 | 방식 | 실시간 | 비고 |
| wav2vec2 | CTC | ⭕ (개조 필요) | 가장 대중적 |
| DeepSpeech | CTC | ⭕ | deprecated |
| ESPnet | CTC / RNN-T | △ | 연구용 |
| Kaldi | CTC 계열 | ⭕ | 레거시 |
| NVIDIA NeMo | RNN-T | ⭐⭐⭐⭐⭐ | 실서비스급 |
| torchaudio | RNN-T | △ | 학습용 |
'인공지능' 카테고리의 다른 글
| FP16과 BF16의 차이 (0) | 2025.12.29 |
|---|---|
| A-law와 μ-law(뮤로우)의 차이점 정리 (0) | 2025.12.26 |
| CTC vs RNN-T vs Attention Seq2Seq (1) | 2025.12.23 |
| DVC? (0) | 2025.12.23 |
| ONNX란 무엇인가? (0) | 2025.11.26 |
Comments