dev.Log

실제 서비스에서 Speaker Diarization 성능 평가 지표(DER) 정리 본문

인공지능

실제 서비스에서 Speaker Diarization 성능 평가 지표(DER) 정리

초코푸딩 2025. 12. 30. 11:00

DER는 무엇을 말해주고, 무엇을 말해주지 않는가

Speaker Diarization(SD)은
“누가 언제 말했는지”를 시간 축 위에서 복원하는 문제다.

이 문제의 성능을 평가하는 대표적인 지표가 **DER(Diarization Error Rate)**다.
하지만 DER는 정의는 명확한 반면,
실제 서비스 품질을 그대로 대변하지는 않는다.

이 글에서는:

  • DER의 정확한 구성
  • 각 오류 항목의 의미
  • 실무에서 DER를 해석하는 방법
  • DER만으로 부족한 이유
    를 정리한다.

1. DER(Diarization Error Rate)란?

DER는 전체 음성 시간 대비
화자 분리 결과가 잘못된 시간의 비율이다.

수식으로 표현하면 다음과 같다.

DER=FA+MISS+CONFUSIONTOTALDER = \frac{FA + MISS + CONFUSION}{TOTAL}

여기서 중요한 것은
DER는 “문장 단위”가 아니라 “시간 단위” 지표라는 점이다.


2. DER를 구성하는 세 가지 오류

DER는 세 가지 오류의 합으로 구성된다.


2.1 FA (False Alarm)

정의

  • 실제로는 아무도 말하지 않았는데
  • 모델이 “누군가 말하고 있다”고 판단한 시간

예시

  • 배경 소음, 키보드 소리
  • 숨소리, 의자 끄는 소리
  • 음악, 잡음

의미

  • VAD 성능과 강하게 연결
  • FA가 높으면:
    • 화자 수가 과대 추정됨
    • diarization 결과가 지저분해짐

2.2 MISS (Missed Speech)

정의

  • 실제로는 말하고 있었는데
  • 모델이 음성으로 인식하지 못한 시간

예시

  • 작은 목소리
  • 발화 시작/끝이 잘린 경우
  • 짧은 끼어들기 발화

의미

  • VAD 민감도 문제
  • MISS가 높으면:
    • 발화가 끊어짐
    • ASR 결과와의 alignment가 깨짐

2.3 CONFUSION (Speaker Confusion)

정의

  • 말은 맞게 잡았지만
  • 화자 ID를 잘못 붙인 시간

예시

  • A가 말했는데 B로 라벨링
  • 화자 전환 시점 오류
  • 음성이 비슷한 화자 간 혼동

의미

  • 진짜 diarization 성능의 핵심
  • embedding + clustering 품질 문제

3. DER 예시로 이해하기

총 음성 길이가 100초라고 가정해보자.

  • FA: 5초
  • MISS: 10초
  • CONFUSION: 15초

DER=5+10+15100=30%DER = \frac{5 + 10 + 15}{100} = 30\%

이때 주의할 점은:

  • CONFUSION이 가장 치명적
  • FA/MISS는 후처리로 어느 정도 보정 가능
  • CONFUSION은 구조적 한계로 이어짐

4. DER 계산 시 중요한 옵션들

4.1 Collar (보정 구간)

  • 화자 전환 경계 ±0.25초 정도는
  • 오류로 계산하지 않음

이유:

  • 사람도 정확한 전환 시점을 정의하기 어려움
  • 시스템 간 비교를 공정하게 하기 위함

Collar 설정에 따라 DER는 크게 달라질 수 있다.


4.2 Overlap Speech 처리

  • 겹말(두 명 이상 동시에 발화)
  • 기본 DER에서는:
    • 한 화자만 맞아도 부분 오류
    • 혹은 전부 오류 처리

실제 회의 데이터에서는
overlap 처리 여부가 DER를 크게 좌우한다.


5. 실무에서 DER를 해석할 때 주의점

5.1 DER가 낮다고 항상 좋은가?

아니다.

  • 화자 수를 과도하게 늘리면
    • CONFUSION은 줄고
    • FA는 늘어날 수 있음
  • DER는 낮아졌지만
    • 사용자 입장에서는 더 불편한 결과일 수 있음

5.2 사용자 체감 품질과의 괴리

사용자는:

  • “이 문단이 누구 말이냐”를 본다

하지만 DER는:

  • 초 단위 오류를 본다

결과적으로:

  • DER가 높아도 체감은 괜찮을 수 있고
  • DER가 낮아도 화자 라벨이 자주 바뀌면 불만이 생긴다

6. 실제 서비스에서 함께 보는 보조 지표들

DER만 단독으로 쓰는 경우는 거의 없다.

6.1 Speaker Change Error Rate

  • 화자 전환 지점 정확도

6.2 Speaker Purity / Coverage

  • 한 화자 세그먼트에 다른 화자가 섞이지 않는 정도

6.3 Segment Fragmentation

  • 하나의 화자 발화가
    • 너무 잘게 쪼개졌는지

6.4 ASR 결합 지표

  • 화자별 WER
  • 화자 전환 지점에서의 ASR 오류 증가 여부

7. 서비스 관점에서의 현실적인 목표

실제 서비스에서는 보통:

  • CONFUSION 최소화를 최우선
  • FA / MISS는 후처리로 완화
  • DER 절대값보다:
    • 버전 간 개선 추이
    • 데이터 도메인별 상대 비교
      를 더 중요하게 본다.

8. 정리

  • DER는 diarization의 표준 지표다.
  • FA, MISS, CONFUSION의 합으로 구성된다.
  • CONFUSION이 실제 품질에 가장 큰 영향을 준다.
  • DER는 시간 기반 지표이며,
    사용자 체감과는 차이가 있다.
  • 실제 서비스에서는
    DER + 보조 지표 + ASR 결합 평가가 필요하다.

마무리

Speaker Diarization은
정답이 명확해 보이지만,
평가와 해석이 가장 어려운 영역 중 하나다.

DER는 출발점이지 결론이 아니다.
실제 서비스에서는
“어디가 틀렸는지”를 해석할 수 있어야
의미 있는 개선으로 이어진다.

Comments