dev.Log
임베딩 생성과 모달 정렬의 차이 (RAG와 LLM-ASR 관점에서) 본문
AI 모델에서 자주 등장하는 개념 중 하나가 **임베딩(Embedding)**이다.
하지만 임베딩과 함께 자주 언급되는 **모달 정렬(Modal Alignment)**은
막상 설명하려면 헷갈리는 경우가 많다.
이 글에서는
- 임베딩 생성이 무엇인지
- 모달 정렬이 왜 다른 개념인지
- RAG와 음성 기반 LLM(LLM-ASR)에서 이 둘이 어떻게 다르게 쓰이는지
를 정리해본다.
임베딩 생성이란?
임베딩 생성은 텍스트, 음성, 이미지 같은 데이터를
AI가 이해할 수 있는 숫자 벡터로 변환하는 과정이다.
예를 들면 다음과 같다.
- 단어 → 벡터
- 문서 → 벡터
- 음성 신호 → feature 벡터
- 이미지 → 벡터
이렇게 변환된 벡터는
“이 데이터가 어떤 의미를 가지는지”를 수치적으로 표현한다.
예시
- 문서 임베딩: 문장의 의미를 하나의 벡터로 표현
- 음성 임베딩: 음성 신호를 특징 벡터로 변환
이 단계는 각 모달 내부에서의 표현 생성에 해당한다.
모달 정렬이란?
모달 정렬은 한 단계 더 나아간 개념이다.
서로 다른 종류의 데이터에서 만들어진 임베딩들을
같은 의미 공간에서 비교 가능하도록 맞추는 작업이 바로 모달 정렬이다.
즉,
- 텍스트 임베딩
- 음성 임베딩
- 이미지 임베딩
이 서로 다른 벡터들이
“같은 의미라면 가까운 위치에 오도록” 정렬하는 과정이다.
예시
- 음성 임베딩 ↔ 텍스트 임베딩 정렬
- 이미지 ↔ 텍스트 의미 대응
이 과정이 없으면
음성 벡터와 텍스트 벡터는 서로 비교 자체가 불가능하다.
임베딩 생성 vs 모달 정렬 정리
| 임베딩 생성 | 데이터를 벡터로 변환하는 작업 | 문서를 문장 벡터로 변환 |
| 모달 정렬 | 서로 다른 모달의 벡터를 의미적으로 맞춤 | 음성 벡터 ↔ 텍스트 벡터 |
RAG에서의 임베딩은 모달 정렬일까?
결론부터 말하면 아니다.
RAG(Retrieval-Augmented Generation)에서 사용하는 임베딩은
대부분 텍스트 → 텍스트 기반이다.
- 외부 문서 임베딩
- 사용자 질문 임베딩
- 벡터 검색 (cosine similarity 등)
모두 같은 모달(텍스트) 안에서 이루어지기 때문에
이는 모달 정렬이 아니라 단순 임베딩 생성 + 검색에 해당한다.
LLM-ASR에서는 왜 모달 정렬이 필요할까?
음성 기반 LLM(LLM-ASR)의 경우 상황이 다르다.
- 입력: 음성
- 출력/이해: 텍스트 기반 LLM
즉, 서로 다른 모달이 연결되어야 한다.
이 과정에서는
- 음성을 임베딩으로 변환하고
- 그 임베딩을 텍스트 의미 공간에 맞게 정렬한 뒤
- LLM이 이해할 수 있는 형태로 전달
이런 cross-modal alignment 과정이 필요하다.
그래서 LLM-ASR에서는
- projector
- alignment layer
- 추가 학습 과정
등이 들어가는 경우가 많다.
RAG 임베딩 vs LLM-ASR 모달 정렬 비교
| 목적 | 텍스트 의미 검색 | 음성 → 텍스트 의미 연결 |
| 모달리티 | 단일 모달 (텍스트) | 다중 모달 (음성 ↔ 텍스트) |
| 작업 성격 | 임베딩 생성 + 검색 | 임베딩 + 모달 정렬 |
| 추가 학습 | 보통 불필요 | 필요 (alignment 학습) |
정리
- 임베딩 생성은 데이터를 벡터로 만드는 기본 단계
- 모달 정렬은 서로 다른 모달의 벡터를 의미적으로 맞추는 심화 단계
- RAG에서 외부 지식을 임베딩하는 것은 모달 정렬이 아니다
- 음성을 텍스트 LLM에 연결하려면 모달 정렬이 반드시 필요하다
임베딩과 모달 정렬을 구분해서 이해하면
RAG, 멀티모달 LLM, 음성 기반 AI 구조가 훨씬 명확해진다.
'인공지능' 카테고리의 다른 글
| 블랙웰(Blackwell) 아키텍처 (0) | 2025.11.26 |
|---|---|
| RAG 캐시 (0) | 2025.11.21 |
| 모델 양자화(Quantization)란? (0) | 2025.04.22 |
| 프롬프팅 확장 테크닉 (2) | 2024.12.14 |
| 프롬프팅테크닉 (1) | 2024.11.19 |