임베딩 생성과 모달 정렬의 차이 (RAG와 LLM-ASR 관점에서)

Notice

Recent Posts

Recent Comments

Link

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

dev.Log

임베딩 생성과 모달 정렬의 차이 (RAG와 LLM-ASR 관점에서) 본문

인공지능

임베딩 생성과 모달 정렬의 차이 (RAG와 LLM-ASR 관점에서)

초코푸딩 2025. 7. 14. 09:30

AI 모델에서 자주 등장하는 개념 중 하나가 **임베딩(Embedding)**이다.
하지만 임베딩과 함께 자주 언급되는 **모달 정렬(Modal Alignment)**은
막상 설명하려면 헷갈리는 경우가 많다.

이 글에서는

임베딩 생성이 무엇인지
모달 정렬이 왜 다른 개념인지
RAG와 음성 기반 LLM(LLM-ASR)에서 이 둘이 어떻게 다르게 쓰이는지
를 정리해본다.

임베딩 생성이란?

임베딩 생성은 텍스트, 음성, 이미지 같은 데이터를
AI가 이해할 수 있는 숫자 벡터로 변환하는 과정이다.

예를 들면 다음과 같다.

단어 → 벡터
문서 → 벡터
음성 신호 → feature 벡터
이미지 → 벡터

이렇게 변환된 벡터는
“이 데이터가 어떤 의미를 가지는지”를 수치적으로 표현한다.

예시

문서 임베딩: 문장의 의미를 하나의 벡터로 표현
음성 임베딩: 음성 신호를 특징 벡터로 변환

이 단계는 각 모달 내부에서의 표현 생성에 해당한다.

모달 정렬이란?

모달 정렬은 한 단계 더 나아간 개념이다.

서로 다른 종류의 데이터에서 만들어진 임베딩들을
같은 의미 공간에서 비교 가능하도록 맞추는 작업이 바로 모달 정렬이다.

즉,

텍스트 임베딩
음성 임베딩
이미지 임베딩

이 서로 다른 벡터들이
“같은 의미라면 가까운 위치에 오도록” 정렬하는 과정이다.

예시

음성 임베딩 ↔ 텍스트 임베딩 정렬
이미지 ↔ 텍스트 의미 대응

이 과정이 없으면
음성 벡터와 텍스트 벡터는 서로 비교 자체가 불가능하다.

임베딩 생성 vs 모달 정렬 정리

구분설명예시

임베딩 생성	데이터를 벡터로 변환하는 작업	문서를 문장 벡터로 변환
모달 정렬	서로 다른 모달의 벡터를 의미적으로 맞춤	음성 벡터 ↔ 텍스트 벡터

RAG에서의 임베딩은 모달 정렬일까?

결론부터 말하면 아니다.

RAG(Retrieval-Augmented Generation)에서 사용하는 임베딩은
대부분 텍스트 → 텍스트 기반이다.

외부 문서 임베딩
사용자 질문 임베딩
벡터 검색 (cosine similarity 등)

모두 같은 모달(텍스트) 안에서 이루어지기 때문에
이는 모달 정렬이 아니라 단순 임베딩 생성 + 검색에 해당한다.

LLM-ASR에서는 왜 모달 정렬이 필요할까?

음성 기반 LLM(LLM-ASR)의 경우 상황이 다르다.

입력: 음성
출력/이해: 텍스트 기반 LLM

즉, 서로 다른 모달이 연결되어야 한다.

이 과정에서는

음성을 임베딩으로 변환하고
그 임베딩을 텍스트 의미 공간에 맞게 정렬한 뒤
LLM이 이해할 수 있는 형태로 전달

이런 cross-modal alignment 과정이 필요하다.

그래서 LLM-ASR에서는

projector
alignment layer
추가 학습 과정

등이 들어가는 경우가 많다.

RAG 임베딩 vs LLM-ASR 모달 정렬 비교

항목RAG 임베딩LLM-ASR

목적	텍스트 의미 검색	음성 → 텍스트 의미 연결
모달리티	단일 모달 (텍스트)	다중 모달 (음성 ↔ 텍스트)
작업 성격	임베딩 생성 + 검색	임베딩 + 모달 정렬
추가 학습	보통 불필요	필요 (alignment 학습)

정리

임베딩 생성은 데이터를 벡터로 만드는 기본 단계
모달 정렬은 서로 다른 모달의 벡터를 의미적으로 맞추는 심화 단계
RAG에서 외부 지식을 임베딩하는 것은 모달 정렬이 아니다
음성을 텍스트 LLM에 연결하려면 모달 정렬이 반드시 필요하다

임베딩과 모달 정렬을 구분해서 이해하면
RAG, 멀티모달 LLM, 음성 기반 AI 구조가 훨씬 명확해진다.

'인공지능' 카테고리의 다른 글

블랙웰(Blackwell) 아키텍처 (0)	2025.11.26
RAG 캐시 (0)	2025.11.21
모델 양자화(Quantization)란? (0)	2025.04.22
프롬프팅 확장 테크닉 (2)	2024.12.14
프롬프팅테크닉 (1)	2024.11.19

'인공지능' Related Articles

Comments

dev.Log

임베딩 생성과 모달 정렬의 차이 (RAG와 LLM-ASR 관점에서) 본문

임베딩 생성과 모달 정렬의 차이 (RAG와 LLM-ASR 관점에서)

임베딩 생성이란?

예시

모달 정렬이란?

예시

임베딩 생성 vs 모달 정렬 정리

RAG에서의 임베딩은 모달 정렬일까?

LLM-ASR에서는 왜 모달 정렬이 필요할까?

RAG 임베딩 vs LLM-ASR 모달 정렬 비교

정리

'인공지능' 카테고리의 다른 글

티스토리툴바