본문 바로가기
교내|외 활동/LPCVC

LPCV | 텍스트, 이미지 인코더

by 0/0 2026. 2. 19.

1. 텍스트 인코더란?

 

텍스트 인코더(Text Encoder)는

문장을 숫자 벡터(embedding)로 변환하는 모델이다.

 

컴퓨터는 문장을 그대로 이해하지 못한다.

따라서 자연어를 수치화된 벡터로 바꿔야 한다.

 

예를 들어,

“A dog is running on the grass”

 

라는 문장은

텍스트 인코더를 통과하면 다음과 같은 벡터로 변환된다.

 

[0.13, -0.72, 1.04, ..., 0.55]

이 벡터는 문장의 의미를 압축 표현한 값이다.

 

2. 왜 텍스트 인코더가 중요한가?

 

최근 멀티모달 AI (이미지 + 텍스트 모델)에서는

텍스트도 하나의 “의미 표현”으로 변환해야 한다.

 

예를 들어 2026 LPCVC Track1 과제는

'이미지와 텍스트를 같은 공간에 매핑해 가장 적절한 문장을 찾는 문제'

이다.

 

이때 텍스트 인코더는

  • 모든 후보 문장을 벡터로 변환하고
  • 이미지 벡터와 유사도를 계산할 수 있게 만든다.

3. CLIP의 텍스트 인코더 구조

CLIP 모델은

텍스트 인코더와 이미지 인코더로 구성된다.

 

텍스트 인코더는 보통:

  • Transformer 기반 구조
  • Self-Attention 사용
  • 마지막에 Projection Layer 적용

과정을 거친다.

 

처리 흐름

  1. 문장을 토큰으로 분리
  2. 토큰을 임베딩 벡터로 변환
  3. Transformer Encoder 통과
  4. 최종 문장 벡터 생성
  5. 이미지 인코더와 동일 차원으로 projection

4. 텍스트 인코더의 핵심 역할

 

✔ 의미 압축

✔ 문맥 반영 (Self-Attention)

✔ 동일 차원 벡터 공간 매핑

✔ 이미지와 직접 비교 가능하게 변환

 

결국 텍스트 인코더는

 

“문장을 의미 공간상의 좌표로 바꾸는 장치”

 

라고 이해하면 쉽다.

 

5. LPCVC 관점에서의 중요성

 

Track1에서는

 

  • Latency (속도)
  • Recall@Top10 (정확도)

 

가 중요하다.

 

텍스트 인코더는:

 

  • 후보 텍스트 수가 많을수록
  • 연산량과 메모리 사용량이 증가한다.

 

따라서

 

  • 경량화
  • 양자화
  • 사전 임베딩 캐싱

 

같은 전략이 중요해진다.

 

한 줄 정리

텍스트 인코더는 문장의 의미를 벡터로 변환하여 이미지와 직접 비교할 수 있게 만드는 핵심 모듈이다.


1. 이미지 인코더란?

 

이미지 인코더는

이미지를 숫자 벡터로 변환하는 모델이다.

 

RGB 이미지를 입력받아

그 이미지가 담고 있는 “의미”를 벡터로 표현한다.

 

예를 들어,

강아지 사진이 입력되면

[0.42, -0.15, 0.91, ..., -0.33]

같은 고차원 벡터로 변환된다.

 

이 벡터는 단순한 픽셀 정보가 아니라

객체, 상황, 장면의 의미 정보를 포함한다.

 

2. 이미지 인코더의 구조

 

이미지 인코더는 보통:

  • CNN 기반 (ResNet 등)
  • 또는
  • Vision Transformer (ViT)

를 사용한다.

 

CLIP에서는 주로 Vision Transformer를 사용한다.

 

3. 처리 과정

  1. 이미지 입력 (RGB)
  2. 패치 분할 (ViT의 경우)
  3. 패치 임베딩 생성
  4. Transformer 통과
  5. 최종 CLS 토큰 추출
  6. Projection → 공통 임베딩 공간

4. 이미지 인코더의 핵심 역할

 

✔ 시각적 특징 추출

✔ 객체 및 장면 이해

✔ 의미 기반 표현 생성

✔ 텍스트와 비교 가능하도록 변환

 

이미지 인코더는 단순히 “이미지를 분류”하는 것이 아니라

 

이미지를 의미 좌표로 변환하는 역할

 

을 한다.

 

5. LPCVC 관점에서의 중요성

Track1에서는 Snapdragon 모바일 환경에서 실행해야 한다.

 

즉,

  • 속도가 매우 중요
  • NPU 최적화 필요
  • 모델 경량화 필요

 

이미지 인코더는 보통 텍스트 인코더보다 연산량이 크기 때문에

  • 모델 압축
  • Quantization
  • Efficient backbone 선택

이 성능을 좌우한다.

 

한 줄 정리

이미지 인코더는 이미지를 의미 벡터로 변환하여 텍스트와 직접 비교 가능하게 만드는 핵심 모듈이다.

'교내|외 활동 > LPCVC' 카테고리의 다른 글

LPCV | 모델 학습시켜보기  (0) 2026.02.19
LPCV | 환경설정  (0) 2026.02.12
LPCV | Clip 모델  (0) 2026.02.12