본 모델 목표: 작고, export 잘 되고, AI Hub에서 compile 잘 되는 구조
- Image Encoder: MobileNetV3-Small 같은 경량 CNN + projection(Linear)
- Text Encoder: CLIP 토큰 임베딩 + 아주 작은 Transformer(1~2 layer) + projection(Linear)
임베딩 차원 D: 256 (더 빠름)
- 단, 추후 정확도(Recall@10) 올리려면 512가 유리할 때가 많음.
'교내|외 활동 > LPCVC' 카테고리의 다른 글
| LPCV | 텍스트, 이미지 인코더 (0) | 2026.02.19 |
|---|---|
| LPCV | 환경설정 (0) | 2026.02.12 |
| LPCV | Clip 모델 (0) | 2026.02.12 |