[KANANA 429] 이미지를 이해하는 AI, 카카오 Kanana-v 정리하기

2026. 6. 15. 10:26코딩 도구/카카오 AI 앰배서더 KANANA 429

반응형

다독다독 프로젝트를 진행하면서 자연스럽게 이미지를 이해하는 AI에 관심이 생겼다.

다독다독 프로젝트 개발 글 :
https://mkisos.tistory.com/entry/429

 

[KANANA 429] Kanana-o API로 만든 AI 독서 친구, “다독다독” 개발기

Kanana-o API로 만든 AI 독서 친구, “다독다독” 개발기발달장애 아동이 그림책을 보고, 듣고, 말하며 감정을 이해할 수 있도록 돕는 AI 독서 친구 데모Repository: https://github.com/mk-isos/dadokdadok-kananaDemo:

mkisos.tistory.com

 

 

그림책 기반 AI 독서 친구를 만들다 보니 단순히 텍스트를 생성하는 것만으로는 부족했다.
그림책 속 장면을 이해하고, 등장인물의 행동이나 감정을 파악하고, 아이의 질문에 맞게 설명해 주기 위해서는 AI가 이미지를 어떻게 이해하는지가 중요하다는 생각이 들었다.

 

그러면서 이런 궁금증이 생겼다.

 

“AI가 이미지를 이해한다는 건 정확히 무슨 뜻일까?”
“이미지를 본다는 것과 이미지를 이해한다는 것은 무엇이 다를까?”
“그림책 속 장면을 보고 아이와 자연스럽게 대화하려면 어떤 기술이 필요할까?”

 

그래서 이번에는 카카오 기술블로그의
「이미지도 찰떡같이 이해하는 카카오의 멀티모달 언어모델 Kanana-v 알아보기」를 읽고 정리해 보았다.

https://tech.kakao.com/posts/667

 

이미지도 찰떡같이 이해하는 카카오의 멀티모달 언어모델 Kanana-v 알아보기 - tech.kakao.com

안녕하세요, 카카오의 AI 모델 개발을 담당하는 카나나 알파(Kanana ⍺) 조...

tech.kakao.com

 

이번 글의 주인공은 Kanana-v다.
이름의 v는 Vision, 즉 시각 정보를 다루는 모델이라는 의미로 이해하면 좋다.


1. Kanana-v는 어떤 모델일까?

Kanana-v는 카카오가 개발한 이미지 이해 중심의 멀티모달 언어모델이다.

 

여기서 멀티모달이라는 말은 텍스트만 다루는 것이 아니라 이미지나 음성처럼 여러 형태의 정보를 함께 다룬다는 뜻이다.
Kanana-v는 그중에서도 이미지와 텍스트를 함께 이해하는 모델에 가깝다.

 

예전의 컴퓨터비전 모델을 떠올리면 보통 이런 작업들이 먼저 생각난다.

 

사진 속 물체가 무엇인지 분류하기,
이미지 안에서 사람이나 자동차의 위치를 찾기,
이미지에 적힌 글자를 인식하기,
사진 속 장면을 설명하기.

 

하지만 Kanana-v 같은 모델은 여기서 한 단계 더 나아간다.
단순히 “이미지 안에 무엇이 보인다”에서 끝나는 것이 아니라 이미지 속 정보를 바탕으로 사용자의 질문에 답할 수 있다.

 

예를 들어 메뉴판 사진을 보고 “이 중에서 매운 음식은 뭐야?”라고 물으면,
모델은 이미지 속 글자를 읽고 메뉴 이름을 이해하고 사용자의 질문 의도에 맞게 답변해야 한다.

 

문서 사진을 보고 “이 문서에서 중요한 내용만 요약해줘”라고 물으면,
이미지 안의 글자를 인식하는 것에서 끝나지 않고 문서의 구조와 문장의 의미까지 이해해야 한다.

 

, Kanana-v는 이미지를 단순히 보는 모델이라기보다
이미지를 읽고, 이해하고, 언어로 설명하는 모델이라고 볼 수 있다.


2. Kanana-v 개발 과정

카카오 기술블로그 글은 Kanana-v를 단순히 “이런 기능이 됩니다”라고 소개하는 데서 끝나지 않는다. Kanana-v가 어떤 구조로 만들어졌고 어떤 방식으로 학습되었으며 왜 데이터가 중요한지까지 개발 과정을 함께 설명한다.

 

글의 흐름을 크게 나누면 다음과 같다.

 

첫 번째는 모델 구조다.
이미지를 언어모델과 어떻게 연결할 것인지에 대한 이야기다.

두 번째는 학습 전략이다.
이미지와 텍스트를 함께 이해하도록 모델을 어떤 순서와 방식으로 학습시킬 것인지에 대한 이야기다.

세 번째는 데이터다.

멀티모달 모델의 성능을 좌우하는 가장 중요한 요소로 어떤 데이터를 어떻게 구성하고 학습에 활용하는지가 핵심이다.

 

이 세 가지를 이해하면 Kanana-v가 단순히 이미지 인식 모델이 아니라, 이미지와 언어를 연결해 답변을 생성하는 멀티모달 언어모델이라는 점이 더 잘 보인다.


3. 모델 구조: 이미지를 언어모델이 이해하게 만들기

Kanana-v의 구조를 쉽게 이해하려면 먼저 이런 질문을 던져볼 수 있다.

 

“언어모델은 원래 텍스트를 처리하는 모델인데 이미지는 어떻게 이해할까?”

 

이미지는 텍스트처럼 단어와 문장으로 이루어져 있지 않다.
이미지는 픽셀로 이루어져 있다.
그래서 이미지를 그대로 언어모델에 넣을 수는 없다.

 

이때 필요한 것이 Vision Encoder다.

Vision Encoder는 이미지에서 중요한 시각적 특징을 뽑아내는 역할을 한다.
예를 들어 이미지 속에 어떤 물체가 있는지, 글자가 어디에 있는지, 화면 구성이 어떻게 되어 있는지, 사물 사이의 관계가 어떤지 등을 벡터 형태의 정보로 표현한다.

 

하지만 여기서 끝이 아니다.
Vision Encoder가 뽑아낸 이미지 특징은 여전히 언어모델이 바로 이해하기 어려운 형태다.

그래서 이미지 정보를 언어모델이 이해할 수 있는 형태로 변환해 주는 연결 구조가 필요하다.
이 역할을 하는 것이 Projector 또는 C-Abstractor 같은 모듈이다.

 

쉽게 비유하면 이렇게 볼 수 있다.

Vision Encoder는 AI의 눈이다.
이미지에서 중요한 시각 정보를 뽑아낸다.

Projector 또는 C-Abstractor는 번역기다.
이미지 정보를 언어모델이 이해할 수 있는 형태로 바꿔준다.

LLM은 두뇌다.
이미지 정보와 사용자의 질문을 함께 보고 자연어로 답변을 만든다.

 

즉, Kanana-v는 단순히 이미지 모델과 챗봇을 붙인 것이 아니다.
이미지에서 추출한 시각 정보를 언어모델의 입력 공간 안으로 잘 연결해 모델이 이미지와 텍스트를 함께 이해할 수 있도록 만든 구조다.


AI가 이미지를 이해한다는 것은 단순히 “사진을 본다”는 의미가 아니라 이미지 정보를 언어모델이 추론할 수 있는 형태로 바꾸는 과정까지 포함한다는 것을 알 수 있었기 때문이다.


4. 학습 전략: Kanana-v의 4-Stage 학습 전략

모델 구조가 준비되었다고 해서 바로 이미지를 잘 이해하는 것은 아니다.
이미지와 텍스트를 함께 이해하려면 그에 맞는 학습 과정이 필요하다.

 

카카오 기술블로그에서 특히 흥미로웠던 부분은 Kanana-v가 단순한 멀티모달 학습이 아니라, 이전 연구인 Honeybee의 2-Stage 학습 전략을 발전시켜 4-Stage 학습 전략을 사용한다는 점이었다.

 

Honeybee에서는 일반적으로 비전 인코더(Vision Encoder)를 freeze하여 학습하지 않고 먼저 이미지와 언어를 연결하는 C-Abstractor(Projector)를 학습한 뒤 이후 LLM과 함께 학습하는 2단계 전략을 사용했다. 반면 Kanana-v는 이 과정을 더 세분화하여 다음과 같은 4단계 학습 전략을 사용한다.

Stage 학습  대상데이터
Stage 1 Projector(C-Abstractor) Image captions, OCR
Stage 2 Entire model Dense image captions, grounding, OCR, document
Stage 3 Entire model 다양한 QA 형식 데이터셋
Stage 4 Entire model Human preference 데이터

 

특히 마지막 Stage 4인 Human Preference Alignment는 현재도 활발히 연구개발이 진행 중인 단계라고 한다.

Stage 1: Projector Pre-training

첫 번째 단계는 Projector(C-Abstractor) 사전학습이다.

 

앞서 모델 구조에서 살펴봤듯이 Vision Encoder는 이미지를 이해하고 LLM은 언어를 이해한다. 하지만 이 둘을 연결하는 C-Abstractor가 제대로 학습되지 않으면 이미지 정보가 언어모델에 올바르게 전달되지 않는다.

 

카카오 기술블로그에서는 이 부분을 매우 중요하게 설명한다.

 

만약 C-Abstractor를 랜덤하게 초기화한 상태로 학습을 시작하면 언어모델 입장에서는 이미지 정보가 거의 랜덤 노이즈처럼 들어오게 된다. 그러면 Vision Encoder와 LLM이 아무리 뛰어나더라도 잘못된 출력을 만들 가능성이 높아진다.

 

그래서 Stage 1에서는 대규모 이미지 캡션 데이터와 OCR 데이터를 활용해 C-Abstractor를 먼저 학습시킨다. 이는 이미지 특징을 언어 공간으로 안정적으로 변환할 수 있는 초기 가중치를 만드는 과정이라고 이해했다.

 

개인적으로는 이 부분이 멀티모달 모델의 핵심이라고 느꼈다.
좋은 Vision Encoder와 좋은 LLM을 단순히 붙인다고 좋은 VLM이 되는 것이 아니라 둘 사이를 연결하는 모듈의 초기화와 학습이 매우 중요하다는 점이 인상적이었다.

Stage 2: Continued Pre-training

두 번째 단계는 Continued Pre-training이다.

 

Stage 1에서 이미지와 언어를 연결하는 방법을 배웠다면 이제는 모델이 실제로 다양한 시각적 능력을 학습해야 한다.

흥미로운 점은 단순한 이미지 캡션 데이터만 사용하는 것이 아니라 Dense Caption, Grounding, OCR, Document 같은 고품질 데이터셋을 활용한다는 점이다.

 

특히 Dense Caption 데이터는 일반적인 이미지 설명보다 훨씬 자세하다.

 

예를 들어 일반 캡션이

"공원에서 아이가 강아지와 놀고 있다."

정도라면 Dense Caption은

"빨간 옷을 입은 아이가 잔디 위에서 갈색 강아지와 공놀이를 하고 있으며, 뒤쪽에는 벤치와 나무가 보인다."

처럼 이미지의 세부 요소와 위치 관계까지 설명한다.

 

또한 Grounding 데이터는 특정 텍스트가 이미지의 어느 위치를 가리키는지 학습하게 한다.
예를 들어 "고양이"라는 단어가 이미지의 어느 영역에 해당하는지 연결하는 방식이다.

 

이 단계의 목표는 단순히 이미지를 보는 것이 아니라,

  • 작은 객체 인식
  • 위치 관계 이해
  • OCR
  • 문서 구조 이해
  • 세밀한 시각 정보 추출

같은 다양한 Visual Understanding 능력을 학습하는 것이다.

Stage 3: Supervised Fine-tuning

세 번째 단계는 Supervised Fine-tuning(SFT) 이다.

 

Stage 2까지 모델이 이미지를 충분히 이해하게 되었다면 이제는 사용자의 질문에 적절하게 답변하도록 정렬(Alignment)해야 한다.

이를 위해 Visual Question Answering(VQA) 형식의 데이터셋을 활용한다.

 

예를 들어

  • "사진 속 사람은 무엇을 하고 있나요?"
  • "문서의 제목은 무엇인가요?"
  • "그래프에서 가장 높은 값은 무엇인가요?"

같은 질문과 정답 쌍을 학습한다.

 

이 단계에서 모델은 단순히 이미지를 이해하는 것을 넘어

  1. 사용자의 질문 의도를 파악하고
  2. 이미지에서 필요한 정보를 찾고
  3. 자연어로 답변을 생성하는 방법

을 학습하게 된다.

 

결국 멀티모달 모델이 실제 서비스에서 사용되기 위해서는 이미지 이해 능력뿐 아니라 질문에 맞는 답변 생성 능력도 함께 필요하다는 점을 보여준다.

Stage 4: Human Preference Alignment

마지막 단계는 Human Preference Alignment다.

이 단계는 흔히 RLHF(Reinforcement Learning from Human Feedback)라고 불리는 접근과 연결된다.

 

Stage 3에서는 사람이 선호하는 정답 답변을 학습했다면 Stage 4에서는 선호 답변과 비선호 답변의 차이를 학습한다.

 

예를 들어 두 개의 답변이 있을 때

  • 어떤 답변이 더 자연스러운지
  • 어떤 답변이 더 안전한지
  • 어떤 답변이 사용자 의도에 더 부합하는지

를 학습하게 된다.

 

이 과정은 단순히 성능 향상뿐 아니라

  • 환각(Hallucination) 감소
  • 위험한 발언 방지
  • 사용자 친화적 응답 생성

에도 중요한 역할을 한다.

 

카카오 기술블로그에 따르면 이 단계는 현재도 활발히 연구개발이 진행 중이라고 한다.

Learning without Forgetting: 망각 현상 방지

기술적으로 가장 흥미로웠던 부분 중 하나는 Catastrophic Forgetting(망각 현상) 에 대한 설명이었다.

 

사전학습된 모델은 새로운 능력을 학습하는 과정에서 기존 능력을 잃어버릴 수 있다.

예를 들어 이미지 이해 능력은 좋아졌지만 기존 언어모델의 자연스러운 대화 능력이 떨어진다면 우리가 원하는 멀티모달 모델이 아니다.

이를 방지하기 위해 Kanana-v는

  • 모듈별 학습률(Learning Rate) 조정
  • 레이어별 세밀한 학습 전략
  • 기존 언어 말뭉치(Text Corpus) 재사용
  • 언어 벤치마크 기반 성능 추적

등을 활용했다고 한다.

 

특히 언어 벤치마크를 지속적으로 측정하며 학습률과 데이터셋을 조정했다는 점이 인상 깊었다.

멀티모달 모델을 만든다는 것은 단순히 새로운 능력을 추가하는 것이 아니라 기존 능력을 잃지 않도록 균형 있게 학습시키는 과정이라는 점을 느낄 수 있었다.

Learning with Rationales: 추론 과정을 학습하기

또 하나 인상 깊었던 부분은 Learning with Rationales였다.

 

최근 LLM 연구에서는 단순히 정답만 생성하는 것보다, 정답에 도달한 사고 과정을 함께 생성하도록 학습시키는 방식이 중요하게 다뤄진다.

대표적인 예가 Chain-of-Thought(CoT) 방식이다.

예를 들어 수학 문제를 풀 때

정답: 42

만 출력하는 것보다,

먼저 조건 A를 확인하고 이후 B를 계산한 뒤 최종적으로 42가 된다.

처럼 추론 과정을 단계적으로 설명하도록 학습시키는 방식이다.

 

이러한 Rationale은 단순히 설명을 위한 기능이 아니다.

연구 결과에 따르면 추론 과정을 생성하도록 학습하면 복잡한 문제 해결 능력이 향상되는 경우가 많다.

또한 사용성 측면에서도 장점이 있다.

사용자는 모델이 왜 그런 답변을 했는지 이해할 수 있고 만약 답변이 틀렸더라도 어느 단계에서 오류가 발생했는지 확인할 수 있다.

카카오는 이를 위해 정답뿐 아니라 정답에 대한 근거(Rationale) 를 포함한 고품질 학습 데이터를 직접 구축했다고 한다.

 

개인적으로는 이 부분이 특히 인상 깊었다. 좋은 AI는 단순히 정답을 맞히는 AI가 아니라 왜 그런 결론에 도달했는지 설명할 수 있는 AI라는 방향성을 보여주기 때문이다.

결국 Kanana-v의 학습 전략은 단순히 이미지와 텍스트를 연결하는 수준을 넘어

  • 안정적인 멀티모달 연결
  • 세밀한 시각 이해
  • 사용자 정렬(Alignment)
  • 망각 방지
  • 추론 과정 학습

까지 고려한 매우 체계적인 학습 파이프라인이라고 느꼈다.

5. Data, Data, and Data!

글에서 특히 인상 깊었던 표현은 “Data, Data, and Data!”였다.

 

모델 구조와 학습 전략도 중요하지만, 결국 멀티모달 모델의 성능을 결정하는 데 가장 중요한 것은 데이터라는 의미로 이해했다.

 

생각해보면 당연하다.
AI가 이미지를 보고 답변하려면 다양한 이미지를 봐야 한다.
문서를 이해하려면 문서 데이터를 학습해야 한다.
차트를 이해하려면 차트 데이터를 학습해야 한다.
손글씨를 읽으려면 손글씨 데이터를 학습해야 한다.
수학 문제를 풀려면 수학 문제 이미지와 풀이 데이터를 학습해야 한다.

 

특히 Kanana-v처럼 한국어 환경에서 잘 동작해야 하는 모델이라면 데이터의 중요성은 더 커진다.

 

한국어 문서, 한국어 간판, 한국어 메뉴판, 한국어 시험 문제, 한국어 차트, 한국 문화가 반영된 이미지가 필요하기 때문이다.

 

영어권 데이터만 많이 학습한 모델은 영어 문서나 해외 이미지에는 강할 수 있다.
하지만 실제 한국 서비스에서 사용되는 이미지는 다르다.

 

한국어는 글자 모양도 다르고, 문서 양식도 다르고, 문화적 맥락도 다르다.
예를 들어 한국 음식 메뉴판을 이해하려면 단순히 글자를 읽는 것뿐만 아니라 “김치찌개”, “제육볶음”, “순두부”, “공깃밥” 같은 표현과 음식 문화도 어느 정도 이해해야 한다.

 

그래서 Kanana-v에서 데이터는 단순한 학습 재료가 아니라 모델이 어떤 환경에서 잘 동작할지를 결정하는 핵심 요소라고 볼 수 있다.

 

이 부분을 읽으면서 좋은 AI 모델을 만든다는 것이 단순히 큰 모델을 만드는 일이 아니라는 생각이 들었다. 어떤 데이터를 모으고, 어떤 품질로 정제하고, 어떤 과제를 풀 수 있도록 구성하느냐가 모델의 실제 사용성을 좌우한다.

결국 멀티모달 AI의 성능은 모델 구조 + 학습 전략 + 데이터 품질이 함께 만들어내는 결과라는 것을 느꼈다.


6. Kanana-v 기능과 활용 예시

카카오 기술블로그 글의 후반부에서는 Kanana-v가 어떤 일을 할 수 있는지 다양한 예시를 보여준다.

 

목차를 보면 다음과 같은 기능들이 등장한다.

 

Image understanding and creative writing,
Document Understanding,
Chart and diagram understanding,
Handwritten text understanding,
Math,
Commonsense.

 

Kanana-v가 단순히 “이미지를 인식한다”는 말로 설명되지 않는다는 것을 보여준다.

 

카카오 기술블로그 글에는 각 기능에 대한 실제 예시와 이미지가 함께 정리되어 있다. 개인적으로는 글로 다시 정리하는 것보다 원문에 있는 시각 자료를 직접 보는 편이 훨씬 이해가 쉬웠다. 관심이 있다면 아래 링크에서 예시 이미지와 함께 살펴보는 것을 추천한다.

https://tech.kakao.com/posts/667


7. Kanana-v와 Kanana-o는 어떻게 연결될까?

다음 게시글에 정리한 Kanana-o는 이미지와 음성을 함께 다루는 통합 멀티모달 언어모델이다. 이번에 정리한 Kanana-v는 그중에서 이미지 이해에 해당하는 부분을 담당한다고 볼 수 있다.

 

간단히 정리하면 이런 느낌이다.

Kanana-v는 이미지를 이해하는 모델이다.
Kanana-a는 음성을 이해하고 생성하는 모델이다.
Kanana-o는 이미지와 음성을 함께 다루는 통합 멀티모달 모델이다.

 

이렇게 보면 Kanana-v는 단독으로도 중요한 모델이지만 Kanana-o 같은 통합 멀티모달 AI로 확장되기 위한 중요한 기반이기도 하다.

사람이 세상을 이해할 때도 글만 읽는 것이 아니라 눈으로 보고, 귀로 듣고, 말하면서 상호작용한다.
AI도 점점 텍스트 중심에서 벗어나 이미지와 음성을 함께 이해하는 방향으로 발전하고 있다.

Kanana-v는 그중에서 “AI가 본다는 것”이 무엇인지 보여주는 모델이라고 느꼈다.


8. 개발자 관점에서 인상 깊었던 점

이 글을 읽으면서 가장 인상 깊었던 점은 컴퓨터비전이 단순히 이미지를 분류하는 기술에서 끝나지 않는다는 것이었다.

 

예전에는 컴퓨터비전이라고 하면 이미지 분류, 객체 탐지, 세그멘테이션 같은 작업을 먼저 떠올렸다.
물론 이런 기술들은 여전히 중요하다.

 

하지만 Kanana-v를 보면서 앞으로의 컴퓨터비전은 언어모델과 결합해 더 넓은 방향으로 확장될 수 있겠다는 생각이 들었다.

 

이제 AI는 단순히 이미지 속 물체를 맞히는 것을 넘어 이미지 속 정보를 읽고, 사용자의 질문을 이해하고, 그에 맞는 답변을 만들어야 한다.

 

예를 들어 이런 서비스들이 가능해질 수 있다.

 

영수증 사진을 찍으면 소비 내역을 정리해주는 서비스,
문서 이미지를 올리면 핵심 내용을 요약해주는 서비스,
교재 사진을 찍으면 문제를 설명해주는 학습 서비스,
메뉴판 사진을 보고 식단을 추천해주는 서비스,
그림책 이미지를 보고 아이와 대화하는 AI 독서 친구.

 

특히 나는 이전에 Kanana-o를 활용해 그림책 기반 AI 독서 친구 데모를 만들어 본 적이 있어서 이미지 이해 모델의 가능성이 더 크게 느껴졌다.

 

그림책 이미지를 보고 장면을 설명하고, 아이의 수준에 맞게 문장을 바꾸고, 감정에 대해 질문을 던지는 서비스는 결국 이미지 이해 능력이 좋아질수록 더 자연스러워질 수 있기 때문이다.


9. 더 공부해보고 싶은 내용

이번 글을 읽고 나서 더 공부해보고 싶은 내용도 생겼다.

 

첫 번째는 Vision Encoder다.
이미지를 언어모델에 전달하기 전에 어떤 방식으로 특징을 추출하는지 더 알고 싶어졌다.

 

두 번째는 Projector 또는 C-Abstractor 같은 연결 구조다.
이미지 정보를 어떻게 언어모델이 이해할 수 있는 형태로 바꾸는지 궁금했다.

 

세 번째는 VLM의 학습 방식이다.
이미지와 텍스트를 함께 학습시키려면 어떤 데이터가 필요하고 어떤 순서로 학습하는지 더 공부해보고 싶다.

 

네 번째는 한국어 이미지 이해 평가다.
한국어 OCR, 한국어 문서 이해, 한국어 차트 해석처럼 실제 국내 서비스에서 중요한 과제들이 어떤 방식으로 평가되는지 궁금해졌다.

 

이번 글을 읽기 전에는 컴퓨터비전을 조금 막연하게 생각했다.
하지만 Kanana-v를 정리하면서 컴퓨터비전이 VLM, 멀티모달 AI, 실제 서비스 개발과 깊게 연결될 수 있다는 것을 느꼈다.

최근 컴퓨터비전 연구실 학부연구생에도 관심을 가지고 있는데 이 글을 읽고 나니 단순히 “이미지 AI가 신기하다”가 아니라 “이미지와 언어를 연결하는 모델 구조를 더 공부해보고 싶다”는 생각이 들었다.

 

앞으로 기회가 된다면 LLaVA, CLIP, BLIP, Qwen-VL 같은 Vision-Language Model도 함께 공부해보고, 작은 이미지 질의응답 데모도 직접 만들어보고 싶다.

 

10. 마무리

Kanana-v를 한 문장으로 정리하면 이미지를 단순히 인식하는 것을 넘어 이미지 속 정보와 사용자의 질문을 함께 이해해 답변할 수 있는 카카오의 이미지 이해 멀티모달 언어모델이라고 말할 수 있을 것 같다.

이번 글을 읽으며 “AI가 이미지를 이해한다”는 말의 의미를 조금 더 구체적으로 생각해볼 수 있었다. 이미지를 이해한다는 것은 단순히 사진 속 물체 이름을 맞히는 것이 아니라, 이미지 속 글자, 문서 구조, 차트, 손글씨, 수학 문제, 상황의 맥락, 사용자의 질문 의도까지 함께 해석하는 일에 가깝다.

특히 Kanana-v의 구조와 학습 전략을 보면서 컴퓨터비전이 VLM, 멀티모달 AI, 실제 서비스 개발과 깊게 연결될 수 있다는 점이 인상 깊었다. 앞으로 Vision Encoder, C-Abstractor, VLM 학습 방식, 한국어 이미지 이해 평가에 대해 더 공부해보고 싶다.

Kanana-v는 나에게 이미지 이해 AI의 흐름을 이해하는 좋은 출발점이 되었고 컴퓨터비전 연구실 학부연구생을 준비하면서도 더 깊게 공부해보고 싶은 주제를 만들어준 글이었다.

반응형