구글 제미나이(Gemini)! 너 잼민이 아냐?

[선행AI기술팀 김석겸]

오늘 소개할 기술은 구글의 제미나이입니다. 제미나이는 구글에서 LLM의 최고는 누구인가, 어떤 모달리티까지 커버할 수 있는가, 요즘 핫한 on-device AI까지 다 먹어버리겠다고 나온 모델입니다.

아래 영상이 이를 잘 보여줍니다.

간단 요약

Gemini는 Jax를 사용해서 코딩, TPUs에서 학습. 학습 데이터 정보 없음. 아키텍쳐는 디테일하게 공개하지 않음. 딥마인드의 Flamingo(text encoder와 vision encoder를 분리)와 유사해보임

Gemini 1.0은 다른 크기의 모델을 제공한다.
- Gemini Ultra
  - 가장 크고 고도로 복잡한 과제도 할 수 있는 모델
  - GPT-4 보다 낫다.
  - 내년 초 공개
- Gemini Pro
  - 넓은 범위에서 사용할 수 있는 모델
  - GPT-3.5와 비슷한 퍼포먼스
  - 현재 BARD에서 적용되어 있음
- Gemini Nano
  - On-device task에 적합한 효율적인 모델
  - Nano-1 (1.8B params), Nano-2 (3.25B params)
  - 픽셀 8 프로에 탑재 예정
32k context length
vision과 speech 이해 잘 함
코딩 능력
- HumanEval(python coding tasks) 지표에서 GPT-4를 앞질렀다.(Gemini Ultra 74.4%, GPT-4 67%)
- Natural2Code(python code generation) 지표에서는 GPT-4와의 차이가 근소함(Gemini Ultra 74.9%, GPT-4 73.9%)
대부분 태스크에서 Gemini Ultra는 GPT-4보다 성능이 우수하거나 유사
MMLU(57개 주제에 대한 multiple-choice questions) 에서는 32개 Uncertainty routed Chain-of-Thought 기준으로 Gemini Ultra는 90.04%, GPT-4는 87.29% 성능을 보여줌. 다만 5-shot 테스트에선 Gemini Ultra는 83.7%, GPT-4는 86.4% 로 결과가 바뀌었다.

모델 아키텍처

GPT-4와 다른 점은 서비스 측면에서는 둘 다 멀티 모달처럼 보이지만 모델 측면에서 GPT-4는 이미지 이해를 위한 모델 등을 추가한 것이고 Gemini는 멀티모달 모델 하나로 태스크를 수행합니다.

Gemini 모델은 자연스런 이미지, 차트, 스크린샷, PDF, 동영상 등 다양한 오디오 및 시각적 입력과 텍스트 입력을 interleaving하여 텍스트 및 이미지 출력을 생성할 수 있도록 학습되었습니다.

비디오 인코딩은 기존 멀티모달 모델인 Flamingo 구조를 따라간 듯 합니다.

또한 Universal Speech Model(USM) feature로부터 16kHz의 음성 신호를 직접적으로 수집할 수 있습니다. -> 늬앙스 정보를 모델이 잡아낼 수 있음

앞서 요약에서 말했듯이 모델 아키텍처, 학습 데이터셋에 대해서는 구체적으로 밝히지 않고 있습니다.

모델 크기별 성능

평가

텍스트

GPT4와 비슷하거나 더 뛰어나다고 나온 지표들이 많습니다.

여기서 조금 논란되는 것이 있습니다. MMLU 항목에 사용한 평가 방법인데요.

uncertainty routed Chain-of-Thought 입니다.

CoT는 사용자 질문에 한 번에 대답하는 것이 아니라 질문을 분해하여 하나씩 해결하다 보면 원하는 정답에 더 잘 대답할 수 있다는 개념입니다.

LLM이 못하는 것 중에 하나가 숫자 관련 계산인데요. 이를 풀어서 중간 과정을 넣어주면 정답에 더 잘 이를 수 있습니다.

구글 연구진은 CoT를 사용하면 모델이 명백하게 일관적이지 않을 경우에 최대우도 방식보다 성능이 떨어질 수 있다고 합니다. 이럴 경우에도 대비하기 위해 모델이 K개의 CoT 샘플을 생성하고, 역치 이상으로 컨피던스를 보이면 다수결 투표로 샘플 중 하나를 선택합니다. 그렇지 않을 경우에 greedy sample을 거부합니다. 또한 역치는 validation split의 성능에 따라 각 모델에 맞게 최적화합니다.

uncertainty routed Chain-of-Thought가 이 방법입니다.

figure 7이 이 방식을 도입한 것과 그렇지 않은 2가지 방식을 GPT-4와 비교한 결과입니다.

Score Eval 값은 greedy sampling 방식으로 한 결과 값이고, CoT@32는 기존 CoT 방식을 사용한 값입니다.

greedy sampling 한 것보다는 CoT 방식이 성능이 더 좋게 나옵니다. 여기서 차이는 GPT4(84.21 -> 87.29)가 Gemini Ultra(83.96 -> 84.99)보다 상승 정도도, 절대수치도 좋습니다.

uncertainty routed CoT를 쓰면 greedy sample과 비교했을 때, Gemini Ultra(83.96 -> 90.04)가 GPT4(84.21 -> 87.29)보다 큰 차이로 성능이 높아집니다.

여기서 논란은 이 새로운 방식이 올바른 평가 방법이냐입니다. 앞선 두개 평가 방법에서 떨어지다가 갑자기 수치가 올라가서 더 그런 것 같습니다.

추가적으로 GPT-4는 API로만 테스트를 했는데 역치를 잘 설정할 수 있었을까 궁금합니다.

멀티모달

이 영상을 보면 다양한 입력에 대해서 잘 대처하는 모습을 볼 수 있습니다. 당황스러운 태스크도 있는데 재치있게 대답합니다.

다만 저는 이것이 동영상 입력인 줄 알았는데 그게 아니라 캡쳐 이미지를 여러 장 넣어서 테스트한 결과라는 점입니다. 안내를 하긴 했지만 영상이 묘하게 동영상 입력처럼 보여서요 ^^ 이부분도 논란이 있는 부중 하나라고 합니다.

그래도 기본적으로 평가도 GPT-4V만큼 잘나옵니다. 이미지가 잘되기 시작하면 그다음 버전에선 영상도 잘하겠죠.

테스트(Gemini Pro – BARD)

최근에 들어오는 요구사항 중 하나는 리포트 작성입니다. 리포트라는 것이 종합적인 판단을 내려야 하는 것이기 때문에 표와 글 등을 종합적으로 판단해야 합니다.

아직도 PDF로 되어 있는 데이터가 많습니다. 주식 분석글들이 PDF 리포트가 많기 때문에 하나 가져왔습니다.

예시 데이터는 다음과 같습니다.

Q: 브이티라는 주식에 대해 분석한 글이다. 브이티라는 주식을 분석해줘

브이티 주식 분석

About Us

브이티는 2015년 설립된 화장품 제조 및 판매 기업입니다. 홈쇼핑, 면세점, 온라인 등 다양한 유통 채널을 통해 사업을 영위하고 있습니다. 대표 제품으로는 ‘VTX BTS’, ‘VTX CICA’, ‘리들샷’ 등이 있습니다.

재무 실적

브이티의 2023년 실적은 연결 매출 2,219억원, 영업이익 360억원으로 전년 대비 각각 16%, 53% 증가할 것으로 전망됩니다. 화장품 매출은 1,600억원으로 전년 대비 20% 증가할 것으로 예상됩니다.

투자 포인트

브이티의 투자 포인트는 다음과 같습니다.

일본 시장의 성장세

브이티는 일본 시장에서 높은 성장세를 보이고 있습니다. 2022년 일본 매출은 914억원으로 전년 대비 10배 이상 증가했습니다. 이는 일본의 화장품 시장 성장세와 브이티의 현지 마케팅 전략이 맞물린 결과로 분석됩니다.

신제품 리들샷의 흥행

브이티는 올해 초 출시한 신제품 ‘리들샷’이 일본에서 큰 인기를 끌고 있습니다. 리들샷은 마이크로 사이즈의 자연 유래 입자 성분을 함유한 더마 스킨케어 제품으로, 피부 재생과 탄력 개선에 효과가 있는 것으로 알려져 있습니다.

향후 성장 가능성

브이티는 일본 시장 외에도 중국, 동남아시아 등 해외 시장 진출을 확대할 계획입니다. 또한, 리얼리티 뷰티 플랫폼 사업 등 신사업을 통해 성장을 도모할 계획입니다.

투자 의견

하나금융투자는 브이티에 대해 매수 의견을 제시하고, 목표주가를 22,000원으로 제시했습니다. 하나금융투자는 브이티의 일본 시장 성장세와 신제품 리들샷의 흥행을 주목하며, 향후 성장 가능성을 높게 평가했습니다.

위험 요소

브이티의 투자 위험 요소는 다음과 같습니다.

일본 시장의 불확실성

일본은 고령화 및 저성장 등으로 화장품 시장의 성장세가 둔화될 수 있습니다. 또한, 일본 정부의 수출 규제 등으로 인해 브이티의 일본 사업이 영향을 받을 수 있습니다.

신제품 리들샷의 인기 지속 여부

리들샷은 아직 출시 초기 단계로, 향후 인기가 지속될지 여부는 불확실합니다. 리들샷의 인기가 지속되지 않을 경우, 브이티의 실적에 부정적인 영향을 미칠 수 있습니다.

conclusion

브이티는 일본 시장 성장세와 신제품 리들샷의 흥행으로 인해 실적 성장이 기대되는 기업입니다. 다만, 일본 시장의 불확실성 및 신제품 리들샷의 인기 지속 여부 등은 투자 시 유의해야 할 요소입니다.

이미지 생성도 기대했는데 저건 검색 결과였습니다.

그래도 도표를 OCR로 처리하여 이해하고 있다는 점이 고무적이고 일본의 경제 상황까지 고려한 전망/우려는 논리적입니다.

마무리

지금까지 간단히 제미나이에 대해서 알아보았는데요. 내년 초에 울트라 버전까지 나오면 GPT-4와 비교하여 어떻게 좋은지 보고 싶습니다.

References

blog: https://blog.google/technology/ai/google-gemini-ai/#introducing-gemini
technical report: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
https://www.ncloud-forums.com/topic/63/
https://dajeblog.co.kr/gemini%ec%a0%9c%eb%af%b8%eb%82%98%ec%9d%b4-%eb%8a%a6%ea%b8%b0-%ec%a0%84%ec%97%90-%ec%95%8c%ec%95%84%eb%b3%b4%ec%84%b8%ec%9a%94feat-google-multi-modal/