gpt-4o 성능 요약

Open AI가 GPT-4o를 새로 출시했다. (처음엔 GPT-40(사십)인 줄.) live demo도 신기하지만, 공식 블로그 글에는 시연되지 않은 추가 개선 사항을 포함한 OpenAI의 최신 모델에 대한 대부분의 정보가 포함되어 있다.

GPT-4o에서 o는 omni를 뜻한다.
- without limit을 의미
오디오 응답 지연 시간이 320ms로, GPT-4의 5.4(5400ms)에서 크게 감소했다.
- 인간 응답 시간은 모든 언어에서 평균 208ms 정도다.
GPT-4 터보보다 2배 빠르고 50% 저렴하다.
특히 비영어권 언어 관련해서 GPT-4 터보보다 훨씬 우수하다
Omni는 audio-text, text-text, text-audio로 이어지는 GPT-4와 달리 text, vision, audio에 걸쳐 엔드 투 엔드로 구성된 새로운 단일 모델로, 모든 입력과 출력이 동일한 신경망으로 처리된다. 즉, 모든 입력과 출력이 동일한 신경망으로 처리 된다는 의미이다. 이는 다음과 같은 결과로 이어진다
- 오디오 구문 분석 능력 향상
  - 오디오 파일 내의 다양한 화자 캡처 및 이해
  - 강의 요약
  - 오디오에서 사람의 감정 포착 기능
- 오디오 출력 기능 향상
  - 사람의 감정을 표현하는 능력
  - 노래하는 능력
- 개선된 이미지 생성 기능
  - 생성된 이미지의 텍스트 렌더링이 크게 개선됨
  - 입력으로 제공하는 캐릭터(및 사람 얼굴) 이미지를 처리하는 기능을 포함해 이미지와 프롬프트 전반의 캐릭터 일관성
  - 글꼴 생성
  - 3D 이미지/모델 생성
  - 입력 이미지의 포토샵과 유사한 타겟팅 수정
  - 소폭 개선된 MMLU/HumanEval 벤치마크