gpt-4o 성능 요약

이 이미지는 대체 속성이 비어있습니다. 그 파일 이름은 image.png입니다
gpt-4o

Open AI가 GPT-4o를 새로 출시했다. (처음엔 GPT-40(사십)인 줄.) live demo도 신기하지만, 공식 블로그 글에는 시연되지 않은 추가 개선 사항을 포함한 OpenAI의 최신 모델에 대한 대부분의 정보가 포함되어 있다.


간략한 성능 요약

  1. GPT-4o에서 o는 omni를 뜻한다.
    • without limit을 의미
  2. 오디오 응답 지연 시간이 320ms로, GPT-4의 5.4(5400ms)에서 크게 감소했다.
    • 인간 응답 시간은 모든 언어에서 평균 208ms 정도다.
  3. GPT-4 터보보다 2배 빠르고 50% 저렴하다.
  4. 특히 비영어권 언어 관련해서 GPT-4 터보보다 훨씬 우수하다
  5. Omni는 audio-text, text-text, text-audio로 이어지는 GPT-4와 달리 text, vision, audio에 걸쳐 엔드 투 엔드로 구성된 새로운 단일 모델로, 모든 입력과 출력이 동일한 신경망으로 처리된다. 즉, 모든 입력과 출력이 동일한 신경망으로 처리 된다는 의미이다. 이는 다음과 같은 결과로 이어진다
    • 오디오 구문 분석 능력 향상
      • 오디오 파일 내의 다양한 화자 캡처 및 이해
      • 강의 요약
      • 오디오에서 사람의 감정 포착 기능
    • 오디오 출력 기능 향상
      • 사람의 감정을 표현하는 능력
      • 노래하는 능력
    • 개선된 이미지 생성 기능
      • 생성된 이미지의 텍스트 렌더링이 크게 개선됨
      • 입력으로 제공하는 캐릭터(및 사람 얼굴) 이미지를 처리하는 기능을 포함해 이미지와 프롬프트 전반의 캐릭터 일관성
      • 글꼴 생성
      • 3D 이미지/모델 생성
      • 입력 이미지의 포토샵과 유사한 타겟팅 수정
      • 소폭 개선된 MMLU/HumanEval 벤치마크


GPT-4o 관련 참고자료