인포그래픽= 비주얼 캐피털리스트
ChatGPT는 얼마나 똑똑한가?
2023년 3월 27일에 발표된 기술 보고서를 통해 오픈AI는 GPT-4로 알려진 최근 모델에 대한 포괄적인 요약을 제공했다. 이 보고서에는 위 그래픽에서 시각화한 시험 결과가 포함되어 있다. 챗GPT는 3.5에서 4.0으로 버전이 올라갔고, 그 능력 비교를 오픈AI가 진행한 것이다.
다양한 학술 시험을 시뮬레이션으로 진행했는데 여기에는 미국의 수능시험으로 여겨지는 SAT, 변호사 시험, 그리고 AP(고등학생들에게 대학 레벨의 수업을 제공하고 매년 5월 전세계적으로 실시되는 시험을 통해 학생들이 대학의 학점을 취득할 수 있도록 하는 시험), 기말 시험 등이 포함되어 있다.
시험을 본 결과는 놀라웠다. 4.0이 확실히 3.5에 비해 똑똑해진 것을 알 수 있다. 챗GPT가 시험에서 60 백분위수에 위치한다면, 이는 시험 응시자 중 60%보다 높은 점수를 받았음을 의미하는데 4.0 버전은 90 백분위수 이상을 받은 과목이 많았다.
SAT 독해 및 쓰기에서 챗GPT 4.0은 93 백분위수를 받아 3.5 시절 받은 87에 비해 큰 향상을 보았다. 93백분위수는 시험 응시자 중 93%보다 높은 점수를 받았음을 의미한다. 가장 높은 점수를 받은 시험은 미국의 대학원 입학을 위한 시험으로 여겨지는 GRE에서 99 백분위수를 기록한 것이다. 이전 버전의 63에 비해 큰 성장을 보인 것. 법조인이 되기 위한 BAR 시험에서는 10이었던 3.5 시절에 비해 일취월장한 90 백분율을 기록했고, SAT 수학시험도 70에서 89로 껑충뛰었다. 챗GPT는 그러나 코딩, 프로그래밍에서는 약함을 보였는데 5 백분율밖에 기록하지 못해 복잡한 문제를 해결하는 데에는 어려움을 보였다.
이 밖에 챗GPT 4.0이 3.5에 비해 큰 향상을 보인 시험은 법대 입학을 위한 시험(LSAT)에서 40에서 89로 향상, AP 생물학 시험에서 62에서 85로 상승, AP 통계학에서 40에서 85로 향상, AP 화학에서 22에서 71로 껑충 뜀, AP 물리학에서 30에서 66으로 높아짐을 기록했다. 챗GPT는 AP 영어, AP 문학, 프로그래밍에서는 낮은 점수를 기록했다.
GPT-4(2023년 3월 발표)는 대부분의 시험에서 GPT-3.5(2022년 3월 발표)보다 훨씬 능력이 높다는 것을 보여줬다. 그러나 AP 영어 및 프로그래밍에서는 개선되지 않은 것으로 나타났다.
챗GPT는 적절한 에세이를 작성할 수 있지만, 시험 문제를 이해하는 데 어려움을 겪었고 프로그래밍의 경우, 10개의 코드포스(Codeforces) 대회를 각각 100번씩 시도했는데 등급은 392(5 백분위수 이하)을 받았고 해당 대회 최고 점수인 1,300에는 크게 못 미쳤다. 코딩 대회에서 역대 최고 점수를 받은 선수는 중국의 jiangly로, 3,841을 받았다.