챗GPT, 대학생 수준 ‘유추추론’ 가능

UCLA 테일러 웹 박사팀
표준화 문제 풀이 학부생과 비슷
말도 안되는 답 내놓은 사례도

생성형 인공지능(AI) 챗봇 ‘챗GPT’(GPT-3)가 인간만의 고유 능력으로 여겨져 온 ‘유추 추론’(analogical reasoning)을 대학생 수준으로 할 수 있는 것으로 나타났다.

미국 로스앤젤레스 캘리포니아대(UCLA) 테일러 웹 박사팀은 1일 과학저널 ‘네이처 인간 행동’(Nature Human Behaviour)에서 GPT-3가 지능검사와 SAT 같은 표준화된 시험에 사용되는 종류의 추론 문제를 대학 학부생과 비슷한 수준으로 풀 수 있는 것으로 나타났다고 밝혔다.

연구팀은 그러나 오픈AI사가 내부 작동 방식을 공개하지 않아 GPT-3가 방대한 데이터세트를 활용한 언어 훈련을 통해 인간의 추론을 모방하는 것인지, 근본적으로 새로운 종류의 인지 프로세스를 사용하는 것인지 알 수 없다고 지적했다.

사람들은 접해보지 못한 새로운 문제를 만나면 이전의 익숙한 문제와 비교해 그 해결책을 새 문제에 적용, 특별한 훈련이나 연습 없이도 문제 해답을 찾는다. ‘유추 추론’으로 알려진 이 과정은 오랫동안 인간 고유의 능력으로 여겨져 왔다.

연구팀은 지능검사와 SAT 같은 시험에서 일반적으로 사용되지만 GPT-3는 학습 과정에서 접해보지 못했을 형태의 다양한 유추 추론 문제를 개발하고 발굴해 테스트하고, 똑같은 문제를 UCLA 학부생 40명에게 풀게 했다.

평가에 사용된 문제는 레이븐 지능검사 도형 유추, 텍스트 기반 행렬 추론, 문자열 유추, 단어 유추, 스토리 유추 등으로 먼저 주어진 예시에서 패턴을 파악하고 다음 상황에 맞는 답을 찾는 문제였다. 예를 들어 단어 유추의 경우 ‘사랑 : 증오 = 부자 : ?’에서 ‘가난’이라는 해답을 찾는 식이다.

실험 결과 GPT-3는 행렬 추론에서 정답률이 80%로 실험 참여 대학생들 평균(60%)보다 훨씬 높은 점수를 기록하는 등 대부분 분야에서 대학생들과 비슷하거나 높은 수준의 추론 성능을 보였다.

연구팀은 그러나 GPT-3가 일부 추론 문제에서는 예상보다 훨씬 뛰어난 성능을 보였지만 일부 분야에서는 사람에게는 매우 쉬운 문제에도 말도 안 되는 답을 내놓는 등 실패 사례도 다수 보였다고 밝혔다.

GPT-3는 대학생들보다 SAT 점수는 더 높았지만 한 구절을 읽고 같은 의미를 전달하는 다른 이야기를 찾는 스토리 유추에서는 학생들보다 성적이 낮았고 특히 물리적 공간 이해가 필요한 도구 사용 문제는 잘 풀지 못하는 것으로 나타났다.

연구팀은 GPT-3는 대부분의 경우 인간 능력과 비슷하거나 능가하는 추상적 패턴 유추 능력을 보였다며 이는 GPT-3 같은 거대언어모델 AI가 광범위한 유추 문제에서 학습 없이 해답을 찾을 수 있는 추론 능력을 갖췄음을 보여준다고 말했다.

연합뉴스