GPT-4, 한의사 국가시험 정답률 66%…합격선 넘겨

이전 연구선 정답률 57% 기록
합격선 60%에 미치지 못한 결과
이번 연구선 정답률 66% 도달
‘프롬프트 엔지니어링’ 활용이 요인
한의학적 특수성 반영 위한 노력 필요

국내 연구진이 생성형 인공지능(AI) 챗봇 모델 GPT-4가 한의사 국가시험에 합격할 수준을 갖췄다고 밝혔다.

김창업 가천대학교 한의과대학 교수 연구팀은 22일 GPT-4가 한의사 국가시험을 통과할 수 있는 수준의 성능을 보였다고 발표했다.

연구팀은 GPT-4 모델을 한의학 관련 AI 개발에 적용할 수 있을지 평가하기 위해 연구를 진행했다.

이전 연구에서 GPT-4는 2022년에 시행된 한의사 국가시험을 치렀는데, 평균 57.59%의 정답률을 기록했다.

이는 합격선(60% 이상)에 미치지 못하는 결과다.

이번 연구에서는 GPT-4의 언어 모델에 문항을 제시하는 방식을 최적화해 성능을 극대화하는 ‘프롬프트 엔지니어링’ 기법을 활용했다.

그 결과, GPT-4는 합격선을 웃도는 정답률을 보였다.

2022년도 한의사 국가시험 문제를 GPT-4에 제시한 후 정답률을 평가했는데, GPT-4는 340문항 중 225문항(정답률 66.18%)을 맞혔다.

과목별 정답률은 과락 기준인 40%보다 높았다.

GPT-4는 국제적으로 표준화된 진단 기준에 대한 문제가 많은 본초학, 소아과학, 부인과학 과목에서 각각 81.2%, 81.2%, 79.2%의 정답률을 기록했다.

반면 한국 한의학의 특성을 반영하는 보건의약관계법규, 사상의학 과목에서는 각각 40%, 43.8%의 상대적으로 낮은 정답률을 보였다.

연구팀은 이와 관련해 “한국어로 이뤄진 문항을 언어 모델에 그대로 입력했을 때는 평균 정답률이 51.82%였다”고 말했다.

또 “한의학 용어를 한자로 함께 적었을 때는 57.59%, 지시와 문제를 영어로 스스로 번역하게 한 후 해당 문제를 풀게 할 때는 63.65%로 상승해 정답률이 높아지는 것을 확인했다”고 설명했다.

아울러 “이번 연구에서 GPT-4는 한국의 특수성을 잘 받아들이지 못할 수 있음을 보여줬다”고 밝혔다.

이어 “추후 의료 AI 모델을 개발할 때 각 국가와 지역의 특수성을 반영하는 노력이 필요할 것”이라고 강조했다.

한편 해당 연구 결과는 온라인 과학 저널인 ‘플로스 디지털 헬스’(PLOS Digital Health)에 실렸다.

백진호 온라인 뉴스 기자 kpio99@segye.com

세계일보