인공지능 모델의 성능 비교 ·평가 방식을 둘러싼 AI기업들의 고민이 깊어지고 있다. AI 모델 성능의 척도로 통했던 ‘ 리더보드 ’가 실제 성능을 보장해주지 않는다는 불만이 쌓이면서다.
좋은 성과지만 최근 AI기업들 사이에선 리더보드 순위에 크게 의미부여를 하기 어렵다는 평가가 많이 나온다. 카카오뱅크 AI 개발부서 한 관계자는 “리더보드 상위권의 AI 모델을 사용해봐도, 각종 정성평가를 해보면 만족스럽지 않았다”고 말했다. 익명을 요청한 네이버 AI 관련 부서 관계자도 “해외를 중심으로 성능이 좋지 않은 소규모 LLM이 높은 순위를 기록하면서 리더보드의 신뢰성에 대한 업계의 의문이 꾸준히 늘었다”며 “모두가 신뢰할만한 거대언어모델 평가 지표를 찾는 게 업계의 큰 과제”라고 말했다. 리더보드, 뭐가 문제야 리더보드에 대한 불신이 커진 건 소규모 LLM이 난립해서다. 특히 일부 해외 LLM 개발사의 경우 ‘편법’을 쓰기도 한다. LLM 성능을 개선하기 위해 다양한 자료를 학습시켜 성능을 개선하는 대신 시험 고득점에 유리한 자료만 학습시킨다는 것. 예컨대, AI 모델의 상식 수준을 판단하는 벤치마크에 나올 시험 문제에 유리한 데이터만 집중 학습시키는 식이다. 기출문제만 달달 외우는 방식인 셈이다. 카카오뱅크의 AI 기술 개발부서 관계자는 “일부 리더보드에 높은 순위를 기록한 해외 LLM을 자세히 살펴보니 오염된 데이터를 사용한 사례도 많았다”고 말했다.
리더보드 성능 리더보드 순위 리더보드 상위권 성능 비교 LLM AI 리더보드 허깅페이스 AI 모델 성능평가 벤치마크 점수 벤치마크
대한민국 최근 뉴스, 대한민국 헤드 라인
Similar News:다른 뉴스 소스에서 수집한 이와 유사한 뉴스 기사를 읽을 수도 있습니다.
출처: joongangilbo - 🏆 11. / 53 더 많은 것을 읽으십시오 »
출처: OhmyNews_Korea - 🏆 16. / 51 더 많은 것을 읽으십시오 »
출처: kyunghyang - 🏆 14. / 51 더 많은 것을 읽으십시오 »
출처: OhmyNews_Korea - 🏆 16. / 51 더 많은 것을 읽으십시오 »
출처: maekyungsns - 🏆 15. / 51 더 많은 것을 읽으십시오 »
출처: OhmyNews_Korea - 🏆 16. / 51 더 많은 것을 읽으십시오 »