못믿을 AI 순위표? '성적 올리려 기출문제만 달달 외우게 한다' [팩플]

📆 2024-05-09 오전 11:16:00
📰 joongangilbo

⏱ Reading Time:
31 sec. here
14 min. at publisher
📊 Quality Score:
News: 58%
Publisher: 53%

팩플 뉴스

리더보드,성능,리더보드 순위

리더보드는 AI 모델 성능을 측정하는 시험인 ‘벤치마크(성능시험)’ 점수를 줄 세워 평가한 순위표다. 네이버 관계자는 '지난해 오픈AI의 GPT-4의 한국어 능력을 가늠하기 위해 영어 능력 평가 시험인 MMLU를 임시로 번역해 측정에 사용했다'면서 'MMLU에 영어 문화권에만 통용되는 상식이 있었고, 번역 오류도 않았던 탓에 평가의 정확도가 낮아졌다'고 말했다. 업계는 AI 모델 성능 비교를 위해 자체적으로 여러 가지 벤치마크 점수를 혼합해 성능을 가늠하거나, 정성평가를 병행하고 있다.

인공지능 모델의 성능 비교 ·평가 방식을 둘러싼 AI기업들의 고민이 깊어지고 있다. AI 모델 성능의 척도로 통했던 ‘ 리더보드 ’가 실제 성능을 보장해주지 않는다는 불만이 쌓이면서다.

좋은 성과지만 최근 AI기업들 사이에선 리더보드 순위에 크게 의미부여를 하기 어렵다는 평가가 많이 나온다. 카카오뱅크 AI 개발부서 한 관계자는 “리더보드 상위권의 AI 모델을 사용해봐도, 각종 정성평가를 해보면 만족스럽지 않았다”고 말했다. 익명을 요청한 네이버 AI 관련 부서 관계자도 “해외를 중심으로 성능이 좋지 않은 소규모 LLM이 높은 순위를 기록하면서 리더보드의 신뢰성에 대한 업계의 의문이 꾸준히 늘었다”며 “모두가 신뢰할만한 거대언어모델 평가 지표를 찾는 게 업계의 큰 과제”라고 말했다. 리더보드, 뭐가 문제야 리더보드에 대한 불신이 커진 건 소규모 LLM이 난립해서다. 특히 일부 해외 LLM 개발사의 경우 ‘편법’을 쓰기도 한다. LLM 성능을 개선하기 위해 다양한 자료를 학습시켜 성능을 개선하는 대신 시험 고득점에 유리한 자료만 학습시킨다는 것. 예컨대, AI 모델의 상식 수준을 판단하는 벤치마크에 나올 시험 문제에 유리한 데이터만 집중 학습시키는 식이다. 기출문제만 달달 외우는 방식인 셈이다. 카카오뱅크의 AI 기술 개발부서 관계자는 “일부 리더보드에 높은 순위를 기록한 해외 LLM을 자세히 살펴보니 오염된 데이터를 사용한 사례도 많았다”고 말했다.

리더보드 성능 리더보드 순위 리더보드 상위권 성능 비교 LLM AI 리더보드 허깅페이스 AI 모델 성능평가 벤치마크 점수 벤치마크

댓글 쓰기

이 소식을 빠르게 읽을 수 있도록 요약했습니다. 뉴스에 관심이 있으시면 여기에서 전문을 읽으실 수 있습니다. 더 많은 것을 읽으십시오:

대한민국 최근 뉴스, 대한민국 헤드 라인

Similar News:다른 뉴스 소스에서 수집한 이와 유사한 뉴스 기사를 읽을 수도 있습니다.

[팩플] SNS 피드 보다가 '여기 찾아줘'…인스타·페북서 'AI 챗봇' 쓴다메타가 페이스북·인스타그램 등 자사 소셜미디어(SNS)에 AI(인공지능) 챗봇 기능을 도입한다. 18일(현지시간) 메타는 자체 개발한 오픈소스(개방형) LLM 라마3 기반의 AI 챗봇 ‘메타 AI’를 페이스북과 인스타그램, 왓츠앱 등 자사 SNS에 탑재한다고 밝혔다. 친구와 채팅 중 주말에 여행을 가기로 결정했다면 메타AI에게 ‘일몰을 볼 수 있고 채식 메뉴를 선택할 수 있는 1시간 거리 이내 식당을 찾아 달라’고 요청할 수 있고, 인스타 피드를 보다 멋있는 사진을 발견하면 ‘해당 장소로 여행하기 좋은 시기와 저렴한 항공권을 알아보라’고 시킬 수도 있다.
출처: joongangilbo - 🏆 11. / 53 더 많은 것을 읽으십시오 »

'장시호 녹취록'에 검사 탄핵 언급한 이재명 '검사인지 깡패인지'"미리 질문지 외우게 했다? 탄핵 넘어 형사 처벌해야 하는 중범죄"
출처: OhmyNews_Korea - 🏆 16. / 51 더 많은 것을 읽으십시오 »

삼성전자 경계현 “AI 초기 시장 승리 못해···2라운드는 승리해야”경계현 삼성전자 디바이스솔루션(DS)부문장(사장)이 “인공지능(AI) 초기 시장에서는 우리가 승리하지 못했다”며 “2라운드는 우리가 승리해야 한다. 우리가 가진 역량을 잘 집...
출처: kyunghyang - 🏆 14. / 51 더 많은 것을 읽으십시오 »

울산시가 정부합동평가서 '2관왕' 된 비결정량평가 95.2% 달성, 정성평가 6건·국민평가 1건 우수사례 등 역대 최고 성적
출처: OhmyNews_Korea - 🏆 16. / 51 더 많은 것을 읽으십시오 »

[GS칼텍스 매경오픈] 드라이버 319야드, 무서운 15세베스트 아마 노리는 안성현첫날 3언더, 상위권 성적
출처: maekyungsns - 🏆 15. / 51 더 많은 것을 읽으십시오 »

천하람 당선인께, 퀴어 축제 금지도 재고 요청해달라[이성윤의 MZ정치칼럼] 성적 자기결정권 존중받는 사회를 만들자
출처: OhmyNews_Korea - 🏆 16. / 51 더 많은 것을 읽으십시오 »