공모전

공모전

대외활동

커뮤니티

NEW

그로스앤챌린지 : 공모전, 대외활동 사이트 스펙업은 그챌

인공지능, 경연

Meta

973

AIcrowd : Comprehensive RAG Benchmark

마감일

마감

참가 대상

누구나

1등 상금

540만원

장소

온라인

소개

RAG 시스템 테스트, 평가, 강화하기

- LLM의 환각 문제를 해결하고, 검색-증강 생성(RAG) 및 종합적 RAG(CRAG) 벤치마크를 진행해요 - 대규모 언어 모델(LLM)이 때때로 사실 정확성이 결여된 대답을 생성할 수 있어요. 연구에 따르면, GPT-4는 느리게 변화하는 또는 빠르게 변화하는 사실에 대한 질문에 대한 정확도가 15% 미만이며, 변하지 않는 사실에 대해 덜 인기 있는 개체를 언급하는 질문에 대한 정확도는 35% 미만이에요 - LLM의 지식 부족 문제를 완화하기 위한 유망한 솔루션으로, 질문에 대해 외부 소스를 검색하여 관련 정보를 검색한 후 근거가 있는 답변을 제공해요. RAG 시스템은 가장 관련성 높은 정보를 선택하고, 질문 응답 지연을 줄이며, 복잡한 질문에 답하기 위해 정보를 종합하는 등 여러 도전에 직면해 있어요 - CRAG는 다섯 가지 도메인 및 여덟 가지 질문 유형에 걸쳐 RAG 시스템을 평가하며, RAG 시스템을 평가하기 위한 실용적인 설정을 제공해요. CRAG에는 몇 초에서 수년에 걸쳐 변화하는 답변이 포함된 질문, 개체 인기도를 고려한 것뿐만 아니라 머리, 몸통, 꼬리 사실을 모두 포함하고, 간단한 사실 질문뿐만 아니라 비교, 집계, 세트 질문과 같은 7가지 유형의 복잡한 질문을 포함하여 RAG 솔루션의 추론 및 종합 능력을 테스트해요

참가 정보

참가 대상

RAG 모델에 관심있는 누구나, 개인 또는 5인 이내 팀으로 참가 가능

참가 비용

무료

참가 방법

5월 20일 (월) 까지 해당 웹사이트를 통해 데이터 결과물 제공

참가 장소

온라인

상금 정보

1등

1팀, 540만원

2등

1팀, 270만원

3등

1팀, 135만원

일정

접수 기간 및 1단계

3월 20일 (수) ~ 5월 20일 (월)

2단계

5월 22일 (수) ~ 6월 20일 (목)

당첨자 공지

7월 15일 (월)

우승자 발표

8월 26일 (월)

* 모든 마감일은 미국 시간 기준으로 오후 11시 59분이에요

심사

완벽함(1점), 허용가능(0.5점), 누락(0점), 부정확함(-1점)을 기준으로 점수가 매겨지며, 질문 유형의 인기도와 엔터티 인기도에 따라 가중치를 적용해요- RAG 시스템은 평가 세트의 질문에 대한 응답 품질을 측정하는 채점 방법을 사용하여 평가해요 - 응답은 완벽함, 허용 가능, 누락 또는 부정확으로 평가해요 - 자동화된(자동 평가) 평가와 사람이 수행하는(사람 평가) 평가를 모두 사용해요 - 자동 평가는 상위 10개 팀을 선택하고, 사람 평가는 각 작업에 대해 상위 3개 팀을 결정해요

* 가중치에 대한 내용을 공개되지 않아요

내용에 오류가 있을 수 있으며, 주최사 사정으로 인하여 관련 정보가 변경될 수 있으니
주최사 홈페이지나 공지사항을 통해 반드시 공모요강 및 변경 사항을 확인해주세요.
등록한 내용에 대하여 사용자가 취한 조치에 대해서 그로스앤챌린지는 어떠한 책임도 지지 않습니다.

그로스앤챌린지 : 공모전, 대외활동 사이트 스펙업은 그챌

저장