Alina Lozovskaya

#929 opened 7 days ago by

FuJhen

model evaluation failed

7

#895 opened 28 days ago by

thomas-yanxin

Not results found in LLM Benchmark and no in running evaluation queue

#938 opened 3 days ago by

xinchen9

New activity in open-llm-leaderboard/results 2 days ago

not show in Open-llm-leaderboard

#18 opened 2 days ago by

New activity in open-llm-leaderboard/open_llm_leaderboard 2 days ago

Model fail, re-eval request 😊

8

#885 opened about 1 month ago by

dnhkng

How to calculate GPQA score?

4

#928 opened 7 days ago by

JJaeuk

🚩 Report: Not working

#939 opened 3 days ago by

Lyte

Submitted model not found in any queue

#937 opened 4 days ago by

bedio

Why failed

#936 opened 4 days ago by

DZgas

New activity in open-llm-leaderboard/open_llm_leaderboard 3 days ago

Feature Request: add error details summary to request file when a model fails

#935 opened 4 days ago by

CombinHorizon

Unable to submit model, due to "Unknown model size" (vilm/Quyen-Pro-Max-v0.1)

#934 opened 4 days ago by

CombinHorizon

FAILED MODELS

#933 opened 5 days ago by

MaziyarPanahi

Failed models

#932 opened 5 days ago by

ThiloteE

[BUG] in the evaluation

#931 opened 6 days ago by

DeepMount00

Failed model

#930 opened 6 days ago by

New activity in open-llm-leaderboard/requests 3 days ago

failed

#59 opened 6 days ago by

Regarding evaluation code version.

#58 opened 7 days ago by

bedio

New activity in open-llm-leaderboard/results 3 days ago

Renaming Fireball-Alpaca-Llama3.1.01-8B-Philos.

3

#16 opened 5 days ago by

Not show models in LLM leaderboard

#17 opened 4 days ago by

New activity in open-llm-leaderboard/open_llm_leaderboard 8 days ago

EpistemeAI/Athene-codegemma-2-7b-it-alpaca-v1.3 Benchmark disappered

#927 opened 8 days ago by

bump-up-huggingface-hub

#926 opened 8 days ago by

fix-adapters

#925 opened 8 days ago by

manage-dependencies

9

#923 opened 9 days ago by

New activity in open-llm-leaderboard/open_llm_leaderboard 9 days ago

Model not showing up on Voting panel after Submitting

10

#919 opened 13 days ago by

alvations

removing model under evaluation.

#922 opened 9 days ago by

bedio

New activity in open-llm-leaderboard/openai-community__gpt2-details 9 days ago

Why are there two different experiment results for GPT-2 on the leaderboard?

#1 opened 10 days ago by

simwit

New activity in open-llm-leaderboard/open_llm_leaderboard 9 days ago

How to add task to the leaderboard?

#921 opened 11 days ago by

alvations

New activity in open-llm-leaderboard/open_llm_leaderboard 11 days ago

check-submit

#920 opened 11 days ago by

New activity in open-llm-leaderboard/results 11 days ago

Missing Llama 3.1 405B

#15 opened 14 days ago by

lukestanley

New activity in open-llm-leaderboard/open_llm_leaderboard 13 days ago

Changed model - EpistemeAI/Athena-gemma-2-2b-it

#917 opened 14 days ago by

New activity in open-llm-leaderboard/open_llm_leaderboard 14 days ago

Model evaluation failed

#916 opened 15 days ago by

CoolSpring

bump-up-gradio

#918 opened 14 days ago by

New activity in open-llm-leaderboard/open_llm_leaderboard 16 days ago

Running Evaluation Queue appears to be stuck

#915 opened 16 days ago by

Gryphe

Model evaluation failed for 4bit model

7

#902 opened 23 days ago by

vihangd

Can't login error

#914 opened 16 days ago by

Upload added_IVF548_Flat_nprobe_1_HOUSHANG_v2.index

4

#913 opened 16 days ago by

Huschang

Upload HOUSHANG.pth

#912 opened 16 days ago by

Huschang

IFEval reproduction problem

8

#911 opened 17 days ago by

LamTungTran

New activity in open-llm-leaderboard/open_llm_leaderboard 17 days ago

Still pending

#900 opened 25 days ago by

New activity in open-llm-leaderboard/open_llm_leaderboard 18 days ago

Incomplete model

#909 opened 19 days ago by

MaziyarPanahi

bump-up-transformers

#910 opened 18 days ago by

New activity in open-llm-leaderboard/open_llm_leaderboard 21 days ago

leaderboard should be more curated

7

#908 opened 21 days ago by

ehartford

Question: same model with very different scores

#904 opened 23 days ago by

Yuma42

Failed model (anthracite-org/magnum-v2.5-12b-kto)

#905 opened 22 days ago by

CombinHorizon

Phi-3.5 fine-tuned failed

#907 opened 21 days ago by

MaziyarPanahi

Gated models

#903 opened 23 days ago by

djstrong

add-model-generation

#906 opened 21 days ago by

New activity in open-llm-leaderboard/open_llm_leaderboard 23 days ago

phi-3-small-128k MATH Lvl 5 is 0

#897 opened 27 days ago by

huu-ontocord

Model evaluations failed

4

#884 opened about 1 month ago by

DavidGF

Incorrect ifeval benchmark

#879 opened about 1 month ago by

DavidGF

New activity in open-llm-leaderboard/requests 23 days ago

all failed tests

#57 opened 24 days ago by