🏆 Leaderboards & Arenas 排行榜和评测基准

zh-ai-community 's Collections

📑 Papers of Trending Models

✨ MoE - 混合模型专家

🖼️ Multimodal Models 多模态模型

🔊 Audio Models

🎬 Video models

💻 Code Models

Diffusion models

🔥 LLMs < 10B Base

🔥 LLMs < 10B Chat

📌 LLMs < 35B Base

📌 LLMs < 35B Chat

⚜️ LLMs < 100B

🏆 Leaderboards & Arenas 排行榜和评测基准

updated 22 days ago

Upvote

Running on CPU Upgrade

78

🏆

Open Chinese LLM Leaderboard

Note By BAAI. The Open Chinese LLM Leaderboard aims to track, rank, and evaluate open Chinese large language models (LLMs). This leaderboard is powered by the FlagEval platform, providing corresponding computational resources and runtime environment. The evaluation dataset consists entirely of Chinese data to assess Chinese language proficiency.
Running on CPU Upgrade

383

🌎

Open VLM Leaderboard

VLMEvalKit Evaluation Results Collection

Note By OpenMMLab The OpenVLM Leaderboard evaluates and ranks 62 Vision-Language Models (VLMs) across 23 multi-modal benchmarks using the VLMEvalKit, featuring only open-source or publicly available API models.
Running

78

🚀

OpenCompass LLM Leaderboard

Note By Shanghai AI Lab An LLM leaderboard for Chinese models on many metric axes - super complete
Running

32

⚡

EvalCrafter

Note By Tencent AI Text to video generation leaderboard
Running on Zero

234

📈

GenAI Arena

Realtime Image/Video Gen AI Arena

Note By Tiger Lab An arena for image generation!
Running

15

🥇

SeaExam Leaderboard

Note By Alibaba - DAMO Southeast Asian (SEA) languages leaderboard
Running on CPU Upgrade

55

🥇

AIR-Bench Leaderboard

Note By Jina AI and BAAI A new benchmark focuses on fair out-of-domain evaluation for RAG & NeuralIR
Running

8

👁

Science Leaderboard

Leaderboard for LLM for Science Reasoning

Note By Tiger Lab Leaderboard for Science reasoning.
Running

98

📊

VBench Leaderboard

Note By Shanghai AI Lab Leaderboard for Video Generative Models.
Running

16

🏢

CompassArena
Running

10

🐠

FLARE
Running

473

🖼💬

Vision Arena (Testing VLMs side-by-side)
Running

13

🥇

ChronoMagic Bench

A Benchmark for Metamorphic Evaluation of T2V Generation
Running

8

🥇

TempCompass
Running

10

🥇

MJ Bench Leaderboard
Running

3

🏆

MM-Vet v2 Evaluator
Running on Zero

40

📈

K-Sort Arena

Efficient Image/Video K-Sort Arena
Sleeping

6

🏢

Salad Bench Leaderboard
Running

2

🥇

MLLMGuardLeaderboard

Upvote

🏆 Leaderboards & Arenas 排行榜和评测基准

Open Chinese LLM Leaderboard

Open VLM Leaderboard

OpenCompass LLM Leaderboard

EvalCrafter

GenAI Arena

SeaExam Leaderboard

AIR-Bench Leaderboard

Science Leaderboard

VBench Leaderboard

CompassArena

FLARE

Vision Arena (Testing VLMs side-by-side)

ChronoMagic Bench

TempCompass

MJ Bench Leaderboard

MM-Vet v2 Evaluator

K-Sort Arena

Salad Bench Leaderboard

MLLMGuardLeaderboard