Open LLM Leaderboard - 聚合AI导航网聚合AI导航网

AI测评

Open LLM Leaderboard

Open LLM Leaderboard 是由Hugging Face推出的一个平台，用于追踪和排名开源大型语言模型（LLMs）和聊天机器人。该排行榜基于多个基准测试，包括ARC、HellaSwag和MMLU等，并允许用户根据模型类型、精度、架构等选项进行过滤。此外，Open LLM Leaderboard还引入了开放式问题评估方法，以消除传统选择题中的固有偏见和随机猜测。该排行榜不仅提供了一个清晰、客观的模型性能评估标准，还通过严格的基准测试和公平的评分系统，反映了不同LLMs的真实能力。用户可以在Hugging Face平台上访问和使用这个排行榜，以便更好地了解当前大模型的发展状况并进行优化。

链接直达手机查看

相关导航

SuperGLUE

SuperGLUE 是一个用于评估自然语言处理（NLP）模型性能的基准任务集合。它包含了多个任务，每个任务都有不同的输入和输出要求。SuperGLUE的目标是提供一个更全面和挑战性的测试集，以便更好地评估NLP模型的能力。该基准数据集旨在对语言理解进行比GLUE更严格的测试，提供一个简单的、难以玩游戏的方法来衡量英语通用语言理解技术的进步。

chinese-llm-benchmark

中文大模型能力评测榜单：目前已囊括115个大模型，覆盖chatgpt、gpt4o、百度文心一言、阿里通义千问、讯飞星火、商汤senseChat、minimax等商用模型，以及百川、qwen2、glm4、yi、书生internLM2、llama3等开源大模型，多维度能力评测。不仅提供能力评分排行榜，也提供所有模型的原始输出结果！

CMMLU

CMMLU 是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

SuperCLUE

SuperCLUE（中文通用大模型综合性测评基准），是针对中文可用的通用大模型的一个测评基准。它主要要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE，是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展。目前包括三大基准：OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。