Chatbot Arena - 聚合AI导航网聚合AI导航网

AI测评

Chatbot Arena

Chatbot Arena是由伯克利大学主导团队LMSYS Org发布的一个基准平台，用于大型语言模型（LLM）的对抗评测。该平台采用匿名和随机的方式，让不同的大型模型进行对抗评测，并通过众包方式收集用户反馈和评分。Chatbot Arena使用Elo评分系统，这是一种在国际象棋等竞技游戏中广泛使用的评分方法，以确保评测的客观性和公正性。 Chatbot Arena不仅是一个评测平台，还提供了一个开放的社区驱动的环境，用户可以通过投票来评估不同模型的表现。此外，该平台还支持多模态评测，允许用户与视觉-语言模型进行交互并进行比较。总的来说，Chatbot Arena已成为全球业界公认的基准标杆，广泛应用于大型语言模型的开发和评估。

链接直达手机查看

相关导航

CMMLU

CMMLU 是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

C-Eval

C-Eval 是一个全面的中文基础模型评估套件，由上海交通大学、清华大学和爱丁堡大学的研究人员在2023年5月份联合推出。它旨在评估大规模语言模型（LLM）的知识和推理能力，包含13948个多项选择题，涵盖了52个不同的学科和四个难度级别：初中、高中、大学和专业。 C-Eval的核心特点在于其多层次多学科的设计，能够全面评估大模型的语言理解、生成能力和逻辑推理等多维度性能。此外，C-Eval不仅用于评测模型的性能，还旨在辅助模型开发，帮助开发者科学地使用该评测工具进行模型迭代。 C-Eval是一个权威的中文AI大模型评测数据集，适用于考察大模型的知识和推理能力，并且在全球范围内具有较高的影响力。

OpenCompass

OpenCompass 是一个由上海人工智能实验室发布的开源大模型评测平台，旨在提供公平、公开和可复现的大模型评测方案。它构建了一个包含学科、语言、知识、理解、推理五大维度的通用能力评测体系，能够全面评估大模型的能力。此外，OpenCompass还支持多模态模型的评测，并定期公布评测结果。 OpenCompass不仅支持多种先进的自然语言处理模型，如InternLM2、GPT-4、LLaMa2、Qwen以及GLM和Claude等，还整合了丰富的数据集和问题库，提供了70多个数据集和约40万个问题的模型评估方案。它的评测系统设计灵活，用户可以根据需要增加新模型或数据集，甚至自定义更高级的任务分割策略。 OpenCompass已经成为目前权威的大型模型评估平台，广泛应用于大语言模型和多模态模型的评测中。

HELM

Holistic Evaluation of Language Models (HELM) 是由斯坦福大学推出的一个综合评估语言模型的平台，旨在提高语言模型的透明度和全面性。HELM 通过多维度的评估方法，涵盖多个不同的自然语言处理任务，如文本分类、命名实体识别和关系抽取等。该评测体系包括场景、适配和指标三个模块，能够为大型语言模型提供全面的质量评估。 HELM 的主要目标是通过标准化评估方法和广泛的覆盖范围，帮助用户了解和选择适合自己需求的语言模型。它采用多指标测量方法，并实现标准化，从而对众多语言模型进行评估。此外，HELM 还提供了一个统一的 API，使得研究人员可以方便地访问和测试不同的语言模型。总之，HELM 是一个先进的语言模型评估框架，通过多维度的评估方法和广泛的覆盖范围，全面了解和提升语言模型的性能和透明度。

SuperCLUE

SuperCLUE（中文通用大模型综合性测评基准），是针对中文可用的通用大模型的一个测评基准。它主要要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE，是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展。目前包括三大基准：OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。

chinese-llm-benchmark

中文大模型能力评测榜单：目前已囊括115个大模型，覆盖chatgpt、gpt4o、百度文心一言、阿里通义千问、讯飞星火、商汤senseChat、minimax等商用模型，以及百川、qwen2、glm4、yi、书生internLM2、llama3等开源大模型，多维度能力评测。不仅提供能力评分排行榜，也提供所有模型的原始输出结果！