SuperGLUE - 聚合AI导航网聚合AI导航网

OpenCompass 是一个由上海人工智能实验室发布的开源大模型评测平台，旨在提供公平、公开和可复现的大模型评测方案。它构建了一个包含学科、语言、知识、理解、推理五大维度的通用能力评测体系，能够全面评估大模型的能力。此外，OpenCompass还支持多模态模型的评测，并定期公布评测结果。 OpenCompass不仅支持多种先进的自然语言处理模型，如InternLM2、GPT-4、LLaMa2、Qwen以及GLM和Claude等，还整合了丰富的数据集和问题库，提供了70多个数据集和约40万个问题的模型评估方案。它的评测系统设计灵活，用户可以根据需要增加新模型或数据集，甚至自定义更高级的任务分割策略。 OpenCompass已经成为目前权威的大型模型评估平台，广泛应用于大语言模型和多模态模型的评测中。

SuperCLUE

SuperCLUE（中文通用大模型综合性测评基准），是针对中文可用的通用大模型的一个测评基准。它主要要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE，是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展。目前包括三大基准：OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。

FlagEval

FlagEval（天秤）大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用 AI 方法实现对主观评测的辅助，大幅提升评测的效率和客观性。FlagEval（天秤）创新构建了“能力 - 任务 - 指标”三维评测框架，细粒度刻画基础模型的认知能力边界，可视化呈现评测结果。目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具，并对广泛的语言基础模型、跨模态基础模型实现了评测。后续将全面覆盖基础模型、预训练算法、微调 / 压缩算法等三大评测对象，包括自然语言处理（NLP）、计算机视觉（CV）、音频须（Audio）及多模态（Multimodal）等四大评测场景和丰富的下游任务。 FlagEval 是智源 FlagOpen 大模型开源技术体系的重要组成部分。FlagOpen 旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台，支持协同创新和开放竞争，共建共享大模型时代的“Linux”开源开放生态。

C-Eval

C-Eval 是一个全面的中文基础模型评估套件，由上海交通大学、清华大学和爱丁堡大学的研究人员在2023年5月份联合推出。它旨在评估大规模语言模型（LLM）的知识和推理能力，包含13948个多项选择题，涵盖了52个不同的学科和四个难度级别：初中、高中、大学和专业。 C-Eval的核心特点在于其多层次多学科的设计，能够全面评估大模型的语言理解、生成能力和逻辑推理等多维度性能。此外，C-Eval不仅用于评测模型的性能，还旨在辅助模型开发，帮助开发者科学地使用该评测工具进行模型迭代。 C-Eval是一个权威的中文AI大模型评测数据集，适用于考察大模型的知识和推理能力，并且在全球范围内具有较高的影响力。

MMLU Benchmark

MMLU Benchmark （Massive Multitask Language Understanding）是一个用于评估多任务语言理解模型性能的基准测试。它通过提供多个语言理解任务和模型对比，适用于各种需要进行多任务语言理解的场景。该基准测试覆盖了57个主题，包括STEM、人文学科、社会科学等领域。MMLU Benchmark旨在衡量模型在零样本（zero-shot）和少样本（few-shot）设置下的多任务能力，并通过统一的评估框架来全面评估语言模型的整体性能。此外，MMLU Benchmark包含一个包含15908个问题的数据集，分为几组开发集、验证集和测试集，以测量文本模型在不同任务中的多任务准确率。这个基准测试不仅用于评估模型的知识水平，还强调模型在理解和生成语言方面的能力，涵盖机器翻译、文本摘要和情感分析等多种任务。

相关导航