SuperCLUE:通用中文模型的综合基准测试
FlagEval(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval(天秤)创新构建了“能力 - 任务 - 指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具,并对广泛的语言基础模型、跨模态基础模型实现了评测。后续将全面覆盖基础模型、预训练算法、微调 / 压缩算法等三大评测对象,包括自然语言处理(NLP)、计算机视觉(CV)、音频须(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。 FlagEval 是智源 FlagOpen 大模型开源技术体系的重要组成部分。FlagOpen 旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台,支持协同创新和开放竞争,共建共享大模型时代的“Linux”开源开放生态。
Artificial Analysis 是一个专注于AI语言模型和API提供商的独立分析平台。它提供详细的性能评估,帮助用户理解AI领域的格局,并为他们的具体用例选择最佳的模型和API提供商。该平台通过质量指数、吞吐量和价格等多个维度对不同的AI模型进行比较,使用户能够做出更明智的选择。
SuperCLUE(中文通用大模型综合性测评基准),是针对中文可用的通用大模型的一个测评基准。 它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。 目前包括三大基准:OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。
Holistic Evaluation of Language Models (HELM) 是由斯坦福大学推出的一个综合评估语言模型的平台,旨在提高语言模型的透明度和全面性。HELM 通过多维度的评估方法,涵盖多个不同的自然语言处理任务,如文本分类、命名实体识别和关系抽取等。该评测体系包括场景、适配和指标三个模块,能够为大型语言模型提供全面的质量评估。 HELM 的主要目标是通过标准化评估方法和广泛的覆盖范围,帮助用户了解和选择适合自己需求的语言模型。它采用多指标测量方法,并实现标准化,从而对众多语言模型进行评估。此外,HELM 还提供了一个统一的 API,使得研究人员可以方便地访问和测试不同的语言模型。 总之,HELM 是一个先进的语言模型评估框架,通过多维度的评估方法和广泛的覆盖范围,全面了解和提升语言模型的性能和透明度。
Open LLM Leaderboard 是由Hugging Face推出的一个平台,用于追踪和排名开源大型语言模型(LLMs)和聊天机器人。该排行榜基于多个基准测试,包括ARC、HellaSwag和MMLU等,并允许用户根据模型类型、精度、架构等选项进行过滤。此外,Open LLM Leaderboard还引入了开放式问题评估方法,以消除传统选择题中的固有偏见和随机猜测。 该排行榜不仅提供了一个清晰、客观的模型性能评估标准,还通过严格的基准测试和公平的评分系统,反映了不同LLMs的真实能力。用户可以在Hugging Face平台上访问和使用这个排行榜,以便更好地了解当前大模型的发展状况并进行优化。
一个具有挑战性的无污染大语言模型基准测试
FlagEval(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval(天秤)创新构建了“能力 - 任务 - 指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具,并对广泛的语言基础模型、跨模态基础模型实现了评测。后续将全面覆盖基础模型、预训练算法、微调 / 压缩算法等三大评测对象,包括自然语言处理(NLP)、计算机视觉(CV)、音频须(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。 FlagEval 是智源 FlagOpen 大模型开源技术体系的重要组成部分。FlagOpen 旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台,支持协同创新和开放竞争,共建共享大模型时代的“Linux”开源开放生态。