AI测评
OpenCompass
OpenCompass 是一个由上海人工智能实验室发布的开源大模型评测平台,旨在提供公平、公开和可复现的大模型评测方案。它构建了一个包含学科、语言、知识、理解、推理五大维度的通用能力评测体系,能够全面评估大模型的能力。此外,OpenCompass还支持多模态模型的评测,并定期公布评测结果。 OpenCompass不仅支持多种先进的自然语言处理模型,如InternLM2、GPT-4、LLaMa2、Qwen以及GLM和Claude等,还整合了丰富的数据集和问题库,提供了70多个数据集和约40万个问题的模型评估方案。它的评测系统设计灵活,用户可以根据需要增加新模型或数据集,甚至自定义更高级的任务分割策略。 OpenCompass已经成为目前权威的大型模型评估平台,广泛应用于大语言模型和多模态模型的评测中。
OpenCompass 是一个由上海人工智能实验室发布的开源大模型评测平台,旨在提供公平、公开和可复现的大模型评测方案。它构建了一个包含学科、语言、知识、理解、推理五大维度的通用能力评测体系,能够全面评估大模型的能力。此外,OpenCompass还支持多模态模型的评测,并定期公布评测结果。 OpenCompass不仅支持多种先进的自然语言处理模型,如InternLM2、GPT-4、LLaMa2、Qwen以及GLM和Claude等,还整合了丰富的数据集和问题库,提供了70多个数据集和约40万个问题的模型评估方案。它的评测系统设计灵活,用户可以根据需要增加新模型或数据集,甚至自定义更高级的任务分割策略。 OpenCompass已经成为目前权威的大型模型评估平台,广泛应用于大语言模型和多模态模型的评测中。
C-Eval 是一个全面的中文基础模型评估套件,由上海交通大学、清华大学和爱丁堡大学的研究人员在2023年5月份联合推出。它旨在评估大规模语言模型(LLM)的知识和推理能力,包含13948个多项选择题,涵盖了52个不同的学科和四个难度级别:初中、高中、大学和专业。 C-Eval的核心特点在于其多层次多学科的设计,能够全面评估大模型的语言理解、生成能力和逻辑推理等多维度性能。此外,C-Eval不仅用于评测模型的性能,还旨在辅助模型开发,帮助开发者科学地使用该评测工具进行模型迭代。 C-Eval是一个权威的中文AI大模型评测数据集,适用于考察大模型的知识和推理能力,并且在全球范围内具有较高的影响力。