AI测评
C-Eval
C-Eval 是一个全面的中文基础模型评估套件,由上海交通大学、清华大学和爱丁堡大学的研究人员在2023年5月份联合推出。它旨在评估大规模语言模型(LLM)的知识和推理能力,包含13948个多项选择题,涵盖了52个不同的学科和四个难度级别:初中、高中、大学和专业。 C-Eval的核心特点在于其多层次多学科的设计,能够全面评估大模型的语言理解、生成能力和逻辑推理等多维度性能。此外,C-Eval不仅用于评测模型的性能,还旨在辅助模型开发,帮助开发者科学地使用该评测工具进行模型迭代。 C-Eval是一个权威的中文AI大模型评测数据集,适用于考察大模型的知识和推理能力,并且在全球范围内具有较高的影响力。
C-Eval 是一个全面的中文基础模型评估套件,由上海交通大学、清华大学和爱丁堡大学的研究人员在2023年5月份联合推出。它旨在评估大规模语言模型(LLM)的知识和推理能力,包含13948个多项选择题,涵盖了52个不同的学科和四个难度级别:初中、高中、大学和专业。 C-Eval的核心特点在于其多层次多学科的设计,能够全面评估大模型的语言理解、生成能力和逻辑推理等多维度性能。此外,C-Eval不仅用于评测模型的性能,还旨在辅助模型开发,帮助开发者科学地使用该评测工具进行模型迭代。 C-Eval是一个权威的中文AI大模型评测数据集,适用于考察大模型的知识和推理能力,并且在全球范围内具有较高的影响力。
SuperCLUE(中文通用大模型综合性测评基准),是针对中文可用的通用大模型的一个测评基准。 它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。 目前包括三大基准:OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。