AI测评 PubMedQA
PubMedQA 是一个生物医学研究问答(QA)数据集,旨在通过相应的摘要以是/否/可能的方式回答研究问题。该数据集从PubMed摘要中收集而来,包含了1K个专家标注的问题、61.2K个未标注的问题和211.3K个人工生成的QA实例。PubMedQA的任务是使用这些摘要来回答研究问题,例如术前他汀类药物是否能减少冠状动脉旁路移植术后的心房颤动。 此外,PubMedQA是第一个需要对生物医学研究文本进行推理,特别是其定量内容的问答数据集。该数据集由匹兹堡大学和卡内基梅隆大学等机构提出,并在2019年的会议论文集中发表。
PubMedQA 是一个生物医学研究问答(QA)数据集,旨在通过相应的摘要以是/否/可能的方式回答研究问题。该数据集从PubMed摘要中收集而来,包含了1K个专家标注的问题、61.2K个未标注的问题和211.3K个人工生成的QA实例。PubMedQA的任务是使用这些摘要来回答研究问题,例如术前他汀类药物是否能减少冠状动脉旁路移植术后的心房颤动。 此外,PubMedQA是第一个需要对生物医学研究文本进行推理,特别是其定量内容的问答数据集。该数据集由匹兹堡大学和卡内基梅隆大学等机构提出,并在2019年的会议论文集中发表。
CMMLU 是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。