“西西大胆人体艺术”-梳理天下新闻

让人工智能大模型做K12学科试题，能赶上人类水平吗？ FF16 上线试玩 Demo

　　中新网北京5月21日电(中新财经记者宋宇晟)记者了解到，近日，在北京市海淀区教委支持下，智源研究院联合与海淀区教师进修学校对齐学生测验方式，考察大模型与人类学生的学科水平差异，其中，答案不唯一的主观题，由海淀教师亲自评卷。

　　评测发现，模型在综合学科能力上与海淀学生平均水平仍有差距，普遍存在文强理弱的情况，并且对图表的理解能力不足，大模型未来有很大的提升空间。

　　北京市海淀区教师进修学校校长姚守梅解读大模型K12学科测试结果时指出，在语文、历史等人文学科的考试中，模型欠缺对文字背后的文化内涵以及家国情怀的理解。面对历史地理综合题时，模型并不能像人类考生一样有效识别学科属性。相较于简单的英语题，模型反而更擅长复杂的英语题。解理科题目时，模型会出现以超出年级知识范围外的方法解题的情况。当出现无法理解的考题时，模型依然存在明显的“幻觉”。

　　此外，智源研究院还发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

　　评测结果显示，在中文语境下，国内头部语言模型的综合表现已接近国际一流水平，但存在能力发展不均衡的情况。在多模态理解图文问答任务上，开闭源模型平分秋色，国产模型表现突出。国产多模态模型在中文语境下的文生图能力与国际一流水平差距较小。多模态模型的文生视频能力上，对比各家公布的演示视频长度和质量，Sora有明显优势，其他开放评测的文生视频模型中，国产模型PixVerse表现优异。

　　据介绍，本次用于评测的评测体系依托科技部“人工智能基础模型支撑平台与评测技术”和工信部“大模型公共服务平台”项目，智源研究院与10余家高校和机构联合开展大模型评测方法与工具研发。

　　评测使用20余个数据集、超8万道考题，包括与合作单位共建和智源自建的多个评测数据集，如中文多模态多题型理解及推理评测数据集CMMU、中文语义评测数据集C-SEM、中文语言及认知主观评测集CLCC、面向复杂算法代码生成任务的评测集TACO、文生图主观评测集Image-gen、多语言文生图质量评测数据集MG18、文生视频模型主观评测集 CUC T2V prompts。其中，主观题4000余道，均来源于自建原创未公开并保持高频迭代的主观评测集，严格校准打分标准，采取多人独立匿名评分、严格质检与抽检相结合的管理机制，降低主观偏差的影响。此外，为了更准确地评测语言模型的各项能力，智源专门对所有客观数据集的子数据集进行了能力标签映射。(完)

[ 更多头条 ]

更多> 更多>

政法要闻

高层动态

「瓦格纳集团」是个怎样的组织？军事实力如何？: 　　2021年底，印度批准了一项价值约合100亿美元的激励计划，以吸引全球大型半导体制造商将印度作为生产基地，并将印度打造为电子系统设计和制造的全球中心，意图与中国和越南竞争全球手机生产市场。[详细]

高校回应领导被举报出轨他人妻子2024-05-21 13:05:39
我爸80岁都不想退休的原因！治愈生灵的同时也治愈自己2024-05-21 19:27:44
游走在法律真空地带的俄雇佣兵团2024-05-21 22:45:01
央行本周开展4160亿元逆回购，专家预计资金面有望平稳跨季2024-05-21 09:39:25
少年行开播2024-05-21 14:59:08

男孩高考705分跳起尖叫拥抱父母: 　　2018年，周旭勇任新疆维吾尔自治区党委宣传部副部长、新疆维吾尔自治区新闻出版广电局党组书记、副局长，后任新疆维吾尔自治区党委宣传部常务副部长等职。 [详细]

长风渡宣发2024-05-21 22:21:00
2023 年高考结束后，大学选什么专业好？2024-05-21 08:03:16
天津高考分数线公布2024-05-21 17:02:22
出手即巅峰，脑瓜嗡嗡嗡2024-05-21 11:54:52
离开海洋三亿年，人类能否重返海洋生活？2024-05-22 00:23:32

热点新闻更多>

: 女儿587分老爸直呼“祖坟冒烟喽”

{随机集中}[详细]

未定事件簿2024-05-22 03:38:28
范志毅率队挑战村超球队2024-05-22 03:38:28
普京：新型重型导弹“萨尔马特”将进入战斗值勤2024-05-22 03:38:28
2023高考分数线汇总2024-05-22 03:38:28
周星驰高调宣布拍摄《少林女足》，你对该片有哪些期待？2024-05-22 03:38:28
高考之后怎么选专业？2024-05-22 03:38:28
车臣领导人完全支持普京2024-05-22 03:38:28
大脑：这一歇就是四年2024-05-22 03:38:28
普京发表讲话称俄罗斯正为未来开展「最复杂的战斗」，不会让俄罗斯分裂，反叛者会受惩罚，哪些信息值得关注？2024-05-22 03:38:28

更多> 更多> 更多>

平安建设

市域治理

人事任免

: 女儿没考好和妈妈吵架被丢高速

　　6月16日，大连梭鱼湾球场上，新任国足主帅向郑智送上了一件印有数字108的特制球衣，球场中响起了谭咏麟的老歌《讲不出再见》，现场27000名观众用掌声送别国足老队长。[详细]

2023年高考分数线2024-05-22 03:38:28
对战2024-05-22 03:38:28
健美大赛女选手不满名次，愤怒扔鞋？主办方称初查打分没问题2024-05-22 03:38:28
「鼠头鸭脖」事件异物是鼠头2024-05-22 03:38:28
瓦格纳称击落一架俄军直升机2024-05-22 03:38:28

: 五月 70 城房价

　　不过，杨涛同时对《环球时报》强调，中方从来不排斥沟通。关键是以什么样的方式沟通？能不能达到效果？沟通首先要相互尊重，平等协商。沟通也要有效果，不能为了沟通而沟通，不能只寻求解决自身关切，而忽视对方关切，不能只是说归说、做归做。中方愿本着相互尊重精神，开展建设性沟通对话，美方也要展现诚意，拿出行动。稳定中美关系，需要中美双方共同努力，相向而行。[详细]