Articles
Chargement...

编者按:在 MBTI 测试风靡的当下,人们热衷于探寻自己究竟是充满活力的“快乐小狗”,还是敏感细腻的“流泪猫猫”。当大模型逐渐成为人们生活中不可或缺的助手时,你是否会好奇:这些大模型有着怎样的特性,或者说,它们秉持何种不同的价值观? 微软亚洲研究院最新发布的 Value Compass Benchmarks(价值观罗盘评估中心),可以帮助用户以更科学、系统和可靠的方式,对大模型的价值观展开评估。同...

Articles
微软亚洲研究院发布社会责任人工智能白皮书,助力构建以人为本的AI系统
编者按:在 AI 技术不断突破与快速落地的今天,如何确保其发展方向与人类价值观协调一致,正成为科技界与社会各界亟需回答的关键问题。近日,微软亚洲研究院发布了《社会责任人工智能:研究的挑战与机遇》白皮书,系统梳理了 AI 在社会实践中的复杂挑战,并提出了包括技术、伦理、治理等多维度的十大关键研究问题。通过跨越计算机科学与社会科学的深度对话,该白皮书深入探讨了如何设计“负责任的人工智能”,推动实现技术...

Articles
人工智能评测新范式:解锁AI性能的可解释力与预测力
作者:周乐鑫 随着人工智能的快速发展,通用型人工智能(如大语言模型)在诸多领域都表现出色,包括可以解决复杂的数学问题,但由于其存在不可解释性以及不可预测性,所以在基础算术等简单任务上仍可能出现失误。这对人工智能的评估提出了重大挑战——亟需发展可解释与可预测的评估方法,以明确系统失败的原因,并指导进行可靠部署。然而,目前尚无可以同时满足这两点要求的评估范式。 传统以性能为导向的评估方法在个体任务实例...