每日新讯网
网站首页 时代探索每日新讯新讯视评视觉聚焦社会热点音苑时空民生观察 成为会员
图闻纪实诗坛荟萃焦点网谈探索创新热点追踪每日瞭望新锐观点地方风采监督与法印象中国新讯视窗关注民生人民视点社会纵横法治前沿快闪中国深度观察史海钩沉关于我们免责声明联系我们 人员查询
  • 浙江
  • 新疆
  • 内蒙古
  • 吉林
  • 重庆
  • 辽宁
  • 贵州
  • 四川
  • 海南
  • 云南
  • 福建
  • 台湾
  • 江西
  • 湖南
  • 湖北
  • 河南
  • 广西
  • 江苏
  • 安徽
  • 山东
  • 青海
  • 甘肃
  • 陕西
  • 山西
  • 河北
  • 黑龙江
  • 天津
  • 上海
  • 北京
  • 广东
  • 宁夏
  • 西藏
每日新讯网 > 新讯视评 > 大语言模型仍无法可靠区分信念与事实 为高风险领域应用敲响警钟

大语言模型仍无法可靠区分信念与事实 为高风险领域应用敲响警钟

来源:科技日报 | 时间:2025-11-07 11:24:45 | 点击:898

科技日报记者 张梦然

  在最新一期《自然·机器智能》发表的一篇论文中,美国斯坦福大学研究提醒:大语言模型(LLM)在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。研究表明,当用户的个人信念与客观事实发生冲突时,LLM往往难以可靠地作出准确判断。

  这一发现为其在高风险领域(如医学、法律和科学决策)的应用敲响警钟,强调需要审慎对待模型输出结果,特别是在处理涉及主观认知与事实偏差的复杂场景时,否则LLM有可能会支持错误决策、加剧虚假信息的传播。

  团队分析了24种LLM(包括DeepSeek和GPT-4o)在13000个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时,较新的LLM平均准确率分别为91.1%或91.5%,较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念(“我相信……”)时,团队观察到LLM相较于真实信念,更难识别虚假信念。具体而言,较新的模型(2024年5月GPT-4o发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念,较老的模型(GPT-4o发布前)识别第一人称虚假信念的概率平均低38.6%。

  团队指出,LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念(“Mary相信……”)时,较新的LLM准确性降低4.6%,而较老的模型降低15.5%。

  研究总结说,LLM必须能成功区分事实与信念的细微差别及其真假,从而对用户查询作出有效回应并防止错误信息传播。

  总编辑圈点

  当前大语言模型虽在表面语言任务上表现优异,但缺乏人类的基础社交智能,在事实与信念识别上的误差,不仅反映出技术瓶颈,更暴露出AI在复杂社会语境中应用的潜在风险。如文中指出的医疗咨询、法律判断等场景,模型若无法辨析当事人主观认知与客观事实,会出现离谱的错位,造成严重后果。该研究揭示出模型在认知层面的关键缺陷,对AI的发展方向具有重要警示意义。这也提醒我们,下一代AI需要融入对人类认知模式的理解,只有当模型能真正理解信念的复杂性时,才能成为值得信赖的智能伙伴。

 编辑:肖潇 责任编辑:刘亮


【作者:】

文章评论
评论
全部评论
更多推荐

伊朗媒体:黎巴嫩停火前伊美和谈暂停

每日新讯网  刘正.编辑:王云

老醋焕新芯 实业兴辽沈

每日新讯网  李淑梅  刘万春---副标题:省级创新中心有望落户 辽宁“醋茅”解锁轻工振兴新范式      一缕六百年醋香,承载辽派匠心文脉;一场政企校联动,点燃传统产业新生。3月10日下午

2026年春晚的《武BOT》中国人形机器人是尖端科技创新与传统文化的有机结合

每日新讯网 刘铮.      2026年春晚的《武BOT》播出后,吸引了全世界的目光,多国媒体在报道中惊叹中国人形机器人技术的发展日新月异,而这个节目对尖端科技创新与传统文化的有机结合也令海外观众耳目一新,印象

乡行记・乡潮澎湃篇|在李白诗中的秋浦河畔 我找到了理想中的村咖

每日新讯网-- 来源:新华网.  新华网新时代中国乡野调查栏目《乡行记》全新篇章——《乡行记・乡潮澎湃篇》由五粮液百年国民品牌尖庄冠名播出。本期节目走进安徽皖南秋浦河畔的新唐村,感受百年古树下的咖啡香与田园诗意,看年轻人...

低温雨雪天出行指南:如何规避行车风险与健康隐患

央视网消息:低温雨雪冰冻天气来袭,户外出行时,我们既要防范路面湿滑带来的行车风险,又要警惕严寒刺激诱发的心脑血管疾病。寒冷天气下,我们该如何做好防护、平安出行呢?专家提醒,在北方的司机朋友冬天最好换上雪地胎。与普通轮胎相...

最新“台独”分子清单,释放哪些强烈信号?

央视网消息:2026年1月7日,国台办召开2026年首场例行新闻发布会,发言人陈斌华宣布将刘世芳、郑英耀列为“台独”顽固分子,依法实施惩戒。陈斌华还宣布将陈舒怡列为“台独”打手帮凶,依法终身追责。“台独”分子是分裂国家、...

关爱老兵 我们在行动

每日新闻网河南讯   张平 陈军廷      近日,河南省直事业单位城乡小康发展河南中心主任李国义,带领下属机构老兵频道全体员工,积极配合省政府、落实党中央、国务院关于对退役军人、军烈属服务各项政策。

商务部回应两用物项对日出口管制:制止“再军事化”和拥核企图

商务部8日举行例行新闻发布会,商务部新闻发言人何亚东在回答有关加强两用物项对日本出口管制的提问时说,高市早苗首相涉台错误言论侵害中国主权和领土完整,公然干涉中国内政,对中方发出武力威胁。高市首相上台以来,推进修订“安保三...

利比亚军方领导人失事飞机“黑匣子”将送往英国解码

  △土耳其交通和基础设施部长阿卜杜勒卡迪尔·乌拉尔奥卢(资料图)  土耳其交通和基础设施部长阿卜杜勒卡迪尔·乌拉尔奥卢当地时间7日宣布,土方已决定将在安卡拉坠毁的利比亚军机的两个黑匣子,即飞行数据记录器和驾驶舱语音记录...

伊朗称随时准备对侵略或敌对行为作出果断回应

当地时间1月6日,伊朗国防委员会秘书处发表声明,谴责某些方面针对伊朗的威胁性言论和干涉主义言论不断升级,并强调伊朗随时准备对任何侵略或敌对行为作出果断回应。  声明表示,这些言论违反了国际法原则和地区稳定原则。声明强调,...

2025
11/07
11:24
浏览量: 898
大字号
分享
今日热点
最有趣的数学题永远来源于生活

最有趣的数学题永远来源于生活

“践行习近平文化思想 担负国企文化使命”座谈会在京成功举办

“践行习近平文化思想 担负国企文化使命”座谈会在京成功举办

北京柘城商会换届暨博士团成立大会成功举办 企智融合 跨越腾飞

北京柘城商会换届暨博士团成立大会成功举办 企智融合 跨越腾飞

征程万里风正劲 奋楫笃行再出发

征程万里风正劲 奋楫笃行再出发

《山茶妹:从艰辛创业到造福一方》

《山茶妹:从艰辛创业到造福一方》



友情链接

  • 人民网
  • 中国经济网
  • 中国警察网
  • 中国长安网
  • 新华网
  • 中国台湾网
  • 中国政府网
  • 光明网
  • 求是网
  • 中国经济网
  • 中国新闻网
  • 每日新闻网
  • 央视网
  • 法制网
  • 中国青年网
  • 关于我们         联系我们         免责声明         人员查询

    • 扫码看全网内容

    地址:北京石景山区古城南街9号院绿地环球文化城6号楼18层1828 联系电话:微信连线:13601098485 18611141167
    网站备案/许可证工信部:京ICP备2026003365号-2 京公网安备11010702003003号
    每日新讯网www.everydaynews.com.cn 统一社会信用代码:91110102MA0093EQ6R
    广播电视节目制作、互联网文化活动、软件开发与数据处理 电影电视剧摄制与发行、电脑动画设计、音像制品制作 常年律师顾问:北京赢和律师事务所