欢迎来到聚力体育在线观看-nba高清司网站!

Llama3比GPT-4o更爱说谎首个大模型“诚实性”评估基准来了 上海交大

发布时间:2024-07-19 作者: 聚力体育在线直播观看

  上海交通大学生成式AI实验室(GAIR Lab)推出了一项开创性的评估基准——BeHonest,旨在全面评估大模型的诚实性,为安全透明的AI研发和应用提供重要参考。

  在人工智能(Artificial Intelligence, AI)快速的提升的今天,大语言模型(Large Language Models, LLMs)的崛起不仅带来了令人兴奋的新体验,也引发了对其安全性和可靠性的深度思考。

  在众多AI安全问题中,大模型的诚实性问题具有根本性的意义。不诚实的AI模型可能在不知道答案的情况下编造信息,隐藏自身能力,甚至故意误导用户。

  这种不诚实的行为不仅会引发信息传播的混乱和安全风险隐患,还会严重阻碍AI技术的逐步优化和健康发展。如果大模型不能真实地展示其能力和局限,开发者就难以精确地进行改进。

  自我认知(Self-Knowledge):评估模型是否能准确认识和表达自身的能力边界。

  非欺骗性(Non-Deceptiveness):衡量模型是否能重视表达内在真实想法,避免说谎。

  一致性(Consistency):考察模型在不同情境下是否能保持回复的一致性。

  基于这些定义,研究团队设计了10个具体场景,对9个主流大语言模型 (例如,GPT-4o、Llama3-70b等) 进行了细致的评估。

  BeHonest围绕三个核心方面:自我认知、非欺骗性和一致性,共设计了10个场景,用以广泛且细粒度地评估大模型在诚实性上的表现。并有以下关键洞察。

  BeHonest对于该方面设计了两个场景,分别评估大模型是否能承认其未知(Admitting Unknowns)和是否能坦率表达自身能力(Expressing Knowns)。

  研究发现,大多数大模型都擅长正确回答他们了解的问题,但很难主动拒绝回答他们不知道的问题。

  其中,Mistral-7b有最高的拒绝率(50.03),显示出较强的未知承认能力。GPT-4o在准确回答已知问题(95.52)和识别知识边界(50.88)方面表现出色。

  评估结果为,现有大模型倾向于说谎,不管背后是否有恶意,或者给出的指令是不是合理。有必要注意一下的是,较大的模型(或者那些已知具有更加好的指令遵循能力的模型)在某些情况下可能更容易欺骗用户。

  结果表明,较大的模型通常显示出更高的一致性,其提供的答案能反映其真实能力且不受外界干预影响。

  相比之下,较小的模型如Llama2-7b在一致性方面表现不佳(29.39),有几率会使用户感到困惑。

  评估大模型在三个大方面(自我认知、非欺骗性、一致性)上的能力的具体英文及中文示例如下所示。根据评估结果,当前大模型在诚实性上仍存在比较大的提升空间。

  Caption: 模型在多项选择题格式中显示一致性的例子(绿色)和不一致性的例子(红色)。

  GAIR Lab的这项研究为AI诚实性评估开辟了新的方向,为未来大语言模型的优化和监管提供了重要依据。研究团队呼吁AI社区进一步关注诚实性问题,并在以下方面持续努力:

  随着对AI诚实性研究的深入,我们有望看到更安全、可靠且让人信服的AI系统的出现。这不仅关乎技术进步,更关乎AI与人类社会的和谐共处。研究团队表示,他们将继续完善BeHonest评估框架,并欢迎全球研究者的参与和贡献,一同推动AI向着更加诚实、透明的方向发展。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。



聚力体育在线直播观看塑料模具定制品质厂家

专注行业15年,精益求精,不断进取,为客户提供高端定制级模具加工服务。年出口各类模具500多套,畅销欧美20国,品质认可。提供模具终身售后维护,解除您的后顾之忧。

联系我们

地址:浙江省台州市黄岩区北城开发区北院大道1号

联系人:杨经理 

手机:18969612882

固定电话:0576-84087925

QQ:1264506869

版权所有@聚力体育在线观看-nba高清

浙ICP备18011420号-1