登录

微软紧急下架开源大语言模型工程师透露遗漏了幻觉测试环节

投稿人:丁丁 更新时间: 2024-04-23 10:45

微软紧急下架开源大语言模型工程师透露遗漏了幻觉测试环节

【太平洋科技资讯】近日，微软突然撤回了之前推出的开源大语言模型WizardLM2 8x22B，这款模型被宣传为迄今为止最强大的大模型，甚至超越了Claude 3 Opus&Sonnet、GPT-4等竞品。令人意外的是，微软在没有任何征兆的情况下删除了WizardLM2大模型的相关文件、代码，并且一直没有给出公开的解释。

一位微软的工程师给出了令人啼笑皆非的原因。这位工程师表示，由于微软已经几个月没有发布新的大模型，对上新流程有些陌生，他们居然忘了必需的幻觉测试(toxicity test)。这个测试对于大语言模型来说非常重要，因为大模型的“幻觉”分为两种，一是事实性幻觉，指模型生成的内容与可验证的现实世界事实不一致，二是忠实性幻觉，指模型生成的内容与用户的指令或上下文不一致。

对于这次失误，微软正在抓紧补测，他们已经认识到这个错误的重要性，并表示将会尽快重新上线WizardLM2大模型。幻觉测试的缺陷可能会出现在训练数据、预训练和对齐阶段、推理阶段等多个阶段，因此需要仔细检查每一个环节，以确保大语言模型的准确性和可靠性。

大语言模型的出现为人工智能领域带来了巨大的变革，但是其仍然存在许多挑战和问题。幻觉测试是确保大语言模型准确性和可靠性的重要步骤之一，而这次微软的失误也再次提醒了开发者们需要更加谨慎和细致地处理大语言模型的开发和测试工作。

虽然这次事件有些尴尬，但是也给开发者们提供了一个宝贵的教训。相信在未来，大语言模型能够更加成熟和完善，为人类带来更多的便利和惊喜。

文章标签:

推荐导读

更多

“立夏吃3宝，不往医院跑”，5月5日立夏, 3宝指什么?老传统别忘

“立夏吃3宝，不往医院跑”，5月5日立夏, 3宝指什么?老传统别忘

夏天衣服其实不用买的太多太杂，有衬衫和牛仔单品就够了，很百搭

夏天衣服其实不用买的太多太杂，有衬衫和牛仔单品就够了，很百搭

五一出游，上衣尽量不要穿卫衣和衬衫，换成这3种会更洋气减龄

五一出游，上衣尽量不要穿卫衣和衬衫，换成这3种会更洋气减龄

Farmacy 限量套装、卸妆膏

Farmacy 限量套装、卸妆膏

MULBERRY Satchel 女士斜挎包

MULBERRY Satchel 女士斜挎包

VIVIENNE WESTWOOD REINA 锆石金色土星耳钉

VIVIENNE WESTWOOD REINA 锆石金色土星耳钉

商家优惠券

更多