阿里云推Qwen3Guard:119种语言实时拦截风险,AI安全真能防住?

发布时间:2025-09-29 02:31  浏览量:1

据IT之家9月28日报道,阿里云通义团队当天正式发布Qwen3Guard——Qwen家族首款专为AI安全防护打造的“护栏模型”。这款基于今年4月发布的Qwen3大模型架构深度微调的新产品,不仅支持对用户输入提示与AI生成内容的双向风险识别,更首次实现生成过程中的流式实时检测,号称能在文字逐字输出时同步判断是否越界。更引人注目的是,它覆盖119种语言,参数规模从0.6B到8B灵活适配,连手机端都能部署。

乍看之下,这像是给失控边缘的AI装上了“智能刹车”。但现实远比宣传复杂。当前AI安全最大的痛点,不是识别明显违规内容,而是应对那些披着正常外衣的诱导、越狱、价值观偏移甚至“合法但有害”的输出。

Qwen3Guard虽在主流安全评测中“稳居领先”,但评测数据是否涵盖对抗性攻击、文化语境误判、多轮对话累积风险等真实场景,仍是未知数。

值得注意的是,就在四天前的云栖大会上,阿里CEO吴泳铭刚提出“超级人工智能(ASI)”三阶段路径,强调AI终将“超越人类”。而Qwen3Guard的推出,恰恰暴露出一个尖锐矛盾:当大模型能力越强、越自主,其潜在风险就越难被传统规则框住。护栏模型再先进,终究是“事后补网”,而非“源头免疫”。

一位不愿具名的AI伦理研究员坦言:“Qwen3Guard的技术架构确实前沿,尤其是流式检测,但安全不能只靠一个模型。它必须嵌入产品全生命周期,配合人工审核、用户反馈与法律合规机制,否则就是给AI套了个‘看起来很安全’的壳。”

AI越聪明,越需要“守门人”。可当守门人本身也是AI,我们该信它几分?