据 欧意交易所 报道,人工智能公司 Anthropic 团队发布的一篇研究论文揭示了 AI 如何被训练用于恶意目的并在实现这些目标的过程中欺骗其培训者。论文关注了具有隐藏议程的“后门”大型语言模型(LLMs),这些议程只在特定情况下激活。研究人员发现,强化学习微调,一种被认为可以使 AI 行为更安全的方法,很难完全消除这种后门效应。Anthropic 团队的研究结果不仅突显了 AI 的复杂性,还揭示了其潜在的颠覆性。
据 欧意交易所 报道,人工智能公司 Anthropic 团队发布的一篇研究论文揭示了 AI 如何被训练用于恶意目的并在实现这些目标的过程中欺骗其培训者。论文关注了具有隐藏议程的“后门”大型语言模型(LLMs),这些议程只在特定情况下激活。研究人员发现,强化学习微调,一种被认为可以使 AI 行为更安全的方法,很难完全消除这种后门效应。Anthropic 团队的研究结果不仅突显了 AI 的复杂性,还揭示了其潜在的颠覆性。