如何让AI当预测市场的裁判?

欧意


编者按:预测市场的价值不在于「下注」,而在于它能否持续输出可信的价格信号。但随着交易规模扩大,最容易被忽视、却最致命的瓶颈正在浮出水面:合约如何结算。从委内瑞拉大选的真假难辨,到地图、网站更新、代币投票带来的操纵与利益冲突,争议往往并非来自预测本身,而是来自「谁来裁决」。


本文作者 Andrew Hall(@ahall_research)提出一种更激进的思路:将特定版本的大模型与提示词写入链上,让 AI 成为可审计、可预期的裁判机制,用工程化手段替代人治与博弈。它未必完美,但或许是预测市场走向规模化必须迈过的一道门槛。


以下为原文:


去年,委内瑞拉总统选举的结果在预测市场上带来了超过 600 万美元的合约交易量。但当选票统计完成后,市场却陷入了一个几乎无法解决的局面:政府宣布尼古拉斯·马杜罗胜选;而反对派和国际观察员则指控存在选举舞弊。那么,预测市场的合约结算到底应该依据「官方信息」(马杜罗获胜),还是依据「可信报道的共识」(反对派胜出)?


在委内瑞拉选举这个案例中,观察者的指控五花八门:从认为规则被无视、参与者「钱被偷了」,到把用于处理争议合约的协议形容为一场高风险政治戏码中的「法官、陪审团和刽子手」;还有人直接称其「被严重操控」。


这并不是一个孤立的意外插曲,而是一个我认为会在预测市场规模化过程中反复出现的症状,甚至可能是最大的瓶颈之一:合约结算(contract resolution)。


这里的利害关系非常高。结算做对了,人们就会信任你的市场,愿意在里面交易,而价格也会成为对社会有意义的信号。结算做错了,交易体验就会变得令人沮丧、不可预测。参与者可能会慢慢离开,流动性面临枯竭风险,价格也不再反映对一个「稳定目标」的准确预测。相反,价格会开始体现一种混杂的东西:既包含事件真实发生的概率,也包含交易者对「扭曲的结算机制最终会如何裁决」的判断。


委内瑞拉的争议虽然曝光度较高,但在各个平台上,更隐蔽的失败其实经常发生:


乌克兰地图操纵事件说明,攻击者可以直接「玩弄」结算机制。一份关于领土控制权的合约规定,其结算将依据某一张在线地图。有人被指控编辑了这张地图,以影响合约的最终结果。当「真相来源」本身可以被操纵时,你的市场也就可以被操纵。


政府停摆合约事件说明,结算信息源可能带来不准确、至少是不可预测的结果。该合约规定,市场将依据美国人事管理局(OPM)网站显示「停摆结束」的时间进行结算。特朗普总统在 11 月 12 日签署了拨款法案,但不知何故,OPM 网站直到 11 月 13 日才更新。那些正确预测停摆会在 12 日结束的交易者,最终却因为网站管理员的延迟而输了。


泽连斯基西装市场则引发了有关利益冲突的担忧。合约问的是乌克兰总统泽连斯基是否会在某场活动上穿西装——一个看似琐碎的问题,却吸引了超过 2 亿美元的下注。当泽连斯基出席北约峰会时,穿着被 BBC、《纽约邮报》等媒体称为「西装」的服装,市场最初结算为「是」。但随后 UMA 代币持有人对结果提出争议,结算又翻转为「否」。


在这篇文章中,我将探讨如果把 LLM(大语言模型)与 加密技术聪明地结合起来,我们是否能创建一种可规模化的预测市场结算方式:它极难被操纵,并且能做到准确、完全透明、且可信中立。


这不仅仅是预测市场的问题


类似的问题也困扰过金融市场。国际掉期与衍生品协会(ISDA)多年来一直在信用违约掉期(CDS)市场中与「结算/认定」难题周旋——这类合约会在企业或国家发生债务违约时支付赔付。ISDA 在 2024 年的审查报告里对这些困难的描述相当坦率。他们的「认定委员会」(Determinations committees)由主要市场参与者组成,通过投票来判断是否发生了「信用事件」。但这一流程一直被批评为不透明、可能存在利益冲突、且结果不一致,这与 UMA 的流程非常相似。


根本问题是一样的:当巨额资金取决于对一个模糊事件「到底发生了什么」的认定时,任何结算机制都会成为被博弈和攻击的目标;而任何模糊性,都可能变成冲突的引爆点。


那么,一个好的结算机制应该长什么样?


一个好方案需要具备的特性


任何可行的方案,都必须同时满足几个关键性质:


抗操纵性
如果攻击者可以通过编辑维基百科、投放假新闻、贿赂预言机、或利用程序漏洞来影响结算,那么市场就会变成「谁最会操纵,谁就赢」,而不是「谁最会预测,谁就赢」。


合理准确性
机制必须在大多数情况下、绝大多数时间里给出正确结算。世界本就存在真实的模糊性,因此绝对准确是不可能的,但系统性偏差或明显错误会彻底摧毁可信度。


事前透明
交易者在下注之前就必须清楚结算会如何进行。在合约运行中途更改规则,等于破坏平台与参与者之间最基本的契约。


可信的中立性
参与者必须相信机制不会偏向任何交易者或任何结果。这也是为什么让持有大量 UMA 的人去裁决他们自己下注的合约如此成问题:即使他们做到了公平,利益冲突的「外观」也足以削弱信任。


人工委员会在某些特性上可以达标,但在另一些方面则很难——尤其是规模化情况下的抗操纵性与可信中立性。像 UMA 这样的代币投票系统,也存在「巨鲸主导」和利益冲突等一系列早已被讨论过的问题。


这就是 AI 可以介入的地方。


为什么用 LLM 当裁判


在预测市场圈子里,一个越来越受到关注的提案是:让大语言模型充当结算「裁判」,并在合约创建时,将具体模型与提示词(prompt)锁定到区块链上。


其基本架构大致如下:在合约创建时,做市方不仅用自然语言写明结算标准,还要明确指定将用于判定结果的 LLM(带时间戳的模型版本)以及将输入给它的完整 prompt。


这一规定会以加密方式提交并绑定在链上。一旦交易开始,参与者就可以检查整套结算机制——他们清楚知道由哪个 AI 模型做裁判、会收到什么 prompt、能访问哪些信息源。


如果他们不认可这套设置,就不参与交易。到了结算时,链上已承诺的 LLM 会使用已承诺的 prompt 运行,访问指定信息源,并给出裁决输出。这个输出直接决定谁拿到赔付。


这种方法可以同时满足多项关键约束:


强抗操纵(但并非绝对)
不同于维基百科页面或小型新闻网站,你没那么容易去「改写」一个主流 LLM 的输出。模型权重在承诺时就被固定。要操纵结算,攻击者要么腐蚀模型依赖的信息源,要么提前很久对模型训练数据进行投毒——相比贿赂一个预言机、或编辑一张地图,这类攻击成本更高、结果也更不确定。


更高准确性
随着推理型模型能力快速提升,并且在能够上网检索信息、补充证据的情况下,LLM 裁判应当能准确裁决许多市场。关于其准确性的实验也在持续推进中。


内置透明性
在任何人下注之前,整套结算机制都是可见、可审计的。没有中途改规则,没有「自由裁量」的临场判断,没有幕后协商。参与者清楚自己签下的是什么。


显著提升可信中立性
LLM 对结算结果没有经济利益相关性,它不能被贿赂,也不持有 UMA 代币。即便它存在偏差,那也是模型自身属性导致的偏差,而不是利益相关方临时做出的裁决。


当然,LLM 裁判也有局限性,我会在下面进一步说明。


LLM 裁判的局限


模型会犯错
LLM 可能误读新闻、编造事实、或在同类案例中使用不一致的裁决逻辑。但只要交易者事先知道自己下注对应的是什么模型,他们就能把这些「缺点」计入定价。若某个模型在处理模糊情形时有明确倾向,成熟交易者会调整策略。模型不必完美,它需要的是可预测。


操纵并非不可能,只是更难
如果 prompt 指定了某些新闻源,攻击者可能会试图在这些新闻源中「种文章」。在大型媒体上成本很高,但在小型媒体上也许可行——这会以另一种形式复现「地图编辑」的问题。因此 prompt 设计极其关键:依赖多源、冗余信息的机制,比依赖单点信息源更稳健。


投毒攻击在理论上存在
拥有足够资源的对手,可能尝试通过影响训练数据去偏置未来的裁决。但这要求在合约出现之前就提前行动,回报不确定且成本巨大,比起贿赂某个委员会成员门槛高得多。


LLM 裁判的多样化会带来协调问题
如果不同市场创建者承诺不同的模型与 prompt,那么流动性会被切碎。交易者难以横向对比合约,也难以跨市场汇总信息。标准化有价值,但允许市场试错、找到最好的 LLM+prompt 组合也有价值。合理路径可能是两者结合:允许试验,同时建立机制让社区逐步收敛到经过验证的默认方案。


构建者该如何落地?


总结来说:AI 结算本质上是把一组问题(人类偏见、利益冲突、不透明)换成另一组问题(模型能力限制、提示工程难题、信息源脆弱性)。但后者可能更可控、更可工程化。那么,下一步可以怎么做?平台应当:


先在低风险合约上试验
用较低风险的市场测试 LLM 结算,建立成绩记录。哪些模型表现最好?哪些 prompt 结构更稳健?实际会出现哪些故障模式?


推动标准化
当最佳实践逐渐浮现,社区应当推动形成可作为默认选项的标准 LLM+prompt 组合。这不会阻止创新,但有助于让流动性集中在「大家都理解规则」的市场上。


构建透明工具
例如开发界面,让交易者在下注前就能轻松检查结算机制全貌——包括模型、prompt、信息源。结算规则不应藏在冗长细则里。


持续治理
即便引入 AI 裁判,人类仍需做「元层决策」:哪些模型值得信任?当模型给出明显错误答案时如何处理?默认方案何时更新?目标并不是把人完全移出系统,而是把人从临时、逐案的裁决中抽离出来,转向系统化的规则制定。


预测市场有着巨大的潜力,能帮助我们理解一个嘈杂而复杂的世界。但这份潜力依赖于信任,而信任依赖于公平的合约结算。我们已经见过当结算机制失败时会发生什么:混乱、愤怒、交易者离场。我见过一些人因为某次结果「违背了他们下注的精神」,感到被欺骗,直接怒而退场,从此不再碰预测市场,哪怕他们曾经热爱这些平台。这意味着我们失去了一个释放预测市场价值、拓展其更广泛应用的机会。


LLM 裁判并不完美。但当它与加密技术结合时,它可以做到透明、中立,并对抗那些长期困扰基于人类的系统的操纵手段。在预测市场扩张速度快于治理机制迭代的时代,这或许正是我们需要的东西。


[原文链接]


欧意交易所又称ok交易所是全球排名前三名的数字衍生品交易平台,对华语用户投资数字资产特别友好,欧意APP操作方便顺畅快捷,为全球诸多交易者提供超高水平的体验。

目录[+]