促进数据流动:如何借助加密技术打破AI数据训练的瓶颈?

欧意
欧意交易所

欧意交易所

全球前三大交易所之一,新用户注册可拆数字盲盒,100%可以获得数字货币

点击注册 进入官网

更多交易所入口

一站式注册各大交易所、点击进入加密世界、永不失联,币安Binance/欧易OKX/GATE.IO芝麻开门/Bitget/抹茶MEXC/火币Huobi

点击进入 永不失联



过去两年里,自从一家相对不知名的初创公司 OpenAI 发布了名为 ChatGPT 的聊天机器人应用程序,AI 从幕后走向了台前。我们正处在机器智能全面渗透生活的关键时刻。随着对控制这种智能的竞争愈发激烈,驱动其发展的数据需求也在不断增加。这就是这篇文章的主题。


我们讨论了 AI 公司所需的数据的规模和紧迫性以及它们在获取数据时面临的问题。我们探讨了这种难以满足的需求如何威胁到我们所热爱的互联网及其数十亿贡献者。最后,我们介绍了一些利用加密技术来提出解决这些问题和担忧的初创公司。


在深入探讨之前需要说明一点:这篇文章是从训练大型语言模型(LLMs)的角度写的,并非所有 AI 系统。因此,我经常将「AI」和「LLMs」互换使用。


展示数据


LLMs 需要三种主要资源:计算能力、能源和数据。在大量资本的支持下,公司、政府和初创企业同时在争夺这些资源。在这三者中,对计算能力的争夺最为引人注目,这部分归功于英伟达股价的迅速上涨。



训练 LLMs 需要大量专用的图形处理单元(GPUs),特别是 NVIDIA 的 A100、H100 和即将推出的 B100 型号。这些计算设备并不是你可以从亚马逊或本地计算机商店购买的。相反,它们的价格高达数万美元。NVIDIA 决定如何在其 AI 实验室、初创公司、数据中心和超大规模客户之间分配这些资源。


在 ChatGPT 推出后的 18 个月内,GPU 的需求远远超过了供应,等待时间高达 11 个月。然而,随着初创公司关闭、训练算法和模型架构的改进、其他公司推出的专用芯片以及 NVIDIA 扩大生产,供需动态正在正常化,价格也在下降。


其次是能源。运行数据中心中的 GPUs 需要大量的能源。根据一些估计,到 2030 年,数据中心将消耗全球能源的 4.5%。随着这种激增的需求给现有电网带来压力,科技公司正在探索替代能源解决方案。亚马逊最近以 6.5 亿美元购买了一个由核电站供电的数据中心园区。微软已经雇佣了一位核技术主管。OpenAI 的 Sam Altman 支持了 Helion, Exowatt 和 Oklo 等能源初创公司。


从训练 AI 模型的角度来看,能源和计算能力只是商品。选择 B100 而不是 H100,或者选择核能而不是传统能源,可能会使训练过程更便宜、更快或更高效,但不会影响模型的质量。换句话说,在创造最智能和最类人 AI 模型的竞赛中,能源和计算能力只是基本要素,而不是决定性因素。


关键资源是数据。


James Betker 是 OpenAI 的研究工程师。他自己说,训练了比任何人都有权训练的更多的生成模型。在一篇博文中,他指出,「在相同的数据集上训练足够长时间,几乎每个模型都有足够的权重和训练时间,最终都会收敛到同一点。」这意味着区分一个 AI 模型与另一个模型的因素是数据集,而不是其他。


当我们称一个模型为「ChatGPT」、「Claude」、「Mistral」或「Lambda」时,我们并不是在谈论其架构、使用的 GPUs 或消耗的能源,而是其训练的数据集。


如果数据是 AI 训练的食物,那么模型就是它们所吃的东西。


要训练一个最先进的生成模型需要多少数据?答案是非常多。


GPT-4 仍然被认为是发布一年多后的最佳大型语言模型,估计使用了 12 万亿个标记(或约 9 万亿个单词)进行训练。这些数据来自对公开可用互联网的爬取,包括维基百科、Reddit、Common Crawl(一个免费的、开放的网页抓取数据存储库)、超过一百万小时的转录 YouTube 数据以及代码平台如 GitHub 和 Stack Overflow。


如果你认为这已经是很多数据了,请稍等。在生成 AI 中有一个叫做「Chinchilla Scaling Laws」的概念,这意味着对于给定的计算预算,将较小的模型在较大的数据集上训练比在较小的数据集上训练较大的模型更为有效。如果我们推算 AI 公司预计用于训练下一代 AI 模型(如 GPT-5 和 Llama-4)的计算资源,我们会发现这些模型预计将需要五到六倍的计算能力,使用多达 100 万亿个标记进行训练。



随着大部分公开互联网数据已经被抓取、索引并用于训练现有模型,额外的数据将来自哪里?这已成为 AI 公司面临的一个前沿研究问题。有两种解决方案。一种是生成合成数据,即由 LLMs 直接生成的数据,而不是人类。然而,这种数据在使模型更智能方面的有用性尚未经过测试。


另一种方法是简单地寻找高质量数据而不是合成生成。然而,获得额外数据是具有挑战性的,特别是当 AI 公司面临的问题不仅威胁到未来模型的训练,也威胁到现有模型的有效性时。


第一个数据问题涉及法律问题。尽管 AI 公司声称使用的是「公开可用数据」,但其中许多数据是受版权保护的。例如,Common Crawl 数据集中包含了《纽约时报》和《美联社》等出版物的数百万篇文章以及其他受版权保护的材料。


一些出版物和创作者正在对 AI 公司采取法律行动,指控其侵犯版权和知识产权。《纽约时报》起诉了 OpenAI 和微软,指控其「非法复制和使用《纽约时报》的独特有价值的作品」。一群程序员联合提起集体诉讼,质疑使用开源代码训练 GitHub Copilot(一种流行的 AI 编程助手)的合法性。


喜剧演员 Sarah Silverman 和作者 Paul Tremblay 也起诉 AI 公司,指控其未经许可使用他们的作品。


其他人则通过与 AI 公司合作来接受变革。《美联社》、《金融时报》和 Axel Springer 都与 OpenAI 签署了内容许可协议。苹果公司正在探索与康泰纳仕和 NBC 等新闻组织达成类似协议。谷歌同意每年支付 Reddit 6000 万美元,以访问其 API 进行模型训练,而 Stack Overflow 与 OpenAI 达成了类似的协议。Meta 据称曾考虑直接购买出版公司 Simon & Schuster。


这些安排与 AI 公司面临的第二个问题——开放网络的关闭——不谋而合。


互联网论坛和社交媒体网站已经认识到,AI 公司通过使用其平台数据训练模型所带来的价值。在与谷歌(以及未来可能与其他 AI 公司)达成协议之前,Reddit 开始对其以前免费提供的 API 收费,终结了其流行的第三方客户端。同样,Twitter 也限制了 API 的访问,并提高了价格,Elon Musk 利用 Twitter 数据为他自己的 AI 公司 xAI 训练模型。


即使是较小的出版物、同人小说论坛和其他生产内容供所有人免费消费(如果有的话,通过广告货币化)的互联网小众角落,现在也在关闭。互联网曾被设想为一个神奇的网络空间,每个人都可以找到分享其独特兴趣和怪癖的部落。那种魔力似乎正在慢慢消失。


这种诉讼威胁、多百万美元内容交易的增加以及开放网络的关闭有两个含义。


1. 首先,数据战争严重倾向于科技巨头。初创公司和小公司既无法访问以前可用的 API,也无法负担购买使用权所需的资金,而没有法律风险。这显然具有集中特性,富人可以购买最好的数据,从而创建最好的模型,变得更富有。


2. 其次,用户生成内容平台的商业模式越来越不利于用户。像 Reddit 和 Stack Overflow 这样的平台依赖于数百万未付费的人类创作者和管理员的贡献。然而,当这些平台与 AI 公司达成数百万美元的协议时,他们既不补偿也不征求用户的许可,没有这些用户,就没有数据可供出售。


 Reddit 和 Stack Overflow 都因这些决定而经历了显著的用户罢工。联邦贸易委员会(FTC)也对 Reddit 将用户帖子出售、许可和分享给外部组织用于训练 AI 模型的行为展开调查。


这些问题对于训练下一代 AI 模型以及互联网内容的未来提出了相关问题。按照目前的情况,未来看起来不太乐观。加密解决方案能否在某种程度上为小公司和互联网用户提供公平竞争的机会,解决其中的一些问题?


数据管道


训练 AI 模型和创建有用的应用程序是复杂且昂贵的工作,需要数月的计划、资源分配和执行。这些过程包括多个阶段,每个阶段都有不同的目的和数据需求。


让我们分解这些阶段,以了解加密技术如何适应更大的 AI 拼图。


预训练


预训练是 LLM 训练过程中第一步且最耗费资源的步骤,形成了模型的基础。在这一步中,AI 模型在大量无标签文本上进行训练,以捕捉世界的通用知识和语言使用信息。当我们说 GPT-4 使用了 12 万亿个标记进行训练时,这指的是预训练中使用的数据。


要理解为什么预训练是 LLM 的基础,我们需要对 LLM 的工作原理有一个高层次的概述。请注意,这只是一个简化的概述。你可以在 Jon Stokes 的优秀文章、Andrej Karpathy 的有趣视频或 Stephen Wolfram 的出色书籍中找到更详尽的解释。


LLMs 使用一种叫做 Next-Token Prediction 的统计技术。简单来说,给定一系列标记(即单词),模型尝试预测下一个最可能的标记。这个过程重复进行,形成完整的响应。因此,你可以将大型语言模型视为「完成机器」。


让我们用一个例子来理解这一点。


当我问 ChatGPT「What direction does the sun rise from(太阳从哪个方向升起)?」时,它首先预测出单词「the」,然后依次预测出「sun rises from the East」这句话中的每一个单词。但是这些预测从何而来?ChatGPT 如何确定在「the sun rises from」之后应该是「the East」而不是「the West」、「the North」或「Amsterdam」?换句话说,它如何知道「the East」比其他选项更有统计可能性?



答案是从大量高质量训练数据中学习统计模式。如果考虑到互联网上的所有文本,什么更有可能出现--"太阳从东方升起 "还是 "太阳从西方升起"?后者可能出现在特定的语境中,比如文学隐喻("这就像相信太阳从西边升起一样荒谬")或关于其他星球的讨论(比如金星,太阳确实从西边升起)。但总的来说,前者更为常见。



通过反复预测下一个单词,LLM 形成了一种通用的世界观(我们称之为常识)和对语言规则和模式的理解。另一种理解 LLM 的方法是将其视为互联网的压缩版本。这也有助于理解为什么数据需要既是大量的(更多模式可供选择),也是高质量的(提高模式学习的准确性)。


但正如前面讨论的,AI 公司正在耗尽用于训练更大模型的数据。训练数据需求增长的速度远远快于开放互联网中新数据生成的速度。随着诉讼的临近和主要论坛的关闭,AI 公司面临着严重的问题。


对于较小的公司来说,这个问题更加严重,因为它们无法负担与 Reddit 等专有数据提供商达成数百万美元的交易。


这引出了 Grass,一家去中心化的住宅代理提供商,他们旨在解决这些数据问题。他们称自己为「AI 的数据层」。让我们首先了解一下什么是住宅代理提供商。


互联网是训练数据的最佳来源,抓取互联网是公司获取这些数据的首选方法。在实践中,抓取软件在数据中心托管,以实现规模、便捷和效率。但拥有有价值数据的公司不希望其数据被用于训练 AI 模型(除非他们得到报酬)。为实施这些限制,他们通常会阻止已知数据中心的 IP 地址,防止大规模抓取。


这时,住宅代理提供商派上用场。网站仅阻止已知数据中心的 IP 地址,而不阻止像你我这样的普通互联网用户的连接,使我们的互联网连接,或住宅互联网连接,变得有价值。住宅代理提供商聚合了数百万这样的连接,以大规模抓取 AI 公司的数据。


然而,中心化的住宅代理提供商运作隐蔽。他们通常不明确他们的意图。用户如果知道某个产品在使用他们的带宽,可能不愿意分享。更糟的是,他们可能要求为产品使用的带宽得到补偿,这反过来又减少了他们的利润。


为保护他们的底线,住宅代理提供商将其消耗带宽的代码搭载在分布广泛的免费应用程序中,如手机实用工具应用(如计算器和语音记录器)、VPN 提供商甚至消费者电视屏保中。用户认为他们在获取免费产品,实际上一个第三方住宅提供商在消耗他们的带宽(这些细节通常隐藏在很少有人阅读的服务条款中)。


最终,这些数据中的一些会流向 AI 公司,他们用这些数据训练模型并为自己创造价值。


Andrej Radonjic 在经营自己的住宅代理提供商时,意识到了这些做法的非道德性质及其对用户的不公平性。他看到加密技术的发展,识别出了一种创建更公平解决方案的方法。这就是 Grass 在 2022 年末的成立背景。几周后,ChatGPT 发布,改变了世界,把 Grass 放在了正确的时间和地点。



与其他住宅代理提供商使用的隐蔽策略不同,Grass 明确告知用户其带宽的使用情况,以训练 AI 模型为目的。作为回报,用户会直接获得奖励。这种模式颠覆了住宅代理提供商的运作方式。通过自愿提供带宽并成为网络的部分拥有者,用户从被动的参与者转变为积极的倡导者,提高了网络的可靠性,并从 AI 产生的价值中获益。


Grass 的增长令人瞩目。自 2023 年 6 月推出以来,他们已拥有超过 200 万活跃用户,这些用户通过安装浏览器扩展或移动应用程序来运行节点并贡献带宽。这种增长在没有外部营销成本的情况下实现,得益于一个非常成功的推荐计划。


使用 Grass 的服务允许各类公司,包括大型 AI 实验室和开源初创公司,以较低的成本获取抓取训练数据。同时,每个普通用户通过分享其互联网连接获得报酬,并成为不断增长的 AI 经济的一部分。



除了原始抓取数据外,Grass 还为客户提供一些附加服务。


首先,他们将非结构化网页转换为易于 AI 模型处理的结构化数据。这一步骤,称为数据清洗,是 AI 实验室通常承担的资源密集型任务。通过提供结构化、清洁的数据集,Grass 增强了其对客户的价值。此外,Grass 还训练了一个开源 LLM,以自动化抓取、准备和标记数据的过程。


其次,Grass 将数据集捆绑了不可否认的来源证明。鉴于高质量数据对 AI 模型的重要性,确保数据集未被恶意网站或住宅代理提供商篡改对于 AI 公司来说至关重要。


这一问题的严重性在于像 Data & Trust Alliance 这样的机构的成立,这是一个包括 Meta、IBM 和沃尔玛在内的 20 多家公司组成的非营利组织,共同努力创建数据溯源标准,帮助组织确定一个数据集是否适合和值得信赖。


Grass 也在采取类似措施。每次 Grass 节点抓取一个网页时,它还会记录验证该网页来源的元数据。这些溯源证明存储在区块链上,并与客户共享(客户可以进一步与其用户共享)。


尽管 Grass 正在 Solana 上构建,这是吞吐量最高的区块链之一,但在 L1 上存储每次抓取任务的溯源是不可行的。因此,Grass 正在构建一个 rollup(Solana 上的第一个 rollup 之一),使用 ZK 处理器批量处理溯源证明,然后发布到 Solana。这个 rollup,Grass 称之为「AI 的数据层」,成为他们所有抓取数据的数据账本。


Grass 的 Web 3 优先方法使其相对于中心化住宅代理提供商具有几个优势。首先,通过使用奖励来鼓励用户直接分享带宽,他们更公平地分配了 AI 生成的价值(同时也节省了支付应用开发者捆绑其代码的成本)。其次,他们可以为提供客户「合法流量」收取溢价,这在行业内非常有价值。


另一家在「合法流量」方面工作的协议是 Masa。该网络允许用户传递其社交媒体平台(如 Reddit、Twitter 或 TikTok)的登录信息。网络上的节点然后抓取这些平台的高度上下文相关的更新数据。这种模型的优势在于,收集的数据是普通用户在其社交媒体平台上看到的内容。实时地,您可以获取解释情绪或即将成为病毒的内容的丰富数据集。


这些数据集的主要用途有两个。


1. 金融 - 如果你能看到成千上万的人在其社交媒体平台上看到的内容,你可以基于这些数据开发交易策略。可以在 Masa 的数据集上训练利用情绪数据的自主代理。


2. 社交 - AI 伴侣(或像 Replika 这样的工具)的出现意味着我们需要模仿人类对话的数据集。这些对话还需要最新信息。Masa 的数据流可以用于训练能够有意义地讨论最新 Twitter 趋势的代理。


Masa 的方法是通过用户同意从封闭花园(如 Twitter)获取信息,并使这些信息可供开发人员用于构建应用程序。这样一种社交优先的数据收集方法也允许构建围绕区域语言的数据集。


例如,一个说印地语的机器人可以使用从以印地语操作的社交网络中获取的数据。这些网络打开的应用前景尚待探索。


模型对齐


预训练的 LLM 远未准备好投入生产使用。想一想。模型目前只知道如何预测序列中的下一个单词,而其他都不知道。如果你给一个预训练的模型一些文本,比如「谁是中本聪」,任何这些都是有效的响应:


1. 完成问题:中本聪?


2. 将短语变成句子:是一个多年来困扰比特币信仰者的问题。


3. 实际上回答问题:中本聪是创建比特币、第一种去中心化加密货币及其底层技术区块链的化名人物或团体。


旨在提供有用答案的 LLM 将提供第三种回答。然而,预先训练的模型并不能做出一致或正确的回答。事实上,它们经常会随机吐出一些对最终用户毫无意义的文字。最糟糕的情况是,模型在保密的情况下给出了与事实不符、有毒或有害的信息。当这种情况发生时,模型就会出现 "幻觉"。



模型对齐的目标是使预训练模型对最终用户有用。换句话说,是将其从一个单纯的统计文本完成工具转变为一个理解和对齐用户需求并能进行连贯、有用对话的聊天机器人。


对话微调


这个过程的第一步是对话微调。微调是指在一个预训练的机器学习模型的基础上,进一步在一个较小的、有针对性的数据集上进行训练,以帮助其适应特定任务或用例。对于训练 LLM 来说,这个特定的用例是进行类似人类的对话。自然,这个微调的数据集是一组人类生成的提示-响应对,展示给模型如何行为。


这些数据集涵盖不同类型的对话(问答、摘要、翻译、代码生成),通常由高学历的人类(有时称为 AI 导师)设计,他们具有优秀的语言技能和主题专业知识。


最先进的模型如 GPT-4 估计在~100,000 对这样的提示-响应对上进行了训练。



从人类反馈中强化学习(RLHF)


可以将这一步视为类似于人类训练宠物狗:奖励好的行为,惩罚坏的行为。模型收到一个提示,其响应与人类标注者共享,标注者根据输出的准确性和质量对其进行评分(例如 1-5 分)。RLHF 的另一种版本是生成一个提示并产生多个响应,由人类标注者从最佳到最差进行排名。



RLHF 旨在引导模型朝着人类偏好和期望的行为发展。事实上,如果你是 ChatGPT 的用户,OpenAI 也会将你作为 RLHF 数据标注者!这发生在模型有时生成两个响应并要求你选择更好的一个时。


甚至是简单的点赞或点踩图标,提示你评价回答的有用性,也是模型的一种 RLHF 训练。



使用 AI 模型时,我们很少考虑到背后投入的数百万小时的人类劳动。这不仅仅是 LLMs 独有的需求。历史上,即使是传统机器学习用例,如内容审核、自动驾驶和肿瘤检测,也需要大量的人类参与进行数据标注。(这篇 2019 年《纽约时报》的优秀故事展示了 iAgent 印度办公室背后的幕后故事,这家公司专门从事人类标注)。


Fei-Fei Li 用来创建 ImageNet 数据库的 Mechanical Turk,被 Jeff Bezos 称为「人工的 AI」,因为它的工作人员在 AI 训练中发挥的幕后作用。


在今年早些时候的一个离奇故事中,亚马逊的 Just Walk Out 商店,顾客可以简单地从货架上拿取物品然后走出(稍后自动收费),并非由某种先进的 AI 驱动,而是由 1000 名印度合同工手动筛选店铺录像。



关键是,每个大规模 AI 系统在某种程度上都依赖于人类,LLMs 只增加了对这些服务的需求。像 Scale AI 这样的公司,其客户包括 OpenAI,通过这种需求达到了 110 亿美元的估值。甚至 Uber 也在重新安排一些印度工人在不驾驶车辆时标注 AI 输出。


在成为全栈 AI 数据解决方案的过程中,Grass 也正在进入这一市场。他们将很快发布一个 AI 标注解决方案(作为其主要产品的扩展),用户可以通过完成 RLHF 任务获得奖励。


问题是:Grass 通过去中心化的方式进行这一过程,相对于数百家在同一领域的中心化公司有哪些优势?


Grass 可以通过代币激励来引导工人网络。正如他们奖励用户分享其互联网带宽的代币一样,他们也可以奖励人类标注 AI 训练数据。在 Web2 世界中,支付给全球分布的零工经济工人尤其是全球分布的任务,用户体验远不及在像 Solana 这样的快速区块链上提供的即时流动性。


加密社区尤其是 Grass 现有的社区,已经有大量受过教育、互联网原生、技术娴熟的用户。这减少了 Grass 在招聘和培训工人上需要花费的资源。


你可能会怀疑,标注 AI 模型响应以换取奖励的任务是否会吸引农场主和机器人。我也曾这样想过。幸运的是,已经进行了大量研究,探索使用共识技术来识别高质量标注者并筛除机器人。


请注意,Grass 至少目前仅进入 RLHF 市场,而不帮助公司进行对话微调,这需要高度专业化的劳动力和更难以自动化的物流。


专门化微调


完成预训练和对齐步骤后,我们就得到了所谓的基础模型。基础模型对世界如何运作有一个通用的理解,并能在广泛的主题上进行流利的类人对话。它还对语言有很好的掌握,能够轻松帮助用户写邮件、故事、诗歌、文章和歌曲。


当你使用 ChatGPT 时,你是在与基础模型 GPT-4 进行互动。


基础模型是通用模型。尽管它们对数百万个主题有足够的了解,但它们并不专门研究任何一个。当被问及帮助理解比特币的代币经济学时,响应会有用且大多数情况下准确。然而,当你要求它列出类似 EigenLayer 这样的再抵押协议的安全边缘情况风险时,你不应该太相信它。


请记住,微调是指在一个预训练的机器学习模型的基础上,进一步在一个较小的、有针对性的数据集上进行训练,以帮助其适应特定任务或用例。之前我们讨论了在将原始文本完成工具转变为对话模型时的微调。同样,我们也可以微调结果基础模型,使其专门从事某一特定领域或任务。


Med-PaLM2 是 Google 基础模型 PaLM-2 的微调版本,旨在提供高质量的医学问题答案。MetaMath 是微调在 Mistral-7B 上的数学推理模型。一些微调模型专门研究广泛类别,如讲故事、文本摘要和客户服务,而另一些则专门研究细分领域,如葡萄牙诗歌、Hinglish 翻译和斯里兰卡法律。


要为特定用例微调模型,需要高质量的相关领域数据集。这些数据集可以来源于特定网站(如本新闻通讯中的加密数据)、专有数据集(例如一家医院可能会转录数千次的医生-病人互动),或专家的经验(需要详细采访以捕捉)。



随着我们进入拥有数百万 AI 模型的世界,这些细分的长尾数据集变得越来越有价值。这些数据集的拥有者,从大型会计公司如 EY 到加沙的自由摄影师,这些数据集的所有者都在争相购买这些正在迅速成为 AI 军备竞赛中最热门商品的数据集。Gulp Data 等服务的出现就是为了帮助企业公平地评估其数据的价值。


OpenAI 甚至发布了一项数据合作伙伴公开请求,寻求拥有「反映人类社会的大规模数据集,而这些数据集目前不易公开获取」的实体合作。


我们知道至少有一种很好的方法来匹配寻找细分产品买家和卖家的需求,那就是互联网市场。Ebay 为收藏品创建了一个,Upwork 为人类劳动创建了一个,数不胜数的平台为无数其他类别创建了平台。毫不意外,我们也看到了细分数据集的市场的出现,有些是去中心化的。


Bagel 正在构建「人工通用基础设施」,一套工具,使得「高质量、多样化数据」的持有者能够以无信任和隐私保护的方式与 AI 公司共享其数据。他们使用零知识(ZK)和完全同态加密(FHE)等技术来实现这一目标。


公司通常拥有高价值的数据,但由于隐私或竞争问题无法变现。例如,一个研究实验室可能拥有大量的基因组数据,但为了保护病人隐私不能共享,或者一个消费品制造商可能拥有供应链废物减少数据,但在不透露竞争机密的情况下无法披露。Bagel 利用密码学的进步,使这些数据集变得有用,同时消除了附带的担忧。


Grass 的住宅代理服务也可以帮助创建专门的数据集。例如,如果你想微调一个提供专家烹饪建议的模型,你可以要求 Grass 抓取 Reddit 的 r/Cooking 和 r/AskCulinary 等子版块的数据。同样,旅行导向模型的创建者可以要求 Grass 抓取 TripAdvisor 论坛的数据。


虽然这些不完全是专有数据源,但它们仍然可以成为其他数据集的有价值补充。Grass 还计划利用其网络创建存档数据集,任何客户都可以重复使用。


上下文级别数据


试着问问你喜欢的 LLM「你的训练截止日期是什么时候?」你会得到一个类似 2023 年 11 月的答案。这意味着基础模型仅提供该日期之前的可用信息。当你考虑到训练这些模型(甚至微调它们)是多么计算密集和耗时时,这一点是可以理解的。


要保持它们实时更新,你必须每天训练和部署一个新模型,这简直不可能实现(至少目前不可能)。


然而,对于许多用例来说,没有关于世界最新信息的 AI 是毫无用处的。例如,如果我在使用一个依赖于 LLMs 响应的个人数字助理,当被要求总结未读电子邮件或提供利物浦上场比赛的进球者时,这些助手将处于不利地位。


为了绕过这些限制并基于实时信息提供用户响应,应用程序开发者可以查询并将信息插入称为基础模型的「上下文窗口」的输入文本中。上下文窗口是 LLM 可以处理以生成响应的输入文本。它以标记为单位测量,表示 LLM 在任何给定时刻可以「看到」的文本。


所以,当我要求我的数字助理总结我的未读电子邮件时,应用程序首先查询我的电子邮件提供商以获取所有未读电子邮件的内容,将响应插入发送给 LLM 的提示中,并附加一个类似「我已提供 Shlok 收件箱中的未读电子邮件列表。请总结它们。」的提示。LLM 有了这个新上下文后,便可以完成任务并提供响应。将这一过程视为你复制粘贴一封电子邮件到 ChatGPT 并要求它生成响应,但这一过程在后台进行。


为了创建具有最新响应的应用程序,开发者需要访问实时数据。Grass 节点可以实时抓取任何网站的数据,为开发者提供低延迟的实时数据,简化了上下文增强生成(RAG)工作流。


这也是 Masa 今天的定位。就目前而言,Alphabet、Meta 和 X 是唯一拥有不断更新用户数据的大平台,因为它们拥有用户基础。Masa 为小型初创公司提供了公平的竞争环境。


这一过程的技术术语是检索增强生成(RAG)。RAG 工作流是所有现代 LLM 应用程序的核心。这一过程涉及文本向量化,即将文本转换为数字数组,这些数组可以被计算机轻松解释、操作、存储和搜索。


Grass 计划在未来发布物理硬件节点,为客户提供向量化、低延迟的实时数据,以简化其 RAG 工作流。


大多数业内人士预测,未来上下文级别查询(也称为推理)将利用大部分资源(能源、计算、数据)。这是有道理的。模型的训练总是一个时间限制的过程,消耗一定的资源分配。应用级别的使用,另一方面,可以有理论上无限的需求。


Grass 已经看到了这一点,大部分的文本数据请求来自希望获得实时数据的客户。


LLMs 的上下文窗口随着时间的推移而扩大。当 OpenAI 首次发布 ChatGPT 时,它的上下文窗口为 32,000 个标记。不到两年后,谷歌的 Gemini 模型的上下文窗口超过了 100 万个标记。100 万个标记相当于 11 本 300 页的书——大量的文本。


这些发展使得内容窗口可以构建的内容的影响远远超过了访问实时信息。有人可以,例如,丢入所有 Taylor Swift 歌曲的歌词,或者这份通讯的整个存档到上下文窗口,并要求 LLM 生成相似风格的新内容。


除非明确编程不允许,否则模型将生成一个相当不错的输出。


如果你能感受到这一讨论的方向,请准备好接下来要讨论的内容。到目前为止,我们主要讨论了文本模型,但生成模型在其他模态(如声音、图像和视频生成)上的表现也越来越出色。我最近在 Twitter 上看到了 Orkhan Isayen 的这幅非常酷的伦敦插图。



Midjourney,一个流行且非常出色的文本到图像工具,具有一个叫做风格调节器(Style Tuner)的功能,可以生成与现有图像风格相似的新图像(这一功能也依赖于类似 RAG 的工作流,但不完全一样)。我上传了 Orkhan 的人类创作的插图,并使用风格调节器提示 Midjourney 将城市改为纽约。这是我得到的:



四张图片,如果你浏览艺术家的插图,可能很容易被误认为是他们的作品。这些图像是在 30 秒内由 AI 基于单个输入图像生成的。我要求『纽约』,但主题真的可以是任何东西。在其他模态,如音乐中,也可以进行类似的复制。


回想我们之前讨论的部分,诉讼 AI 公司的实体之一是创作者,你可以明白他们为什么有道理。


互联网曾是创作者的福音,使他们能够与全世界分享他们的故事、艺术、音乐和其他形式的创意表达;使他们能够找到 1000 个真正的粉丝。现在,同一个全球平台正成为对他们生计的最大威胁。


为什么要支付 Orkhan 500 美元的佣金,而你可以通过 30 美元/月的 Midjourney 订阅得到一个足够好的相似作品?


听起来像反乌托邦?


技术的奇妙之处在于它几乎总是找到解决其自身所创造问题的方法。如果你翻转看似对创作者不利的情况,你会发现这是一个前所未有的机会,可以将他们的才华货币化。


在 AI 之前,Orkhan 可以创作的作品数量受到一天中时间的限制。通过 AI,他们现在理论上可以服务无限的客户。


要理解我的意思,让我们看看 elf.tech,这是音乐家 Grimes 的 AI 音乐平台。Elf Tech 允许你上传一首歌的录音,它会将其转变为 Grimes 的声音和风格。歌曲赚取的任何版税将由 Grimes 和创作者五五分成。这意味着作为 Grimes 的粉丝,或者她的声音、音乐或发行的粉丝,你可以简单地想出一首歌的点子,该平台会使用 AI 将其转变为 Grimes 的声音。


如果这首歌走红,你和 Grimes 都将受益。这也使得 Grimes 能够被动地扩展她的才华和杠杆她的发行。


TRINITI 是 elf.tech 的核心技术,由 CreateSafe 公司开发。他们的论文揭示了我们所预见的区块链和生成式 AI 技术最有趣的交集之一。


通过创造者控制的智能合约扩展数字内容的定义,并通过基于区块链的点对点支付访问微交易重新构想分发,使任何流媒体平台能够立即认证和访问数字内容。然后生成 AI 根据创造者指定的条款执行即时微支付并将体验流式传输给消费者。


Balaji 更简单地总结了这一点。



随着新媒介的出现,我们急于弄清人类将如何与之互动,当与网络结合时,它们成为变革的强大引擎。书籍推动了新教革命,广播和电视是冷战的关键部分,而媒体通常是双刃剑,可以用来做好事,也可以用来做坏事。


今天,我们所拥有的是拥有大量用户数据的中心化公司。这就好比我们信任我们的公司会为我们的创造力、精神健康和更好的社会发展做正确的事,把这么大的权力交给少数几家公司,但我们几乎不了解其中许多公司的内部运作。


我们正处于 LLM 革命的早期阶段。就像 2016 年的以太坊一样,我们几乎不知道可以用它们构建什么样的应用程序。是能与我奶奶用印地语交流的 LLM?能在各种信息流中找到高质量数据的代理?一种机制让独立贡献者分享特定文化的细微差别(如俚语)?我们还不太知道什么是可能的。


然而,很明显的是,构建这些应用程序将受到一个关键成分的限制:数据。


像 Grass、Masa 和 Bagel 这样的协议是其获取的基础设施,并以公平的方式推动其获取。人类的想象力是建立在它之上的限制。这对我来说似乎令人兴奋。


目录[+]