互联网巨头 如何合法地 AI 偷 你的数据训练

苍蝇再小也是肉,聚沙成塔。

作者 | 芯芯编辑 | 靖宇

你知道吗,自己的数据,现在已经开始合法地被互联网大厂们用作 AI 训练了。

在新一波的 AI 竞赛中,由于训练模型需要大量数据,当互联网的普通数据挖掘殆尽,平台上大量用户个人内容,便成了充满诱惑的矿藏。

一些硅谷的科技公司如此渴望新数据,开始偷偷摸摸把 AI 训练加入到数据使用政策中,赋予自己使用人们数据的权利。

在过去一年多里,包括谷歌、Meta、Adobe、Zoom 和 X 等大公司纷纷更新其服务条款或隐私政策,允许自己利用用户数据来训练生成式 AI 模型。

这些互联网大厂,都偷偷在「服务条款」里塞进了什么货?

硅谷巨头的「小动作」

随着科技巨头对数据的渴望越来越大,它们正在仔细重写其条款和条件,以包含「人工智能」、「机器学习」和「生成式人工智能」等词语。

为了避免用户对隐私问题的反感,公司有时悄悄地进行这些更改。在许多情况下,用户会在未阅读一字的情况下点击同意,毫无警觉地接受协议。

下面是硅谷大厂们在用户服务条款中各自「夹带私货」的细节:

谷歌

在 2022 年末,当 OpenAI 发布了 ChatGPT 并引发了全行业的追赶竞赛后,谷歌的研究人员和工程师开始讨论如何利用其他用户数据。数十亿字的内容存储在人们的 Google 文档和其他免费 Google 应用中,但是公司的隐私政策限制了他们如何使用这些数据。

当时,谷歌的隐私政策规定公司只能使用公开可用信息来「帮助训练谷歌的语言模型和构建像 Google 翻译这样的功能」。

去年 6 月,据纽约时报报道,谷歌的法律部门要求隐私团队起草语言,以扩展公司可以使用消费者数据的范围。

去年 7 月,谷歌对其隐私政策进行了修改,增加了公共信息可用于训练其 AI 聊天机器人和其他服务的内容。

谷歌将 Bard 和云端 AI 加入到用户条款中|NYT

我们使用公开可用的信息来帮助训练谷歌的 AI 模型,并构建诸如谷歌翻译、Bard 和云 AI 功能等产品和功能 。」

为了安抚用户,谷歌声明称,其隐私政策的变更「只是澄清了像 Bard(现为 Gemini)这样的新服务也包括在内。我们并没有因为这种语言变化而开始在其他类型的数据上训练模型。」

谷歌的 AI 训练当然也有用最私人化的数据,如给朋友和家人的信息。谷歌发言人表示,在得到一小群用户许可的情况下,谷歌被允许在某些方面使用他们的个人电子邮件训练其人工智能。

去年 Meta 就更新了相关隐私政策,用户「在我们的产品和服务上提供的活动和信息」将被用来训练其 AI,包括在使用像其 AI 工具时所写或所说的一切。

Meta 表示,其 AI 不会读取用户在 Messenger 和 WhatsApp 等应用上与朋友和家人之间发送的消息,除非用户在消息中 @ 了其 AI 聊天机器人。Meta 将与 AI 互动的责任推给用户,表示人们应该「注意」他们在提示中所说的话,比如不要包括任何个人信息,如家庭地址或电话号码。

Meta 声明表示:「我发送给生成式 AI 功能的信息会发生什么?AI 可能会保留并使用您在聊天中分享的信息,以提供更个性化的响应或相关信息,我们可能会与可信赖的合作伙伴(如搜索提供商)共享您提出的某些问题,以提供更相关、准确和最新的响应。」

「使用公开可用的信息训练人工智能模型是整个行业的惯例,并非我们服务独有。」Meta 发言人在声明中说。

X 在条款后方补了一句对于人工智能模型训练的事项|NYT

马斯克一直在构建一个 AI 项目。去年 9 月,X 在其隐私政策中添加了一句话,关于机器学习和人工智能。

「我们使用收集到的信息来提供和运营 X 产品和服务。我们还使用收集到的信息来改进和个性化我们的产品和服务,以便您在 X 上获得更好的体验,包括向您展示更相关的内容和广告、建议您关注的人和主题、启用和帮助您发现关联公司、第三方应用和服务。我们可能会使用收集到的信息和公开可用的信息来帮助训练我们的机器学习或人工智能模型,以实现本政策中概述的目的。」

Snap 有些服务条款的变更只有几个字。另一些则新增了整段内容来解释生成式人工智能模型的工作原理,以及它们对用户数据的访问类型。

例如,今年,Snap 更新了其聊天机器人 My AI 的数据收集的隐私政策。 Snap 提醒用户不要与其人工智能聊天机器人分享机密信息,因为这些信息将用于训练

Snap 对于 My AI 聊天机器人的条款改动较多|NYT

「My AI 是一个基于生成式 AI 技术构建的聊天机器人,设计理念确保安全。生成式 AI 是一种正在开发的技术,它可能会提供有偏见、不正确、有害或误导性的答案。所以,你不应该依赖它的建议。您也不应该分享任何机密或敏感信息——如果您这样做,My AI 会使用它。」

「当您与 My AI 互动时,我们会使用您分享的内容和您的位置(如果您已启用 Snapchat 的位置共享)以改进 Snap 的产品,包括增强 My AI 的安全性,并个性化您的体验,包括广告。」

Zoom 去年 7 月开始更新其服务条款,说明会将用户数据用于训练 AI,但遭遇用户和隐私提倡者的大量批评。在面临社交媒体上的强烈反对声音后,Zoom 去年 8 月又再次更新了服务条款,澄清未经同意不会使用视频、音频或聊天内容。

更新后的服务条款仍然要求用户「在此授予 Zoom 永久性、全球性的、非独占性的、免版税的、可转许可和可转让的许可及所有其他权利」使用客户内容。

这些权利包括「重新分发、发布、导入、访问、使用、存储、传输、审查、披露、保存、提取、修改、复制、共享、展示、复制、分发、翻译、转录、创作衍生作品和处理」客户内容。

条款不再具体提及 Zoom 有权就客户内容进行「AI 和 ML 训练」,而是更模糊地提到「服务开发、营销、分析、质量保证、机器学习、人工智能、培训、测试、服务、软件或 Zoom 其他产品、服务和软件的改进,或以上任何组合。」

今年 6 月初,Adobe 因在其隐私政策中加入了一句关于自动化的短语,激怒了不少创作者,许多用户将其解读为与 AI 数据抓取有关。

「我们访问您的内容:我们可能会通过自动和手动方法访问、查看或聆听您的内容,但仅在有限的方式下,并且仅在法律允许的情况下。」

Adobe 公司的用户对于数据被拿来用 AI 训练比较敏感|NYT

这些条款影响了 Adobe 创意云套件的超过 2000 万用户,一些用户认为这允许 Adobe 访问、查看他们的内容,包括受保密协议保护的作品。一些人认为 Adobe 正在监视他们的工作,吸收用户的艺术作品,并可能将其用于训练 AI 模型。

在用户强烈反对后,Adobe 更新了服务条款,明确表示不会使用客户作品训练 AI。

Adobe 通过博客文章澄清,这些变更是为了检测和删除非法内容,例如儿童色情材料(CSAM),以及滥用内容或行为,包括废品邮件和网络钓鱼。Adobe 不会使用存储在 Adobe 云上的文件来训练其 Firefly AI。

提前占好「免责」的坑

不过,巨头们的小动作,还是有监管在看着的。

美国联邦贸易委员会(FTC)长期以来一直盯着与公司隐私政策有关的欺骗性和不公平行为。过去曾起诉过那些以偷偷摸摸的方式更改隐私政策、破坏对消费者的现有承诺的公司。

今年 2 月,美国联邦贸易委员会警告科技公司,改变隐私政策以追溯性地抓取旧数据可能是不公平或欺骗性的,将追究「悄悄」更改隐私政策以挖掘用户数据用于 AI 的公司。

FTC 指出,公司可能会被诱惑从其用户群中挖掘现有数据以供 AI 模型使用,有「强大的商业动机」。FTC 称公司潜在的困境是利益冲突。「市场参与者应注意,任何背弃其用户隐私承诺的公司都可能触犯法律。」

不过,就在上周,微软 AI CEO Mustafa Suleyman 公开称互联网的公开内容可以被免费拿来训练 AI,如此直白的发言引起了强势的舆论反弹。

从硅谷巨头们在用户使用条款中的改动可以看出, 各家确实都在利用产品优势,将用户数据用于 AI 训练之中。不过,具体哪些数据会拿来训练,哪些不能,行业内仍未达成一个共识 ——一项技术出现的早期,肯定会出现这种规则缺乏的「狂野西部」的阶段。

而上述被动作手脚的使用条款,无疑是巨头们为之后免责提前占的坑。不出意外的话,国内一种大厂和 AI 公司,应该也已经在用户条款中修改、添加了 AI 训练的内容。

对于普通用户而言,对于长达数十页的用户使用条款,99% 都会直接无视。但是,如果这个产品,能通过有限的数据复制出一个「你」的时候,用户是不是该更谨慎一些?

极客一问

你能接受

你的 数据被用于 AI 训练吗?

中国小女孩向马斯克报特斯拉BUG,马斯克回复:Sure。

点赞关注 极客公园视频号


电商模特图如何用ai生成电商模特图如何用ai生成视频

电商模特图通过人工智能(AI)生成的方法主要包括以下几个步骤:1. 数据收集:首先,需要收集一定数量的衣物图片和模特图片作为训练数据。 这些数据可以从电商网站、社交媒体或其他合法来源获取。 2. 数据预处理:对收集到的图片进行预处理,包括缩放、裁剪、翻转等,以增加数据的多样性和模型的泛化能力。 3. 模型训练:使用深度学习算法(如卷积神经网络,CNN)对预处理后的图片数据进行训练。 训练过程中,AI 模型会学习如何识别和生成衣物和模特的特征。 4. 生成模特图:在模型训练完成后,当输入一张衣物图片时,AI 模型可以根据学到的特征生成相应的模特图。 这个过程通常包括以下几个步骤:a. 检测衣物区域:通过图像识别技术,AI 模型可以识别出输入图片中的衣物区域。 b. 生成轮廓:根据衣物区域,AI 模型可以生成衣物的轮廓线。 c. 生成模特身体:根据衣物轮廓线,AI 模型可以生成模特身体的形状和姿势。 d. 添加细节:AI 模型还可以根据衣物特征生成模特的手势、面部表情等细节。 5. 图像优化:对生成的模特图进行优化,包括调整颜色、亮度、对比度等,以使其更接近真实图片。 6. 输出成果:将生成的模特图用于电商网站或广告宣传,以提高商品的展示效果和吸引力。 通过以上步骤,电商卖家可以利用 AI 技术生成高质量的模特图,节省拍摄成本并提高营销效果。 需要注意的是,AI 生成的模特图在逼真度和个性化方面可能与真实模特图存在一定差距,因此在应用过程中要权衡利弊。 生成电商模特图的流程通常是这样的:1. 预处理照片,将背景抠出,只留下模特的照片。 2. 利用 AI 技术,对模特的照片进行人体分割和识别,以便后续对模特的不同部位进行修改和调整。 3. 根据需要,对模特的肤色、衣服、发型等进行修改或替换,以适应不同的服装和场景。 4. 绘制阴影和高光,以增加模特的立体感和逼真度。 5. 对整个图像进行后期调整,包括亮度、对比度、色彩等的调整,以确保最终效果质量。 具体如何用 AI 技术生成电商模特图,可以采用图片处理软件和 AI 工具集成的方式完成。 需要使用的 AI 工具包括人体分割模型、图像合成模型、人工智能化修图算法等。 这些 AI 工具大多数采用深度学习技术,经过大量的训练和优化,可以实现高精度的图像分割、处理和合成。 在实际操作中,需要具备一定的图像处理和人工智能技术的知识和技能,才能够达到较好的电商模特图生成效果。 同时,也需要注意保护用户的隐私和个人信息,遵守相关的法律法规和标准。

AI 绘画训练的人脸模型涉不涉及个人隐私?会侵权吗?

AI绘画训练的人脸模型可能会涉及个人隐私问题。 因为在训练这类人脸模型时,需要大量的数据集作为训练样本,包含大量的人脸图像和人脸特征数据,这些数据很可能包含着涉及到用户的个人信息,例如姓名、年龄、性别、种族等信息。 如果这些数据没有得到有效的保护和处理,那么就会对用户的隐私产生风险,例如被用于人脸识别、生物识别、恶意监控等方面。 此外,对于人脸模型的训练过程中,模型可能会使用到用户的脸部特征信息(例如五官、面部表情等),这些信息也可能被用于制作虚假的人脸场景或仿制用户的面部表情,在可能产生侵权的情况下会引发用户的隐私担忧。 总的来说,如果AI绘画训练的人脸模型的训练数据保护得当,并且遵守相关隐私保护法规,侵权的风险应该可以最大限度地减少。 同时,对于使用这些模型进行创造或者其他用途时,要严格按照相关法律法规和道德原则进行使用,以避免产生任何侵犯用户隐私的行为。

Reddit的内容将如何影响谷歌AI模型的版权和用户服务?

Reddit与谷歌合作,内容助力AI发展

Reddit,这家社交平台已经与科技巨头谷歌达成了一个具有里程碑意义的协议,据消息透露,其内容将被用于谷歌的人工智能模型训练,合同年价值约为4.31亿人民币。 尽管彭博社之前也有相关报道,但未提及具体合作对象。 这是Reddit首次公开与大型AI公司合作的举措。

随着Reddit准备上市,距离首次提交IPO申请已超过三年,最近的财务披露对于潜在投资者来说变得至关重要。 据两位内部人士透露,这些财务文件可能在本周四对外公布,显示了其商业策略的透明度。

值得注意的是,内容创作者对于未经许可就被AI公司使用其内容感到担忧,这触及了版权问题。 为了丰富训练数据的多样性,AI公司正积极与内容所有者进行协商,但这必须建立在合法授权的基础上,以避免法律纠纷和侵权风险。

尽管具体的合作细节和金额暂未公布,但此次合作预示着社交平台与科技公司的合作将更加紧密。 这将推动个性化服务的提升,同时也加速AI技术的创新与实际应用。 因此,对于内容所有者来说,保护版权和知识产权至关重要,与合适的合作方商定条款是必不可少的步骤。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/38400.html
碧桂园上半年权益销售221亿元 同比降82.84%
暂无