2024年4月9日

YouTube视频成AI训练数据源?OpenAI与Meta面临法律挑战,AI情感智能:人机交互,谁更懂你?,人工智能音乐大杀器!「天工SkyMusic」你敢试吗?,马斯克之子!xAI疯狂融资,180亿估值到底值不值?,文心一言:2秒变定制声音,音色怎么选?,人工智能超越人类?马斯克:或许仅剩五年!,百度文心一言推出新功能,秒速定制你的专属AI声音,马斯克旗下xAI筹谋巨额融资,人工智能领域再掀波澜,微软携手OpenAI豪掷千亿!星际之门超级计算机要来了?,OpenVoice火爆来袭,音色克隆竟能如此逼真?!,大模型遭“越狱”攻击?安全防护何去何从!,OpenAI再掀波澜!ChatGPT免注册体验,AI新世界触手可及?,美国联邦贸易委员会拒绝批准“刷脸”年龄识别技术,英美联手打造AI安全新标杆,科学合作伙伴关系正式建立,音乐界的ChatGPT?天工SkyMusic邀您体验AI音乐创作,支付宝全新发布“AI就医助理”,全面优化患者就医体验

作者 算力云

【ITBEAR科技资讯】4月7日消息,近日,有关AI公司在收集训练数据方面所面临的挑战引发了广泛关注。据《华尔街日报》本周早些时候的报道,AI企业正努力应对高质量训练数据收集的难题。而今日,《纽约时报》深入探讨了这些企业为解决此问题所采取的策略,其中一些做法牵涉到AI版权法的模糊地带。

据报道,为了获取训练数据,领先的AI公司OpenAI开发了一种名为Whisper的音频转录模型。该公司利用这一模型转录了超过100万小时的YouTube视频,以便训练其最新的大型语言模型GPT-4。OpenAI在2021年就已经耗尽了可用的数据资源,并在探讨利用YouTube视频、播客和有声读物等资源的可行性后,决定采用这种方法。此外,OpenAI还整合了包括Github的计算机代码、国际象棋走棋数据以及来自Quizlet的学习资料等多种数据源。

据ITBEAR科技资讯了解,尽管OpenAI意识到这种做法在法律上存在争议,但他们认为这属于合理使用范围。《泰晤士报》披露,OpenAI的总裁Greg Brockman甚至亲自参与了视频的收集工作。OpenAI的发言人Lindsay Held向媒体表示,公司为每个模型都策划了独特的数据集,旨在帮助其更好地了解世界,并维持其在全球研究领域的竞争力。Held还提到,公司使用了众多数据来源,并正在考虑生成自家的合成数据。

然而,这一做法并未得到所有相关方的认可。谷歌发言人Matt Bryant指出,他们注意到了有关OpenAI活动的报告,并重申其robots.txt文件和服务条款都明确禁止未经授权的YouTube内容抓取或下载。YouTube首席执行官Neal Mohan也在近日的采访中表示,尽管没有直接证据表明OpenAI使用YouTube视频来训练其AI模型,但此类行为确实违反了YouTube的服务条款。

同样面临数据可用性限制的还有meta公司。在《泰晤士报》披露的录音中,meta的AI团队为了追赶OpenAI,讨论了未经许可使用版权作品的可能性。该团队在考虑了互联网上几乎所有可用的英语书籍、散文、诗歌和新闻文章后,提出了诸如支付图书许可费,甚至收购大型出版商等解决方案。

_堪培拉服务器,本溪云电脑