2024年4月9日

YouTube视频成AI训练数据源？OpenAI与Meta面临法律挑战,AI情感智能：人机交互，谁更懂你？,人工智能音乐大杀器！「天工SkyMusic」你敢试吗？,马斯克之子！xAI疯狂融资，180亿估值到底值不值？,文心一言：2秒变定制声音，音色怎么选？,人工智能超越人类？马斯克：或许仅剩五年！,百度文心一言推出新功能，秒速定制你的专属AI声音,马斯克旗下xAI筹谋巨额融资，人工智能领域再掀波澜,微软携手OpenAI豪掷千亿！星际之门超级计算机要来了？,OpenVoice火爆来袭，音色克隆竟能如此逼真？！,大模型遭“越狱”攻击？安全防护何去何从！,OpenAI再掀波澜！ChatGPT免注册体验，AI新世界触手可及？,美国联邦贸易委员会拒绝批准“刷脸”年龄识别技术,英美联手打造AI安全新标杆，科学合作伙伴关系正式建立,音乐界的ChatGPT？天工SkyMusic邀您体验AI音乐创作,支付宝全新发布“AI就医助理”，全面优化患者就医体验

作者算力云

【ITBEAR科技资讯】4月7日消息，近日，有关AI公司在收集训练数据方面所面临的挑战引发了广泛关注。据《华尔街日报》本周早些时候的报道，AI企业正努力应对高质量训练数据收集的难题。而今日，《纽约时报》深入探讨了这些企业为解决此问题所采取的策略，其中一些做法牵涉到AI版权法的模糊地带。

据报道，为了获取训练数据，领先的AI公司OpenAI开发了一种名为Whisper的音频转录模型。该公司利用这一模型转录了超过100万小时的YouTube视频，以便训练其最新的大型语言模型GPT-4。OpenAI在2021年就已经耗尽了可用的数据资源，并在探讨利用YouTube视频、播客和有声读物等资源的可行性后，决定采用这种方法。此外，OpenAI还整合了包括Github的计算机代码、国际象棋走棋数据以及来自Quizlet的学习资料等多种数据源。

据ITBEAR科技资讯了解，尽管OpenAI意识到这种做法在法律上存在争议，但他们认为这属于合理使用范围。《泰晤士报》披露，OpenAI的总裁Greg Brockman甚至亲自参与了视频的收集工作。OpenAI的发言人Lindsay Held向媒体表示，公司为每个模型都策划了独特的数据集，旨在帮助其更好地了解世界，并维持其在全球研究领域的竞争力。Held还提到，公司使用了众多数据来源，并正在考虑生成自家的合成数据。

然而，这一做法并未得到所有相关方的认可。谷歌发言人Matt Bryant指出，他们注意到了有关OpenAI活动的报告，并重申其robots.txt文件和服务条款都明确禁止未经授权的YouTube内容抓取或下载。YouTube首席执行官Neal Mohan也在近日的采访中表示，尽管没有直接证据表明OpenAI使用YouTube视频来训练其AI模型，但此类行为确实违反了YouTube的服务条款。

同样面临数据可用性限制的还有meta公司。在《泰晤士报》披露的录音中，meta的AI团队为了追赶OpenAI，讨论了未经许可使用版权作品的可能性。该团队在考虑了互联网上几乎所有可用的英语书籍、散文、诗歌和新闻文章后，提出了诸如支付图书许可费，甚至收购大型出版商等解决方案。

_堪培拉服务器,本溪云电脑