2024年2月24日

OpenAI发布Sora文生视频大模型，清华大学亦有新专利公布,渲染1小时仅出1分钟！OpenAI视频生成模型Sora遭质疑？,Sora视频生成神器，Copilot将迎来超强搭档？快来一探究竟！,谷歌推出Gemini for Workspace：AI辅助功能全新上线，定价策略详解,谷歌DeepMind推出Gemma开放AI模型：性能超越竞品，兼容多平台,Adobe推出全新AI助手：助力用户高效处理PDF文档,Apple Silicon芯片迎新突破：博士生团队推出mlx-graphs项目，神经网络处理速度飙升十倍,字节跳动推出创新视频模型Boximator：文本精确控制动作,Gartner警告：生成式AI或致搜索量暴跌25%，企业营销战略需大调整,OpenAI发布Sora模型：可根据文本生成多视角视频，电影行业或受冲击,Reddit与神秘AI巨头达成数据授权协议，年价值约4.32亿元人民币,谷歌人工智能项目重大更新：Gemini新功能亮相，修复问题并提升用户体验,OpenAI挑战谷歌搜索霸主地位，新搜索产品能否扭转乾坤？,IBM推出AI编程助手“watsonx”助力解决COBOL人才短缺问题,PTO再度拒绝OpenAI GPT商标申请，称其为通用术语,软银创始人孙正义筹划1000亿美元AI芯片企业，欲与ARM形成互补优势

作者算力云

鹤岗服务器,滁州云主机_

【ITBEAR科技资讯】2月21日消息，近日，人工智能领域的领军企业OpenAI发布了其首款名为Sora的文本生成视频大模型。这款模型能够根据用户提供的文字提示，生成长达60秒的高质量视频。令人惊叹的是，Sora所输出的视频效果堪比专业的影视CG，因此在发布后迅速引爆了科技圈。

与此同时，在文生视频技术的研发上，国内高校也取得了显著进展。据国家知识产权局网站公布的信息，清华大学于2月2日申请了一项名为“一种定制化多主体文生视频方法、装置、设备及介质”的专利。该专利涉及神经网络技术领域，为文生视频技术的进一步发展提供了新的思路。

据ITBEAR科技资讯了解，清华大学的这项专利申请中详细描述了一种定制化多主体文生视频的方法。该方法需要获取多个主体分别对应的主体文本表述以及主体图像;然后，基于这些信息，进一步获取混合文本和组合图像。接下来，将混合文本和组合图像输入到文生视频模型中，生成第二噪声预测值，并根据这个预测值与组合图像，计算出第二损失和第三损失。通过综合考虑第一损失、第二损失与第三损失，对文生视频模型进行优化，从而得到一个性能更优的文生视频模型。

这项专利技术的创新之处在于，它通过多种损失函数对文生视频模型的参数进行优化，确保在基于文本描述生成视频中的图像时，文本描述与定制化主体能够保持一致。同时，该技术在生成过程中能够确保每个主体的特征不会发生混淆，并且在最终的视频中消除合成痕迹，从而提升视频的整体质量和观感。