AI研究人员设计程序可为电影和其他媒体生成声音效果_人工智能

AI研究人员设计程序可为电影和其他媒体生成声音效果

AI研究人员设计程序可为电影和其他媒体生成声音效果_人工智能_机器人

德克萨斯大学圣安东尼奥分校的研究人员开发了一种基于人工智能的应用程序，能够观察视频中发生的动作，并创造出与这些动作相匹配的人工声音效果。据报道，该程序产生的音效非常逼真，以至于当对人类观察者进行民意调查时，他们通常认为这些音效是合法的。

负责产生音效的程序AudioFoley在最近发表在IEEE多媒体交易的一项研究中有详细介绍。根据IEEE Spectrum，人工智能程序是由犹他州圣安东尼奥分校教授杰夫·普罗沃斯特（Jeff Provost）和博士生桑奇塔·戈斯（Sanchita Ghose）开发的。研究人员利用多个机器学习模型结合在一起创建了这个程序。

生成适合屏幕上动作的声音效果的第一个任务是识别这些动作并将它们映射到音效。为了实现这一点，研究人员设计了两种不同的机器学习模型，并测试了它们的不同方法。第一个模型是从视频中提取帧，然后分析这些帧的运动和颜色等相关特征。然后，第二个模型被用来分析对象的位置在帧间的变化，以提取时间信息。这个时间信息用于预测视频中的下一个可能的动作。这两个模型有不同的方法来分析剪辑中的动作，但它们都使用剪辑中包含的信息来猜测什么声音最适合与之相伴。

下一个任务是合成声音，这是通过将活动/预测的运动与可能的声音样本相匹配来完成的。根据Ghose和Prevost的说法，AutoFoley被用于为1000个短片生成声音，包括动作和项目，如火、跑马、时钟滴答声和雨水落在植物上。

Prevost和Ghose招募了57名大学生，让他们观看不同的视频片段。有些剪辑包含原始音频，有些包含AutoFoley生成的音频。当第一个模型被测试时，大约73%的学生选择合成音频作为原始音频，忽略了伴随剪辑的真实声音。另一个模型表现稍差，只有66%的参与者选择生成的音频而不是原始音频。

Prevost解释说，AutoFoley可能被用于加快电影、电视和其他媒体的制作过程。普雷沃斯特指出，一个现实的福利轨道是重要的，使媒体参与和可信，但福利过程往往需要大量的时间来完成。拥有一个自动化的系统，可以处理基本的福利元素的创建，可以使生产媒体更便宜和更快。

目前，AutoFoley有一些明显的局限性。首先，虽然模型在观察具有稳定、可预测运动的事件时表现良好，但当试图为随时间变化的事件（如雷暴）生成音频时，它会受到影响。除此之外，它还要求分类主题出现在整个剪辑中，而不离开框架。研究小组的目标是在将来的应用程序版本中解决这些问题。

AI研究人员设计程序可为电影...

AI研究人员设计程序可为电影和其他媒体生成声音效果

相关资讯