新闻
您现在的位置:首页 > 新闻 > 亚马逊的AI自动将视频复制为其他语言
  • 腾讯创作者生态的前车之鉴,能否支撑《元梦之星》逐梦UGC?

    腾讯创作者生态的前车之鉴,能否支撑《元梦之星》逐梦UGC?

    发布时间:2023/09/24

    近期,腾讯以“天美乐园”的特别形式公布了新作《元梦之星》,宣告正式入主派对游戏赛道。过去,派对游戏在国内市场份额较小,直到《糖豆人》《香肠派对》《蛋仔派对》等作品引发用户和市场的高度关注,整个赛道才...

  • 普悦智能,专注净水,为渠道经销搭载新引擎!

    普悦智能,专注净水,为渠道经销搭载新引擎!

    发布时间:2023/08/28

    稳步推进:祝贺普悦智能(北京联营公司)第一轮股东入股签约圆满成功! 2023年8月18日,浙江普悦智能科技有限公司北京联营公司——北京普悦京允智能科技有限公司在总经理宋玉财的热忱推进下,成功签约了五名销售/服...

  • 新鸿基地产园区中心封面地标, 苏州环贸汇众盼而至

    新鸿基地产园区中心封面地标, 苏州环贸汇众盼而至

    发布时间:2021/12/28

    当苏州迈向全球都会序列之际,当苏州园区盛启一城想象之时。实力港企新鸿基地产携苏州首个超高层多业态综合体住宅——新鸿基地产苏州环贸汇澎湃而来,势将为苏州高净值投资人群挚献园区中心CBD地标之作,擎领苏州未...

  • 看图操作,三步即可开通微粒贷

    看图操作,三步即可开通微粒贷

    发布时间:2021/12/01

    ​微粒贷是由国内首家互联网银行微众银行推出的一款小额信贷产品,具有无抵押无担保、随借随还等特点,深受大家的喜欢。在此,小编结合官方资料,为想用微粒贷却不知怎么开通的朋友提供一些帮助。微粒贷开通 第一...

  • 英国与快速反应小组一起抗击冠状病毒

    英国与快速反应小组一起抗击冠状病毒

    发布时间:2020/04/01

      英国政府宣布了新的措施,以打击虚假的COVID-19在线信息的传播,包括建立专门的专家小组来处理错误信息。 新成立的快速反应小组将在英国内阁办公室内部运作,并将研究应对互联网上“有害叙述”的方法-解决“...

  • 微软即将吸引消费者-但Skype仍将保留

    微软即将吸引消费者-但Skype仍将保留

    发布时间:2020/03/31

      微软今天宣布,今年晚些时候,它将推出Teams的基本消费版,即类似于Slack的文本,音频和视频聊天应用程序。就像Microsoft所喜欢的,您的个人生活团队将使用许多工具,这些工具将使家庭和小组更轻松地组织...

  • 安全漏洞暴露了共和党选民公司的内部应用代码

    安全漏洞暴露了共和党选民公司的内部应用代码

    发布时间:2020/03/31

      一家专供共和党政治运动使用的选民联系和拉票公司,错误地在其网站上留下了未经保护的应用程序代码副本,供任何人找到。 Campaign Sidekick公司通过iOS和Android应用程序帮助共和党竞选活动布署其选区,这...

  • 在宾夕法尼亚州,州酒商店仍然关闭,人们越来越口渴

    在宾夕法尼亚州,州酒商店仍然关闭,人们越来越口渴

    发布时间:2020/03/31

      随着美国人渴望长时间的自我隔离,白酒业务的销量激增。根据尼尔森(Nielsen)的数据,到3月中旬,这一增长已经比去年同期高出26%以上。但是,联盟中至少有一个州与这种趋势背道而驰,而且与消费者的意愿无...

亚马逊的AI自动将视频复制为其他语言

发布时间:2020/01/28 新闻 浏览次数:612

 
曾经希望您可以自动用另一种语言来复制外国电影对话吗?亚马逊就是这样。在本周于预印本服务器Arxiv.org上发表的一篇论文中,这家科技巨头的研究人员详细描述了一种新颖的“语音到语音”管道,该管道利用AI使翻译后的语音与原始语音和微调的语音持续时间对齐,然后添加背景噪声和混响。他们说,这样做可以改善配音的自然感觉,并突出了每个拟议步骤的相对重要性。
正如论文的共同作者所指出的,自动配音包括将语音转录成文本并将该文本翻译成另一种语言,然后再从翻译后的文本生成语音。挑战不仅是传达原始音频的相同内容,而且要匹配原始音色,情感,持​​续时间,韵律(即节奏和声音的模式),背景噪声和混响。
亚马逊的方法可以跨语言同步短语,并遵循“基于流利性”而非基于内容的标准。它包括几个部分,包括基于Transformer的机器翻译位,在超过1.5亿英语-意大利语对上进行了训练,以及韵律对齐模块,该模块计算语音段之间持续时间的相对匹配,同时测量停顿和中断的语言合理性。在经过47小时的语音录音训练的文本到语音阶段的模型,将从输入到预训练的声码器的文本中生成上下文序列,该序列将序列转换为语音波形。
为了使配音后的语音听起来更“真实”且类似于原始语音,该团队采用了前景-背景分离步骤,该步骤可提取背景噪音并将其添加到语音中。一个单独的步骤(混响步骤)从原始音频估计环境混响并将其应用于配音音频。
为了评估他们的系统,研究人员让志愿者(共有14名意大利人,5名意大利人和9名非意大利人)以三种不同的方式对TED演讲的24篇摘录与意大利语配音的自然程度进行评分:a)语音到语音的翻译基线,b)具有增强的机器翻译和韵律对齐的基线,以及c)b具有增强的音频渲染的系统。
研究人员报告说,他们成功实现了短语级同步,但是韵律对齐步骤对生成的配音的流畅性和韵律产生了负面影响。该论文的合著者写道:“这些不满情绪对本地听众的影响似乎部分掩盖了背景噪音和混响对音频渲染的影响,反而导致非意大利听众的自然感大大提高。” “未来的工作肯定会通过计算更好的分割并引入更灵活的唇形同步来致力于改善韵律比对组件。”