新闻
您现在的位置:首页 > 新闻 > 微软的AI自动在视频片段上发表评论
  • 腾讯创作者生态的前车之鉴,能否支撑《元梦之星》逐梦UGC?

    腾讯创作者生态的前车之鉴,能否支撑《元梦之星》逐梦UGC?

    发布时间:2023/09/24

    近期,腾讯以“天美乐园”的特别形式公布了新作《元梦之星》,宣告正式入主派对游戏赛道。过去,派对游戏在国内市场份额较小,直到《糖豆人》《香肠派对》《蛋仔派对》等作品引发用户和市场的高度关注,整个赛道才...

  • 普悦智能,专注净水,为渠道经销搭载新引擎!

    普悦智能,专注净水,为渠道经销搭载新引擎!

    发布时间:2023/08/28

    稳步推进:祝贺普悦智能(北京联营公司)第一轮股东入股签约圆满成功! 2023年8月18日,浙江普悦智能科技有限公司北京联营公司——北京普悦京允智能科技有限公司在总经理宋玉财的热忱推进下,成功签约了五名销售/服...

  • 新鸿基地产园区中心封面地标, 苏州环贸汇众盼而至

    新鸿基地产园区中心封面地标, 苏州环贸汇众盼而至

    发布时间:2021/12/28

    当苏州迈向全球都会序列之际,当苏州园区盛启一城想象之时。实力港企新鸿基地产携苏州首个超高层多业态综合体住宅——新鸿基地产苏州环贸汇澎湃而来,势将为苏州高净值投资人群挚献园区中心CBD地标之作,擎领苏州未...

  • 看图操作,三步即可开通微粒贷

    看图操作,三步即可开通微粒贷

    发布时间:2021/12/01

    ​微粒贷是由国内首家互联网银行微众银行推出的一款小额信贷产品,具有无抵押无担保、随借随还等特点,深受大家的喜欢。在此,小编结合官方资料,为想用微粒贷却不知怎么开通的朋友提供一些帮助。微粒贷开通 第一...

  • 英国与快速反应小组一起抗击冠状病毒

    英国与快速反应小组一起抗击冠状病毒

    发布时间:2020/04/01

      英国政府宣布了新的措施,以打击虚假的COVID-19在线信息的传播,包括建立专门的专家小组来处理错误信息。 新成立的快速反应小组将在英国内阁办公室内部运作,并将研究应对互联网上“有害叙述”的方法-解决“...

  • 微软即将吸引消费者-但Skype仍将保留

    微软即将吸引消费者-但Skype仍将保留

    发布时间:2020/03/31

      微软今天宣布,今年晚些时候,它将推出Teams的基本消费版,即类似于Slack的文本,音频和视频聊天应用程序。就像Microsoft所喜欢的,您的个人生活团队将使用许多工具,这些工具将使家庭和小组更轻松地组织...

  • 安全漏洞暴露了共和党选民公司的内部应用代码

    安全漏洞暴露了共和党选民公司的内部应用代码

    发布时间:2020/03/31

      一家专供共和党政治运动使用的选民联系和拉票公司,错误地在其网站上留下了未经保护的应用程序代码副本,供任何人找到。 Campaign Sidekick公司通过iOS和Android应用程序帮助共和党竞选活动布署其选区,这...

  • 在宾夕法尼亚州,州酒商店仍然关闭,人们越来越口渴

    在宾夕法尼亚州,州酒商店仍然关闭,人们越来越口渴

    发布时间:2020/03/31

      随着美国人渴望长时间的自我隔离,白酒业务的销量激增。根据尼尔森(Nielsen)的数据,到3月中旬,这一增长已经比去年同期高出26%以上。但是,联盟中至少有一个州与这种趋势背道而驰,而且与消费者的意愿无...

微软的AI自动在视频片段上发表评论

发布时间:2020/02/12 新闻 浏览次数:613

 
使用AI生成实时视频字幕可以增强社交媒体的参与度,也可以作为将视频转换为文本的基准。为此,前期工作已采用编码器/解码器模型来生成评论,但他们并未明确建模视频和评论之间的交互,因此它们倾向于生成无关的评论。
这就是为什么如果我在Microsoft Research Asia和哈尔滨工业大学的研究人员组成的团队在Arxiv.org上发布的预印本中提出一项新技术的原因。他们的模型反复学习捕获注释,视频和音频之间的表示形式,并且他们说在实验中,它的表现优于最新方法。
该系统(Github上可用的代码)将最相关的评论与来自候选集的视频进行匹配,从而共同学习跨模式表示。它基于Google的Transformers架构,该架构像所有神经网络一样包含分层排列的功能(神经元),这些功能可传输数据信号并缓慢调整连接的强度(权重)。独特的是,变形金刚要引起注意,这意味着每个输出元素都连接到每个输入元素,并且它们之间的权重是动态计算的。
具体而言,自动实时评论系统包括三个组件:将视频和候选评论的不同形式转换为矢量(即数学表示形式)的编码器层;匹配层,学习每种模态的表示;预测层输出分数,该分数测量视频剪辑和评论之间的匹配程度。给定视频和时间戳,该模型旨在基于周围的注释,视觉部分和音频部分,从与时间戳附近的视频剪辑最相关的候选集中选择一条注释。在时间戳附近提取注释,对于视觉位,系统在时间戳附近对视频帧进行采样。
研究人员在一个视频评论数据集上对该系统进行了评估,该数据集包含从中国视频流媒体平台Bilibili收集的2,361个视频和895,929条评论。然后,他们构建了一个候选评论集,其中每个视频剪辑包含100条评论,其中包括真实评论,排名前20位的热门评论和随机选择的评论。
根据该团队的说法,该模型在包括相关性和正确性在内的多种度量方面胜过了多个基准。例如,在一个带有汤圆的剪辑中,它恰好在视频剪辑的关键点对圆饺做了注释。研究人员写道:“我们相信多模式预训练将是一个有前途的探索方向,图像字幕和视频字幕等任务将从预训练模型中受益。” “为了将来的研究,我们将进一步研究……在实际应用中视觉,音频和文本之间的多模式交互。”