-
振东集团的”本草革命”:让中药材跳出药罐子,闯出大健康新天地
发布时间:2025/06/10
红球纷飞传三晋,大爱无边漫九州。5月25日,由中国红十字会总会主办,山西振东健康产业集团赞助的“红气球挑战赛”(晋中站)在山西省高校新区(山西大学城)鸣笛开赛。该赛事汇聚了来自全国各地及山西大学城高校的...
-
2025中美领衔世界级艺术名家 ——赵玉林精品展播
发布时间:2025/01/17
赵玉林,笔名三友,内蒙古包头市美术家协会副主席,草原书画院院长,中国美协内蒙古分会会员,台北故宫书画院名誉院长,中华国礼书画家,国家博物馆画廊特邀书画家。作品入选《中国当代国际书画家年鉴》,在中国书画研究...
-
腾讯创作者生态的前车之鉴,能否支撑《元梦之星》逐梦UGC?
发布时间:2023/09/24
近期,腾讯以“天美乐园”的特别形式公布了新作《元梦之星》,宣告正式入主派对游戏赛道。过去,派对游戏在国内市场份额较小,直到《糖豆人》《香肠派对》《蛋仔派对》等作品引发用户和市场的高度关注,整个赛道才...
-
普悦智能,专注净水,为渠道经销搭载新引擎!
发布时间:2023/08/28
稳步推进:祝贺普悦智能(北京联营公司)第一轮股东入股签约圆满成功! 2023年8月18日,浙江普悦智能科技有限公司北京联营公司——北京普悦京允智能科技有限公司在总经理宋玉财的热忱推进下,成功签约了五名销售/服...
-
英国与快速反应小组一起抗击冠状病毒
发布时间:2020/04/01
英国政府宣布了新的措施,以打击虚假的COVID-19在线信息的传播,包括建立专门的专家小组来处理错误信息。 新成立的快速反应小组将在英国内阁办公室内部运作,并将研究应对互联网上“有害叙述”的方法-解决“...
-
微软即将吸引消费者-但Skype仍将保留
发布时间:2020/03/31
微软今天宣布,今年晚些时候,它将推出Teams的基本消费版,即类似于Slack的文本,音频和视频聊天应用程序。就像Microsoft所喜欢的,您的个人生活团队将使用许多工具,这些工具将使家庭和小组更轻松地组织...
-
安全漏洞暴露了共和党选民公司的内部应用代码
发布时间:2020/03/31
一家专供共和党政治运动使用的选民联系和拉票公司,错误地在其网站上留下了未经保护的应用程序代码副本,供任何人找到。 Campaign Sidekick公司通过iOS和Android应用程序帮助共和党竞选活动布署其选区,这...
-
在宾夕法尼亚州,州酒商店仍然关闭,人们越来越口渴
发布时间:2020/03/31
随着美国人渴望长时间的自我隔离,白酒业务的销量激增。根据尼尔森(Nielsen)的数据,到3月中旬,这一增长已经比去年同期高出26%以上。但是,联盟中至少有一个州与这种趋势背道而驰,而且与消费者的意愿无...
微软的AI自动在视频片段上发表评论
发布时间:2020/02/12 新闻 浏览次数:754
使用AI生成实时视频字幕可以增强社交媒体的参与度,也可以作为将视频转换为文本的基准。为此,前期工作已采用编码器/解码器模型来生成评论,但他们并未明确建模视频和评论之间的交互,因此它们倾向于生成无关的评论。
这就是为什么如果我在Microsoft Research Asia和哈尔滨工业大学的研究人员组成的团队在Arxiv.org上发布的预印本中提出一项新技术的原因。他们的模型反复学习捕获注释,视频和音频之间的表示形式,并且他们说在实验中,它的表现优于最新方法。
该系统(Github上可用的代码)将最相关的评论与来自候选集的视频进行匹配,从而共同学习跨模式表示。它基于Google的Transformers架构,该架构像所有神经网络一样包含分层排列的功能(神经元),这些功能可传输数据信号并缓慢调整连接的强度(权重)。独特的是,变形金刚要引起注意,这意味着每个输出元素都连接到每个输入元素,并且它们之间的权重是动态计算的。
具体而言,自动实时评论系统包括三个组件:将视频和候选评论的不同形式转换为矢量(即数学表示形式)的编码器层;匹配层,学习每种模态的表示;预测层输出分数,该分数测量视频剪辑和评论之间的匹配程度。给定视频和时间戳,该模型旨在基于周围的注释,视觉部分和音频部分,从与时间戳附近的视频剪辑最相关的候选集中选择一条注释。在时间戳附近提取注释,对于视觉位,系统在时间戳附近对视频帧进行采样。
研究人员在一个视频评论数据集上对该系统进行了评估,该数据集包含从中国视频流媒体平台Bilibili收集的2,361个视频和895,929条评论。然后,他们构建了一个候选评论集,其中每个视频剪辑包含100条评论,其中包括真实评论,排名前20位的热门评论和随机选择的评论。
根据该团队的说法,该模型在包括相关性和正确性在内的多种度量方面胜过了多个基准。例如,在一个带有汤圆的剪辑中,它恰好在视频剪辑的关键点对圆饺做了注释。研究人员写道:“我们相信多模式预训练将是一个有前途的探索方向,图像字幕和视频字幕等任务将从预训练模型中受益。” “为了将来的研究,我们将进一步研究……在实际应用中视觉,音频和文本之间的多模式交互。”