振东集团的”本草革命”：让中药材跳出药罐子，闯出大健康新天地

发布时间：2025/06/10

红球纷飞传三晋，大爱无边漫九州。5月25日，由中国红十字会总会主办，山西振东健康产业集团赞助的“红气球挑战赛”（晋中站）在山西省高校新区（山西大学城）鸣笛开赛。该赛事汇聚了来自全国各地及山西大学城高校的...
2025中美领衔世界级艺术名家 ——赵玉林精品展播

发布时间：2025/01/17

赵玉林,笔名三友,内蒙古包头市美术家协会副主席,草原书画院院长,中国美协内蒙古分会会员,台北故宫书画院名誉院长,中华国礼书画家,国家博物馆画廊特邀书画家。作品入选《中国当代国际书画家年鉴》,在中国书画研究...
腾讯创作者生态的前车之鉴，能否支撑《元梦之星》逐梦UGC？

发布时间：2023/09/24

近期，腾讯以“天美乐园”的特别形式公布了新作《元梦之星》，宣告正式入主派对游戏赛道。过去，派对游戏在国内市场份额较小，直到《糖豆人》《香肠派对》《蛋仔派对》等作品引发用户和市场的高度关注，整个赛道才...
普悦智能，专注净水，为渠道经销搭载新引擎！

发布时间：2023/08/28

稳步推进：祝贺普悦智能（北京联营公司）第一轮股东入股签约圆满成功！ 2023年8月18日，浙江普悦智能科技有限公司北京联营公司——北京普悦京允智能科技有限公司在总经理宋玉财的热忱推进下，成功签约了五名销售/服...

英国与快速反应小组一起抗击冠状病毒

发布时间：2020/04/01

英国政府宣布了新的措施，以打击虚假的COVID-19在线信息的传播，包括建立专门的专家小组来处理错误信息。新成立的快速反应小组将在英国内阁办公室内部运作，并将研究应对互联网上“有害叙述”的方法-解决“...
微软即将吸引消费者-但Skype仍将保留

发布时间：2020/03/31

微软今天宣布，今年晚些时候，它将推出Teams的基本消费版，即类似于Slack的文本，音频和视频聊天应用程序。就像Microsoft所喜欢的，您的个人生活团队将使用许多工具，这些工具将使家庭和小组更轻松地组织...
安全漏洞暴露了共和党选民公司的内部应用代码

发布时间：2020/03/31

一家专供共和党政治运动使用的选民联系和拉票公司，错误地在其网站上留下了未经保护的应用程序代码副本，供任何人找到。 Campaign Sidekick公司通过iOS和Android应用程序帮助共和党竞选活动布署其选区，这...
在宾夕法尼亚州，州酒商店仍然关闭，人们越来越口渴

发布时间：2020/03/31

随着美国人渴望长时间的自我隔离，白酒业务的销量激增。根据尼尔森(Nielsen)的数据，到3月中旬，这一增长已经比去年同期高出26%以上。但是，联盟中至少有一个州与这种趋势背道而驰，而且与消费者的意愿无...

微软的AI自动在视频片段上发表评论

发布时间：2020/02/12 新闻 浏览次数：998

使用AI生成实时视频字幕可以增强社交媒体的参与度，也可以作为将视频转换为文本的基准。为此，前期工作已采用编码器/解码器模型来生成评论，但他们并未明确建模视频和评论之间的交互，因此它们倾向于生成无关的评论。
这就是为什么如果我在Microsoft Research Asia和哈尔滨工业大学的研究人员组成的团队在Arxiv.org上发布的预印本中提出一项新技术的原因。他们的模型反复学习捕获注释，视频和音频之间的表示形式，并且他们说在实验中，它的表现优于最新方法。
该系统(Github上可用的代码)将最相关的评论与来自候选集的视频进行匹配，从而共同学习跨模式表示。它基于Google的Transformers架构，该架构像所有神经网络一样包含分层排列的功能(神经元)，这些功能可传输数据信号并缓慢调整连接的强度(权重)。独特的是，变形金刚要引起注意，这意味着每个输出元素都连接到每个输入元素，并且它们之间的权重是动态计算的。
具体而言，自动实时评论系统包括三个组件：将视频和候选评论的不同形式转换为矢量(即数学表示形式)的编码器层;匹配层，学习每种模态的表示;预测层输出分数，该分数测量视频剪辑和评论之间的匹配程度。给定视频和时间戳，该模型旨在基于周围的注释，视觉部分和音频部分，从与时间戳附近的视频剪辑最相关的候选集中选择一条注释。在时间戳附近提取注释，对于视觉位，系统在时间戳附近对视频帧进行采样。
研究人员在一个视频评论数据集上对该系统进行了评估，该数据集包含从中国视频流媒体平台Bilibili收集的2,361个视频和895,929条评论。然后，他们构建了一个候选评论集，其中每个视频剪辑包含100条评论，其中包括真实评论，排名前20位的热门评论和随机选择的评论。
根据该团队的说法，该模型在包括相关性和正确性在内的多种度量方面胜过了多个基准。例如，在一个带有汤圆的剪辑中，它恰好在视频剪辑的关键点对圆饺做了注释。研究人员写道：“我们相信多模式预训练将是一个有前途的探索方向，图像字幕和视频字幕等任务将从预训练模型中受益。” “为了将来的研究，我们将进一步研究……在实际应用中视觉，音频和文本之间的多模式交互。”

上一篇: 播客：人工智能可以修复损坏的物联网和?智能家居安全吗

下一篇: 吉列和特维奇在游戏联盟中吸引电竞影响者

相关推荐