商业
您现在的位置:首页 > 商业 > AI研究人员推出了SuperGLUE,这是一种严格的语言理解基准
  • 腾讯创作者生态的前车之鉴,能否支撑《元梦之星》逐梦UGC?

    腾讯创作者生态的前车之鉴,能否支撑《元梦之星》逐梦UGC?

    发布时间:2023/09/24

    近期,腾讯以“天美乐园”的特别形式公布了新作《元梦之星》,宣告正式入主派对游戏赛道。过去,派对游戏在国内市场份额较小,直到《糖豆人》《香肠派对》《蛋仔派对》等作品引发用户和市场的高度关注,整个赛道才...

  • 普悦智能,专注净水,为渠道经销搭载新引擎!

    普悦智能,专注净水,为渠道经销搭载新引擎!

    发布时间:2023/08/28

    稳步推进:祝贺普悦智能(北京联营公司)第一轮股东入股签约圆满成功! 2023年8月18日,浙江普悦智能科技有限公司北京联营公司——北京普悦京允智能科技有限公司在总经理宋玉财的热忱推进下,成功签约了五名销售/服...

  • 新鸿基地产园区中心封面地标, 苏州环贸汇众盼而至

    新鸿基地产园区中心封面地标, 苏州环贸汇众盼而至

    发布时间:2021/12/28

    当苏州迈向全球都会序列之际,当苏州园区盛启一城想象之时。实力港企新鸿基地产携苏州首个超高层多业态综合体住宅——新鸿基地产苏州环贸汇澎湃而来,势将为苏州高净值投资人群挚献园区中心CBD地标之作,擎领苏州未...

  • 看图操作,三步即可开通微粒贷

    看图操作,三步即可开通微粒贷

    发布时间:2021/12/01

    ​微粒贷是由国内首家互联网银行微众银行推出的一款小额信贷产品,具有无抵押无担保、随借随还等特点,深受大家的喜欢。在此,小编结合官方资料,为想用微粒贷却不知怎么开通的朋友提供一些帮助。微粒贷开通 第一...

  • 英国与快速反应小组一起抗击冠状病毒

    英国与快速反应小组一起抗击冠状病毒

    发布时间:2020/04/01

      英国政府宣布了新的措施,以打击虚假的COVID-19在线信息的传播,包括建立专门的专家小组来处理错误信息。 新成立的快速反应小组将在英国内阁办公室内部运作,并将研究应对互联网上“有害叙述”的方法-解决“...

  • 微软即将吸引消费者-但Skype仍将保留

    微软即将吸引消费者-但Skype仍将保留

    发布时间:2020/03/31

      微软今天宣布,今年晚些时候,它将推出Teams的基本消费版,即类似于Slack的文本,音频和视频聊天应用程序。就像Microsoft所喜欢的,您的个人生活团队将使用许多工具,这些工具将使家庭和小组更轻松地组织...

  • 安全漏洞暴露了共和党选民公司的内部应用代码

    安全漏洞暴露了共和党选民公司的内部应用代码

    发布时间:2020/03/31

      一家专供共和党政治运动使用的选民联系和拉票公司,错误地在其网站上留下了未经保护的应用程序代码副本,供任何人找到。 Campaign Sidekick公司通过iOS和Android应用程序帮助共和党竞选活动布署其选区,这...

  • 在宾夕法尼亚州,州酒商店仍然关闭,人们越来越口渴

    在宾夕法尼亚州,州酒商店仍然关闭,人们越来越口渴

    发布时间:2020/03/31

      随着美国人渴望长时间的自我隔离,白酒业务的销量激增。根据尼尔森(Nielsen)的数据,到3月中旬,这一增长已经比去年同期高出26%以上。但是,联盟中至少有一个州与这种趋势背道而驰,而且与消费者的意愿无...

AI研究人员推出了SuperGLUE,这是一种严格的语言理解基准

发布时间:2019/08/16 商业 浏览次数:677

 
Facebook AI Research与Google的DeepMind,华盛顿大学和纽约大学合作,今天推出了SuperGLUE,这是一系列基准测试任务,用于衡量现代,高性能语言理解AI的性能。
SuperGLUE的前提是会话AI的深度学习模型“达到了上限”,需要更大的挑战。它使用Google的BERT作为模型性能基准。在2018年的许多方面都被认为是最先进的,BERT的性能已经超过今年的许多型号,如微软的MT-DNN,谷歌的XLNet和Facebook的RoBERTa,所有这些都部分基于BERT并实现了性能高于人类基线平均值。
SuperGLUE之前是纽约大学,华盛顿大学和DeepMind的研究人员于2018年4月对语言理解的一般语言理解评估(GLUE)基准。 SuperGLUE旨在比GLUE任务更复杂,并鼓励构建能够掌握更复杂或细微差别的语言的模型。
GLUE根据对NLU系统的九个英语句子理解任务的表现给出模型的数值分数,例如斯坦福情感树库(SST-2),用于从在线电影评论的数据集中获得情绪。 RoBERTa目前在GLUE的数字得分排行榜上排名第一,在9个GLUE任务中有4个具有最先进的性能。
“SuperGLUE包含在一系列困难的NLP任务中测试创造性方法的新方法,这些任务侧重于机器学习的许多核心领域的创新,包括样本高效,转移,多任务和自我监督学习。为了挑战研究人员,我们选择了各种格式的任务,有更细微的问题,尚未使用最先进的方法解决,并且很容易被人们解决,“Facebook AI研究人员在今天的博客文章中说。
新基准包括八项任务,用于测试系统遵循原因,识别因果关系,或在阅读短文后回答是或否问题的能力。 SuperGLUE还包含Winogender,一种性别偏见检测工具。 SuperGLUE排行榜将在super.gluebenchmark.com在线发布。关于SuperGLUE的详细信息可以在5月份发布在arXiv上的一篇论文中阅读,并在7月份进行修订。
“目前的问答系统主要关注琐事类型的问题,例如水母是否有大脑。这个新的挑战更进一步,要求机器详细阐述开放式问题的深入答案,例如“水母如何在没有大脑的情况下运作?”这篇文章读到了。
为了帮助研究人员创建强大的语言理解AI,纽约大学今天还发布了Jiant的更新版本,这是一个通用文本理解工具包。 Jiant构建于PyTorch之上,配置为使用BERT和OpenAI GPT的HuggingFace PyTorch实现以及GLUE和SuperGLUE基准测试。 Jiant由纽约大学机器学习语言实验室维护。
在最近的其他NLP新闻中,Nvidia周二表示其GPU已经实现了BERT最快的培训和推理时间,并培训了迄今为止最大的基于变压器的NLP,其中包括83亿个参数。

姓 名:
邮箱
留 言: