新闻
您现在的位置:首页 > 新闻 > 拼图发布数据集以帮助开发可检测有毒评论的AI
  • 腾讯创作者生态的前车之鉴,能否支撑《元梦之星》逐梦UGC?

    腾讯创作者生态的前车之鉴,能否支撑《元梦之星》逐梦UGC?

    发布时间:2023/09/24

    近期,腾讯以“天美乐园”的特别形式公布了新作《元梦之星》,宣告正式入主派对游戏赛道。过去,派对游戏在国内市场份额较小,直到《糖豆人》《香肠派对》《蛋仔派对》等作品引发用户和市场的高度关注,整个赛道才...

  • 普悦智能,专注净水,为渠道经销搭载新引擎!

    普悦智能,专注净水,为渠道经销搭载新引擎!

    发布时间:2023/08/28

    稳步推进:祝贺普悦智能(北京联营公司)第一轮股东入股签约圆满成功! 2023年8月18日,浙江普悦智能科技有限公司北京联营公司——北京普悦京允智能科技有限公司在总经理宋玉财的热忱推进下,成功签约了五名销售/服...

  • 新鸿基地产园区中心封面地标, 苏州环贸汇众盼而至

    新鸿基地产园区中心封面地标, 苏州环贸汇众盼而至

    发布时间:2021/12/28

    当苏州迈向全球都会序列之际,当苏州园区盛启一城想象之时。实力港企新鸿基地产携苏州首个超高层多业态综合体住宅——新鸿基地产苏州环贸汇澎湃而来,势将为苏州高净值投资人群挚献园区中心CBD地标之作,擎领苏州未...

  • 看图操作,三步即可开通微粒贷

    看图操作,三步即可开通微粒贷

    发布时间:2021/12/01

    ​微粒贷是由国内首家互联网银行微众银行推出的一款小额信贷产品,具有无抵押无担保、随借随还等特点,深受大家的喜欢。在此,小编结合官方资料,为想用微粒贷却不知怎么开通的朋友提供一些帮助。微粒贷开通 第一...

  • 英国与快速反应小组一起抗击冠状病毒

    英国与快速反应小组一起抗击冠状病毒

    发布时间:2020/04/01

      英国政府宣布了新的措施,以打击虚假的COVID-19在线信息的传播,包括建立专门的专家小组来处理错误信息。 新成立的快速反应小组将在英国内阁办公室内部运作,并将研究应对互联网上“有害叙述”的方法-解决“...

  • 微软即将吸引消费者-但Skype仍将保留

    微软即将吸引消费者-但Skype仍将保留

    发布时间:2020/03/31

      微软今天宣布,今年晚些时候,它将推出Teams的基本消费版,即类似于Slack的文本,音频和视频聊天应用程序。就像Microsoft所喜欢的,您的个人生活团队将使用许多工具,这些工具将使家庭和小组更轻松地组织...

  • 安全漏洞暴露了共和党选民公司的内部应用代码

    安全漏洞暴露了共和党选民公司的内部应用代码

    发布时间:2020/03/31

      一家专供共和党政治运动使用的选民联系和拉票公司,错误地在其网站上留下了未经保护的应用程序代码副本,供任何人找到。 Campaign Sidekick公司通过iOS和Android应用程序帮助共和党竞选活动布署其选区,这...

  • 在宾夕法尼亚州,州酒商店仍然关闭,人们越来越口渴

    在宾夕法尼亚州,州酒商店仍然关闭,人们越来越口渴

    发布时间:2020/03/31

      随着美国人渴望长时间的自我隔离,白酒业务的销量激增。根据尼尔森(Nielsen)的数据,到3月中旬,这一增长已经比去年同期高出26%以上。但是,联盟中至少有一个州与这种趋势背道而驰,而且与消费者的意愿无...

拼图发布数据集以帮助开发可检测有毒评论的AI

发布时间:2019/11/21 新闻 浏览次数:717

 
考虑到某些社区的毒性水平,减轻在线偏见和辱骂行为并非易事。在最近的一项调查中,超过五分之一的受访者表示受到人身威胁,而近五分之一的人遭受过性骚扰,缠扰或持续性骚扰。在遭受骚扰的人中,超过20%的人表示这是他们的性别认同,种族,种族,性取向,宗教,职业或残疾的结果。
为了寻求解决方案,拼图(Jigsaw)是Google母公司Alphabet旗下的组织,旨在解决当今的网络欺凌,审查,虚假信息和其他数字问题。今天,拼图(Jigsaw)发布了它所谓的最大的具有毒性的公共数据集标签和身份标签。它旨在帮助衡量AI评论分类系统中的偏差,这是Jigsaw和其他公司以前使用模板语句中的综合数据进行测量的结果。
拼图软件工程师Daniel Borkan,Jeff Sorensen和Lucy Vasserman在“ Medium”帖子中写道:“虽然易于创建综合评论,但它们并没有捕获在线讨论论坛中的任何复杂性和真实评论。” “通过在真实数据中标记身份提及,我们能够在更现实的环境中测量模型中的偏差,并且我们希望能够进一步研究整个领域中的意外偏差。”
语料库起源于4月启动的拼图竞赛,该竞赛挑战参赛者以建立可识别毒性并最大程度减少对身份提及的偏见的模型。第一版包含大约25万条针对身份标记的评论,要求评估员在给定评论中指出性别,性取向,宗教,种族,种族,残疾和精神疾病。这个版本增加了将近9,000名人类评估者的个人注释,这些注释有效地教了机器学习模型毒性的含义。
每个注释都会显示给3到10个人评价者,以获取注释,尽管Jigsaw表示,由于“用于提高…准确性的采样和策略”,多达数以千计的评价者都看到了一些注释。这一想法是,数据科学家将进行培训。这些模型可以预测个人发现给定评论有毒的可能性。例如,如果十分之七的人将评论评为“有毒”,则系统可能会预测某人认为该评论有毒的可能性为70%。
并非数据集中的每个人类评分者都对同一评分感到满意​​,Jigsaw说,根据专业知识或背景对各个注释者进行不同的加权可以提高模型的准确性。他们将其留给以后的工作。
Borkan,Sorensen和Vasserman写道:“通过发布民用注释集上的各个注释,我们邀请业界与我们一起迈出探索[开放式]问题的第一步。” “建立有效的模型并捕捉人的观点的细微差别是一个复杂的挑战,任何一个团队都无法解决……我们很高兴看到我们的学习。”
像今天发布的那样的数据集是Jigsaw产品的基础,例如3月份发布的具有评论过滤功能的Chrome扩展程序以及针对网络发布者的Perspective API工具。除了这项工作之外,智囊团还进行有时被证明有争议的实验,例如为其分配虚假信息服务来攻击虚拟网站。其他正在进行的项目还包括一个名为Outline的开源工具,该工具可使新闻机构为记者提供更安全的互联网访问方式。反分布式拒绝服务解决方案;以及劝阻ISIS潜在新兵加入该小组的方法。

姓 名:
邮箱
留 言: