您现在的位置是:首页 > 5G网站首页5G

科技资讯:亚马逊将发布超过400万字的会话和知识数据集

  • 5G
  • 2021-05-27 15:57:46
  • 来源:
导读 互联网可以使学生变成老师;互联网可以使名不见经传的人闻名天下;互联网可以结交志同道合的朋友;互联网可以让自己获取最多的知识,改变以

互联网可以使学生变成老师;互联网可以使名不见经传的人闻名天下;互联网可以结交志同道合的朋友;互联网可以让自己获取最多的知识,改变以往的传统的学习方式。下面分享一篇关于互联网的文章供大家阅读。

亚马逊计划提供大量针对自然语言处理研究的数据样本。西雅图公司今天表示,在2019年9月,它将发布Topical Chat数据集,这是一系列众包的人类对话,提供给参加年度Alexa Prize Socialbot Grand Challenge的团队。

亚马逊称,Topical Chat数据集包含超过210,000个话语或超过4,100,000个单词,使其成为最大的公共社交对话和知识数据集之一。每个语料库的对话和对话轮次与提供给群众工作者的知识相关联,并且所述知识是从与一组实体相关的一系列“非结构化”和“松散结构化”的文本资源中收集的。

亚马逊高级首席科学家Dilek Hakkani-Tur在博客文章中明确表示,没有任何谈话是与Alexa客户的互动。

“这个系列的目标是实现知识接地神经反应生成系统的后续研究步骤,解决其他公开数据集无法解决的自然对话中的难题,”Hakkani-Tur说。“这将使研究人员能够专注于人类在主题之间的转换,知识选择和丰富,以及将事实和意见融入对话...... [并支持]高质量,可重复研究的出版。”

亚马逊表示,竞争Alexa Prize的团队可以访问数据集的扩展版本 - 名为Extended Topical Chat的数据集 - 其中包括正在进行的收集和注释的结果。

亚马逊开源数据集可用于训练AI模型识别跨语言和脚本类型的名称,大约六个月后发布了今天的公告。它被称为“音译多语种命名实体音译系统”,它包含近400,000种语言,如阿拉伯语,英语,希伯来语,日语片假名,以及从维基百科中删除的俄语。

免责声明:本文由用户上传,如有侵权请联系删除!
Top