您现在的位置是:首页 > 互联网网站首页互联网
前沿科技资讯:研究人员开发了一种识别计算机生成文本的方法
- 互联网
- 2021-05-27 19:56:14
- 来源:
很多小伙伴们对于互联网、科技、这方面的信息知识都是比较需要的吧,如今我们的生活当中处处都充满了通信、互联网、科技、数码,那么今天小编就来为大家分享一些关于到通信、互联网、科技、数码方面的信息吧。
这个问题引发了Sebastian Gehrmann博士学位。SEAS的候选人和IBM的研究员Hendrik Strobelt开发了一种统计方法,以及一个开放式访问交互式工具,用于检测AI生成的文本。
自然语言生成器通过预测最常见的单词来训练数以千万计的在线文本并模仿人类语言。例如,单词“have”,“am”和“was”静态地最有可能出现在单词“I”之后。
使用这个想法,Gehrmann和Strobelt开发了一种方法,它不是识别文本中的错误,而是识别过于可预测的文本。
“我们的想法是,随着模型变得越来越好,它们肯定比人类更糟糕,可检测到,与人类一样好或更好,这可能很难用传统方法检测到,”格尔曼说。
“之前,你可以通过所有错误来判断文本是机器生成的,”Strobelt说。“现在,它不再是错误,而是使用极有可能(并且有点无聊)的单词来调出机器生成的文本。通过这个工具,人类和AI可以一起工作来检测假文本。”
Gehrmann和Strobelt将于7月28日至8月2日在SEAS的计算机语言学会(ACL)会议上与SEAS计算机科学副学士Alexander Rush共同撰写他们的研究成果。
Gehrmann和Strobelt的方法,称为GLTR,基于一个模型,该模型使用来自网站的4500万个文本 - 公共版本的OpenAI模型GPT-2。因为它使用GPT-2来检测生成的文本,所以GLTR最适合GPT-2,但也可以很好地对抗其他模型。
以下是它的工作原理:如果您将一段文本输入到工具中,它会突出显示绿色,黄色,红色或紫色的文本,每种颜色都表示该单词在其前面的单词上下文中的可预测性。绿色意味着这个词是非常可预测的,黄色,适度可预测,红色不可预测,紫色意味着模型根本不会预测这个词。