面对内容理解的准确性和效率问题,facebook是这样利用自

  • 2019-07-08 16:48
  • 3T比特

AI 科技评论按,在各种社交平台上,经常会出现一些违规的内容,如恐怖视频、侮辱性的言语等。如何将这些内容识别出来并进行处理对平台健康良好的运作具有重大意义。近日,facebook 人工智能研究院发表了一篇博文,探讨了这个问题。 AI 科技评论编译整理如下文。

如今,我们在 Facebook 的各种应用程序中使用人工智能技术——其中最重要的一点是帮助人们安全地使用我们的平台。为了使所有这些系统更有效,我们需要继续改进我们的人工智能,特别是在两个方面:内容理解和有效地使用标签较少的训练数据。

我们在自然语言处理(NLP)和计算机视觉(CV)方面的最新进展表明了在内容理解方面的工作是如何产生效益的。在 NLP 中,我们开发了一个共享的多语言嵌入空间,它可以作为一种语言来帮助处理有害内容,即使是用在低资源语言中也是有效的。在 CV 方面,我们在我们行业领先的研究基础上,去识别图像中更多部分的内容,并使用标签来理解视频,从而实现记录设置的准确性。

随着我们内容理解能力的不断提高,我们也在自我监督的新领域取得了进展。这项技术将加速预训练系统的学习,它可以为下一代更快、更灵活的工具奠定基础。

我们将在这里重点介绍我们如何提高内容理解系统的准确性和效率,并找到新的方法,在无监督学习中做更多的事情。

使用多语种句子嵌入处理违规内容

为了在人们发布违反我们政策的内容时将它们检测出来,我们的系统需要理解语言。具体来说,我们的系统使用机器学习(ML)扫描一个给定的句子并回答一系列问题,例如「它是违规的吗?」或者「它是在威胁某人吗?」。使用这些问题的答案以及当时的上下文和其他的背景信息,我们可以决定是否采取行动,例如给一个人类的审稿人做标记。

为了让我们的 ML 系统回答这些问题,我们需要用给定语言的数千个例子来训练它们。然而,世界上大约有 6500 种语言,其中包括一些目前缺乏大型训练数据集的语言,要找到足够的训练样本来支撑我们支持的所有语言的内容理解是一个挑战。

原标题:面对内容理解的准确性和效率问题,facebook是这样利用自我监督技术的|facebook|无标签数据|自我监督|

头条推荐
图文推荐