03010的特别新闻期,肯定会有不同于普通Reddit帖子的基调。事实上,写作风格和语法结构的多样性使得自动文本摘要任务极具挑战性。这就是为什么匹兹堡的研究人员和微软研究人员的未来社会体验(FUSE)实验室专注于实时和丰富的媒体体验,并开发了一个密切关注摘要文档开头的AI系统。该团队认为,这种方法提高了实验的性能,尤其是在Web论坛内容和更一般的文本数据的情况下。
这项研究是在微软研究公司发布后进行的,该公司详细介绍了能够推理“弱结构”文本中关系的“灵活”人工智能系统。合著者声称,在一系列文本摘要任务上,其性能可能优于传统的自然语言处理模型。
正如研究人员所指出的,论坛中的讨论线索通常从寻求知识或帮助的帖子或评论开始,后续的评论往往会通过提供其他信息或意见来回应原始帖子。通常,这个初始文本包含重要的主题信息,这可能对总结有用。
提议的人工智能受益于原始帖子和回复之间的这种依赖性,但它也试图消除不相关或肤浅的回复,以确保它们不会降低摘要的质量。
研究人员基于两个抽象语料库准备和评估了他们的模型:一个来自猫途鹰论坛,包含700个线程(其中500个用于训练,200个用于验证和测试),另一个包含532个跨主题的微软Word文档(其中266个分别用于训练、验证和测试)。AI吸收从每个句子中提取的关键词和整个文档的句子级表示,使其能够知道文本文档中哪些句子是有意义的,并使用这些句子生成摘要。
标签: