学者们有一种巧妙的方法,可以提醒同事注意那些他们认为根本不值得花时间去读的长篇论文。
他们会给这些文件贴上冗长的标签——太长了,难以阅读。
这是对莎士比亚420年前的《哈姆雷特》(Hamlet)中普罗尼尔斯(Polonius)向国王和王后传达的理念——一种21世纪的演绎,他说,“简洁是智慧的灵魂。”
位于西雅图的艾伦人工智能研究所(Allen Institute for Artificial Intelligence)很重视这两种观点,并于本周推出了一套系统,该系统可以对冗长的计算机科学报告进行极端浓缩,从而大大缩短审阅此类文献的时间。
Semantic Scholar是一种以人工智能为动力,用于科学研究的研究工具。有了新的摘要功能,它调查了大量的科学研究论文,并将它们简化为一句话摘要。每个月都有超过700万用户访问Semantic Scholar。
目前,Semantic Scholar的数据库中有1000万篇计算机科学论文。据负责该数据库的丹·维尔德(Dan Weld)表示,其他学科的论文将逐渐增加。
该系统为研究人员提供了巨大的优势,因为到目前为止,他们不得不浏览大量的标题和冗长的摘要,这在移动设备上是一项特别尝试的任务。经过早期测试,反应呈阳性。“人们似乎真的很喜欢它,”Weld说。
多年来,已经开发了各种自然语言处理程序来总结文档。他们通常使用两种方法中的一种:提取方法侧重于选择有代表性的文本并在摘要中逐字逐句地使用它。例如,2018年开发的《论文文摘》似乎提取了关键句子,而不是用自己的话重写研究结果。
另一种方法是抽象;它使用自然语言生成算法以原始的措辞创建摘要。近年来人工智能自然语言生成方面的改进使得这种方法受到了程序员的青睐。
Semantic Scholar是所有总结工具中压缩率最高的。科学论文平均有5000个单词,Semantic Scholar的摘要大约有21个单词。这平均是报告大小的1/238。与Semantic Scholar最接近的竞争对手将文档压缩到报告大小的1/36。
西雅图华盛顿大学的信息科学家Jevin West测试了这个新程序,他说:“我预测这种工具在不久的将来会成为学术搜索的标准功能。事实上,考虑到这种需要,我很惊讶这么长时间才看到它付诸实践。”
他指出,它还不完美,“但肯定是朝着正确的方向迈出了一步。”
艾伦研究所团队正在免费提供他们的代码。他们还建立了一个向所有人开放的示范基地。
目前,只接受用英语写的论文。但该程序的作者希望最终能包含其他语言的文档。