人工智能可以帮助记者找到多样化的原始来源

来源:
导读 记者需要找到有新闻价值的叙述和值得信赖的信息来讲述一个引人入胜的故事。此类信息通常来自大量出版物、官方记录和专家,他们都有自己的偏...

记者需要找到有新闻价值的叙述和值得信赖的信息来讲述一个引人入胜的故事。此类信息通常来自大量出版物、官方记录和专家,他们都有自己的偏见、专业知识、观点和背景。面试候选人数量众多,但难以驾驭。

南加州大学信息科学研究所的研究人员正在创建一个来源推荐引擎,旨在为记者推荐参考资料。

南加州大学维特比分校计算机科学与传播学教授埃米利奥·费拉拉(EmilioFerrara)表示:“实际上,该软件应用程序会分析给定的文本或主题,并通过交叉引用潜在受访者、专家或信息资源的数据库来建议相关来源。”工程学院。

“该工具可以提供消息来源的联系方式、专业领域和之前的工作,”他补充道。

该工具的开发由计算机科学博士AlexanderSpangher领导。南加州大学维特比分校的学生,曾在《纽约时报》担任数据科学家。在沉浸于新闻行业的同时,斯潘格目睹了传统新闻编辑室的压力。

“我与当地记者交谈时,没有一个不是完全紧张的,”他说。“新闻荒漠和报纸被关闭。我们真正希望为这样的领域提供帮助并为其构建工具。“

出于为记者提供有用资源的动机,Spangher正在创建各种人工智能小工具,包括在他的论文《识别新闻文章中的信息源》中介绍的源推荐系统,该论文已被2023年自然语言处理经验方法会议接受。

为了创建一个可以建议消息来源的人工智能模型,研究人员首先奠定了基础:人类记者目前如何在新闻写作中使用消息来源?为了研究这一点,他们收集了一千多篇新闻文章中的句子数据集,并注释了信息来源以及来源类别(例如“直接引用”、“间接引用”、“已发表作品”和“法院诉讼程序”)”)。

然而,一千篇带注释的新闻文章并不足以让研究人员就记者在不同报道类型中使用资源的所有方式得出明确的结论。但是,训练语言模型(LM)来继续注释过程就足够了。“语言模型是人工智能框架,通过分析大量文本的模式和上下文来处理和理解人类语言,”该论文的高级作者费拉拉解释道。

作者透露,研究人员训练的LM能够以83%的准确率检测来源归因。现在配备了这些LM,他们对大约10,000篇新闻文章进行了注释,并进一步深入了解新闻写作的组成性:记者目前何时以及如何使用消息来源?

人工智能模型发现,平均而言,新闻文章中大约一半的信息来自来源,并且在每篇文章中,通常有一到两个主要来源(即贡献了文章中20%或更多信息的来源)和两个到八个较小的(贡献较少的)。斯潘格解释说:“人工智能还发现,第一句话和最后一句话最有可能被找到。”他补充说,记者经常以引用的信息开头,并以引文结束,以送走读者。

研究人员通过另一项测试对他们的新算法提出了挑战:他们能否检测到源是否丢失?如果人工智能能够识别何时缺乏信息,那么它就可以配置为知道何时推荐特定专家来完成全貌。

通过分析40,000篇文章,其中一些来源被随机删除,人工智能模型很容易注意到主要来源不存在,但很难注意到次要来源。斯潘格说,尽管它们对故事来说可能是最不重要的,但不太明显的来源也可能是人工智能有一天可以提出的最有价值的建议。

“你将从主要参与者那里获得大量信息,但补充声音将为文章提供额外的色彩和细节,”他指出。“让引擎识别并推荐次要来源将是一个挑战,但它们可能是最有帮助的。”

研究人员还认为,如果该工具能够以不同的方式推荐来源,那么它将会非常重要。费拉拉说:“它可以向记者介绍他们惯常网络之外的新的、多样化的声音,从而减少对熟悉来源的依赖,并有可能带来新的观点。”

然而,他补充说,如果设计不当,每个人工智能系统都容易产生偏差。“为了确保源数据库的多样性,标准应包括来自广泛的人口统计、学科和观点的代表性,”他指出。

南加州大学维特比(USCViterbi)计算机科学副教授兼ISI首席研究员乔纳森·梅(JonathanMay)设想,在未来,采购引擎将快速启动报道流程,让记者提高效率。

该论文的合著者梅说:“能够帮助我们开展创造性工作并发挥最佳创造力的技术是一件好事。”“这就是为什么我对此充满希望。”

该团队计划与记者合作收集反馈以进一步改进。

“对于这样的项目,我真的很高兴与记者交谈并了解他们的需求、观点以及他们认为什么会起作用或不会起作用,”斯潘格说。“任何针对当地新闻业的解决方案都需要一群具有不同背景的不同人聚集在一起。”

标签:

免责声明:本文由用户上传,如有侵权请联系删除!