论文详情

黑箱:人工智能技术与新闻生产格局嬗变

关注“壹学者”微信 >>
89    
第一作者认领本论文 邀请作者认领本论文

第一作者:仇筠茜

作者简介:仇筠茜,中国传媒大学新闻传播学部新闻学院讲师,北京 100024;陈昌凤,清华大学新闻与传播学院教授、博士生导师、常务副院长,北京 100084

人大复印:《新闻与传播》2018 年 04 期

原发期刊:《新闻界》2018 年第 20181 期 第 28-34 页

关键词: 人工智能/ 机器学习/ 新闻生产/ 黑箱/

摘要:与新闻相关的人工智能技术包括机器人、视觉信息处理、语音处理、自然语言处理和机器学习等技术。本文通过梳理美、德、英、中等国对这些人工智能技术在新闻生产中的实际运用,发现技术本身和技术商业化一道,将新闻线索发掘、新闻文本写作、评论策展、标题制作、网页编辑、新闻分发渠道的诸多流程推向了“黑箱”——即新闻生产的幕后的幕后,人类现有认知水平对其真度、可信度、透明度难以判断。又由于人工智能技术有“科学”、“客观”光环的加持,黑箱化的过程不仅改变了新闻的样态、新闻生产的格局,而且带来了“流量工厂”驱逐优质新闻、定制推送固化社会分层、技术平台反收编新闻机构等社会格局变化。

中图分类号G210

文献标识码A

高盛(Goldman Sachs)2017年7月报告称,政府的顶层设计和注资支持,巨大规模的移动互联网用户,以及阿里巴巴、腾讯、百度、滴滴出行、美团-点评等应用产生的海量数据,使中国成为在人工智能发展上最具潜力的国家。[1]在新闻生产和研究中,人工智能技术与大数据、云存储、虚拟/增强现实等新兴科技一起,带来新闻内容生产和分发的变革。具体到新闻实践及研究中,“人工智能”具体指的是什么或哪些技术?是从AlphaGo人机对弈引发的想象,还是从风险投资流向看到的利润驱使?“人机共生”的传媒生态需要预见什么变革?厘清与新闻相关的“人工智能”技术及其功能的边界是相关学术讨论的基础。

一、与新闻生产及分发相关的“人工智能技术”

人工智能(Artificial Intelligence,缩写AI)与自然智能(Natural Intelligence,缩写NI)相对应,在计算机科学中,该领域研究能根据环境处理信息的“智能主体”(intelligent agents)如何最优化决策的过程,涉及的子领域包括大数据、机器学习、图像识别、神经网络。[2]通俗来说,人工智能就是指使机器具备人类的认知、学习、分析、解决问题的智能,因此也被称为机器智能(Machine Intelligence,缩写MI)。

与新闻相关的人工智能技术有什么?美联社公布《增强新闻的未来:智能机器时代新闻编辑室手册》(The Future of Augmented Journalism:A Guide for Newsrooms in the Age of Smart Machines),总览介绍了人工智能系统对新闻业的影响,甚至连这份报告的各章节摘要都是一个名为Agolo自然语言处理技术自动提取写作的。[3]以美联社报告为基础,本文总结了目前与新闻生产相关的人工智能技术、机构及应用场景,从表1中可以看出,中文相关研究感兴趣的“机器人写新闻”和“算法推荐”只是与新闻相关的人工智能技术的冰山一角,人工智能的真正愿景是人类制造并运用和超越人类智慧。

国际上,美国、德国、法国、英国自2012年开始涌现一批技术公司从事自动化写作的软件开发,其应用范围包括体育、金融、天气、政治选举方面的消息写作。[4]在中国,腾讯财经、新华社、第一财经(联合阿里巴巴)以及今日头条等媒体机构自2015年起先后推出了自动化写作软件,集中于财经、体育领域的简单消息写作。相应地,国内学术研究也集中于“自动化写作”这一现象的实现途径及其可能引发的伦理问题。[5]

在人与机器的关系上,“增强新闻”是各国的新闻从业者及技术部门负责人基本可就此达成的共识,人将与机器合作完成新闻报道,现阶段无需考虑机器完全取代人的可能性。[6]

对上述表格中各项技术的运用场景的理解,《哥伦比亚新闻研究》对未来的假设场景较为生动。该报告这样展望十年后环境议题记者的一天:早8点,记者坐上无人驾驶车前往办公室的路上,位于Springfield路上的传感器(sensor)发回空气质量超标的警告,记者随即派出两架无人机(sample drones),到现场分别采回水、空气的标本。半小时后,跟踪社交媒体话题趋势的算法(trending algorithm)提醒记者,空气质量及儿童呼吸困难成为热点话题。早晨9点,记者抵达办公室,通过人机对话调出该地区历史空气数据,确认污染指数高于历史同期;同时,无人机带回的标本,经仪器检测确认污染确实存在;然后记者通过推特联系一位母亲接受采访,这位女士刚发布推特陈述自己孩子的呼吸不适。早晨10点,记者戴上增强现实眼镜(augmented reality headset),浏览上百个社交媒体上的现场图片及视频,发现新建工厂附近空气能见度较低,他进而调用算法,将机器人相机(robot cameras)拍摄的照片按时间顺序进行排列比照,确认空气能见度的变化。11点,文本分析(text analysis)程序扫描政府公开文件、公函、公告、数据等,记者的智能助手(automated assistant)将与该工厂相关的违规操作、公开谴责、执照撤销等信息高亮显示。记者联系该工厂的公关公司,语音文本分析(voice analysis technology)显示其接线代表的语气情感为“迟疑、紧张”,记者怀疑其隐藏详情。下午1点,智能助手通过公开文本分析发现,工厂CEO与环保部负责检测的公务员为远亲关系,自然语言处理(natural language process)绘制了他们的家谱关系图。下午2点,该地区的红外热力图(heat map)显示,安保人员集中在工厂的一处,疑似发生泄漏的管道的所在,记者前往现场采访被拒绝进入,但采访到部分撤离中的工人。下午3点,回办公室路上与早晨预约采访对象面谈,该母亲描述孩子病情,语音文本分析其情绪为“真诚的、分析的”。下午5时,记者完稿,计算机自动纠错,人工编辑审核,将文章签发到若干“智能”(smart)平台。[7]

然而,“签发”不再是媒体工作的终点,在当下智媒化传播技术条件下,写作完成只是新闻工作的一个节点。稿件将没有最终定稿的状态,将处于不断的人为干预的半自动化迭代过程中。而在这个生产和分发过程中,从事新闻内容生产的专业媒体机构不再占据主导地位,技术供应商、社交媒体平台、广告公司、个人写手等多方介入,形成内容生态的矩阵,将新闻生产的过程、各相关利益方的操作都推向“黑箱”,其操作流程更加难以辨识。

二、算法深度介入新闻生产各环节

(一)监督式机器学习,新闻写作规则与创造力的倒置

机器学习是人工智能的核心技术,包括监督式和无监督式两种。监督式学习有固定的模板,输入和输出都是已知信息,通过将数据“喂”给算法后,自动按照给定的规则填充公式化的表达,生成稿件。例如,在一组现存的交易记录中,先通过人工标注出违规记录,“训练”机器习得这一技能后,就可以自动标注违规记录,减轻人工成本。目前我国媒体主要运用这一种算法方式进行自动化新闻写作,运用于数据容易模板化的体育报道和财经新闻数字报道(如各项经济指数)。不过,算法生产新闻并非停留在格式化填充。哥伦比亚大学数据分析专家Amir Imani解释,机器学习与婴儿逐渐学会识别面部表情的原理类似,都是通过不间断的“输入”表情、微表情、语音与口气,最终达到能够判别各类表情甚至体悟“微表情”的水平。目前,机器学习可以在人脸上布置若干“标识点”(landmark points),然后估算出各类情绪的概率值。这类技术可以运用到采访对象、政治演说等报道中去。2017年美国总统竞选报道中,就有媒体运用该技术对特朗普的“微表情”进行分析。

监督式学习算法的新闻写作过程,“规则”掌握在人的手中,而且是先有规则,后有新闻产品。但在实际操作中,记者并非按部就班地遵循闭合的规则来进行事实推敲和文本写作。正是人的创造力在弥补其中的空白,并为文本的发展和多样性提供广阔的可能。这类似于电脑语言和口语语言之间的关系。口语语言是思维的载体,它在有意识和无意识的使用中形成,并从习惯用法中抽象出所谓“语法”然后加以明确表述,但语法永远不能成为一个完美的闭合体系。[8]而电脑语言则是人类有意识创造的,一旦写进“算法”就会成为一个闭合体系固定下来,挤压创造力的空间。

(二)无监督式机器学习,新闻生产完全“黑箱化”

无监督式学习没有固定的输入—输出模板,机器自动地从数据中抽取知识。2017年10月发表于《自然》杂志(Nature)的重磅论文中,人工智能技术已经可以实现在没有任何先验知识的情况下,获得自主学习能力,达到超人的水平。[9]

美联社的数据小组正在试验将无监督式机器学习技术运用到新闻领域,通过人工智能的自我学习,生产知识。例如,其中一个项目是智能化处理美国枪支犯罪档案(Gun Violence Archive)的14万条记录,在没有任何人为干预的条件下简化数据,尝试寻找人力无法完成的新闻线索,枪击案件中是否有儿童死亡、是否涉及到警力、枪击案是否是偶发事件等成为主要指标。

无监督式学习的输入和输出均为未知,依赖大数据作为基础,主要寻找相关关系和趋势、表面奇异值等,不追究因果关系。这种方式将新闻生产过程推进更深的“黑箱”,人们无需知晓规则,产品即是“勿需推敲”的成品,编辑审稿环节(如果还保留的话)对事实的核查、对真相逻辑链的追寻将面临疑雾重重。

但实际上,在当下所有信

上一篇

下一篇

*非会员只能阅读30%的内容,您可以单篇购买,也可以订购全年电子版,或成为壹学者高级会员,畅用壹学者站内优质学术资源和服务。

近期0位学者阅读过本论文

回应区(0条)

确定

回应