首页 > 互联网新闻 > 维基百科上最高产的作者,是一个机器人
2020
03-13

维基百科上最高产的作者,是一个机器人

千淘万漉博客阿里云大使推广链接

keystypinggif.gif

正如整个互联网上最常用的语言是英语,英语版维基百科同样也是全球 309 个语言版本维基百科中内容最丰富的一个。今年 1 月,英语版维基百科上的条目正式突破 600 万条。

▲ 图片来自 Boston Review

出奇的是,拥有全球第二多条目的语言版本,并不是西班牙、法语等「大语种」维基,而是宿雾语(Cebuano)版的维基,一共有 538 万个条目。

如果你没听过这种语言,也是正常的。

宿雾语是一种在菲律宾使用的小语种,懂得讲宿雾语的人合计都没超过两千万。而且,宿雾语版维基的虽然有五百多万条条目,但管理员只有六人,活跃用户也只有 14 人;相比之下,英语版单单是管理员就有 1143 人,活跃用户更是超过了十万人。

▲ 图片来自 Honolulu Magazine

事实上,宿雾语版维基那五百多万个条目,99% 的内容是一个名为「Lsjbot」的机器人所完成的。同时,它也是维基百科上最高产的作者。

状态好,一天能创立 10 万个条目

Lsjbot 的「爸爸」Sverker Johansson 是一位瑞典物理学家,而且还拥有语言学、经济学和土木工程的学位。他的太太是菲律宾人,通晓宿雾语,因此 Lsjbot 在瑞典语和宿雾语版本的维基百科中都有创作内容。

Johansson 表示,自己一直以来都对「一切事物的起源」充满兴趣,并认为维基百科在未来应该可以「让所有人了解所有事」。于是乎,他花了几个月时间编写了 Lsjbot,想用一种更快捷的方式将维基百科推向「囊括一切」的美好愿景。

▲ Sverker Johansson,图片来自 《华尔街日报》

Lsjbot 做的事情有点像「开荒牛」,将 0 变成 0.5。

它不会撰写系统丰盈的条目,只会简单地创立一个条目,放上最基本的信息,这种条目被称为「小条目(stub)」,有待用户进一步补充和丰富内容。Lsjbot 专注的领域也比较窄,主要都是生物物种和地理相关的内容。

▲ Lsjbot 一般生成的小条目都是这样的,图片来自维基百科

Lsjbot 生成内容的过程也非常程式化。首先,Johansson 会先就一个特定领域内容编写模板,然后寻找可信、机器可读的数据库作为信息来源,再让 Lsjbot 根据模板来「填空」,并完成后期的发布工作。效率高的时候,Lsjbot 一天能完成十万条小条目。

听着这个工作描述,大家也能感觉到,Lsjbot 虽冠名几百万条条目,但内容其实都只是干巴巴的「骨干」,缺乏人类的创造力和思考,自然惹来了部分活跃维基作者的不满。

总的来说,我反对机器人生成的小条目。(它们)只包含或多或少正确的分类信息,但却缺乏像动物外观等重要信息。

41 岁的 Achim Raschka 说,他是德语版维基百科的积极贡献者,常常会花好几天时间来完成一篇关于某种植物的深度条目。

Johansson 也承认,Lsjbot 创造的内容的确很无趣,但也坚持这些内容也有自己的价值。在他看来,Lsjbot 的条目能补充一些在原本维基社区中缺乏代表的领域。

▲ 图片来自 《连线》

维基百科作者的多样性已被诟病许久有研究发现在维基百科上撰写内容的人大部分都是居住在北半球发达国家的男性白领,擅长科技产品。Johansson 指出,在瑞典语版的维基百科里,关于《指环王》中角色的条目就有超过 150 条,但关于越南战争的内容却少于 10 条:

我对托尔金没意见,而且相对于(越战中的)「春节攻势」,我也更熟悉(《指环王》中)索伦发起的战争,但这样真的是一个均衡的百科吗?

虽然 Lsjbot 的内容「干巴巴」,但 Johansson 希望这些知识骨干能抛砖引玉,启发未来的维基作者探讨原有社区「舒适区」以外的内容。

这也是为什么我认为 Lsjbot 这个「开荒牛」只将 0 做成了 0.5,因为得有人类作者的创造性参与,0.5 才能走向 1。

事实上,维基百科上除了 Lsjbot 外,还有大量承载着不同职能的机器人,它们已经成为了这个社区不可或缺的成员。

维基百科的「机器人军团」

▲ 图片来自 imgur

我们常开玩笑说,机器人得来一次大罢工,所有人才会懂得感恩它们对社区做出的奉献。

(如果没有机器人)这个网站将需要我们做更多工作,编辑的工作过载率也会大大提升。

生活在澳洲的 Chris Grant 说道,他是维基百科社区中专门负责管理机器人的组织「机器人审批组(Bot Approvals Group,以下简称为 BAG)」的成员。

是的,机器人在维基百科上应用的历史悠久广泛得内部在 2006 年就已经设立了专门审核和管理机器人的 BAG。

从流程来看,如果有维基作者想在社区应用机器人,他们必须先向 BAG 提交申请,阐述机器人的功能、编程语言以及它预计会涉及的页面数等信息。随后,BAG 的成员会综合多方面预估其可能带来的影响,并决定是否通过。即便是已经通过审核的机器人,开发者每为它增加一个功能,机器人都必须重新提交审批。

截至 2018 年,维基百科上应用的机器人数早已破千,并且仍在不断发展。一篇 2019 年的论文 《The Roles Bots Play in Wikipedia》研究分析了维基百科上的机器人,并以职能将其分为九个大类:像 Lsjbot 般用其它数据来源生成页面的「生成者(Generator)」、负责修复超链接、文档之类的「维修者(Fixer)」、更新数据,记录用户状态的「文员(Clerk)」、向维基作者提供建议的「顾问(Advisor)」等等。

▲ 维基百科上机器人的九大分类

这些机器人大部分都帮人类编辑完成了社区中非常繁复的批量工作,同时也为新加入的成员在编写内容时提供帮助建议,清除各类恶性内容。当然,机器人也有犯错的时候,鉴于维基的编辑系统对修改记录的透明化,管理者也能及时更正错误和优化机器人。

没有机器人,维基百科将是一片混乱。

一位自称为 Hersfold 的维基百科管理员在接受 BBC 采访时说道

当人们在反对 Lsjbot 时,他们在反对什么?

▲ 图片来自 Giphy

既然机器人在维基百科上的存在已经历史悠久,其中像 Lsjbot 这总内容生成型的也不少,为什么人们一直仍在就 Lsjbot 的存在合理性争辩?

事实上,维基百科诞生次年,首个被应用的机器人 「rambot」就已经诞生,而且它还是和 Lsjbot 类似的内容生成型机器人。

当时,rambot 从美国人口普查公开资料里提取地理信息,在英文版维基创建了三万条关于美国城镇的小条目,同时,这也是维基百科上第一个机器人。后来,这些条目逐渐由人类作者完善丰富,增添了各种历史事件和旅游资讯。

截至 2009 年,英文版维基百科中由机器人和辅助性程序参与的编辑占到了总数的 28.49%。

为什么做类似事情的 Lsjbot 却一直被攻击?

主要还是个占比的问题。

正如文章开头提及,宿雾语版维基的活跃用户只有十多人,而 Lsjbot 生成的条目有 500 多万条,部分人认为这个小社群没有可能能够去完成如此大量的完善工作。

因此,当一个新用户来到这个语言版本的维基百科时,他们所看到的就只有质量低下的条目,并会因此离开,或失去动力参与编辑贡献。

2017 年,因宿雾语版维基上大部分都是机器生成的内容,用户 KATMAKROFAN 提出关闭该语言版本维基

最终,委员会在就该议题讨论的公开页面宣布驳回提议,表示「理解该项目中机器人生成内容的问题的确需要关注」,建议「收紧内容质量把控」。

所以说,人们在争辩的其实是社区运营的问题,同时,也在讨论机器人产生的内容如何影响人创作的积极性,并不涉及机器人创作内容质量本身。

Johansson 于今年接受 Vice 采访时表示,出于对社区 「态度改变」的考虑,现在 Lsjbot 已经不会再在宿雾语版维基创建新条目,只负责执行维护类工作。

虽然 Lsjbot 现在已经不创建新条目,而它们这类机器人的作品也许也称不上「创作」,但人类对写作机器人的探索一直没停过。

有的算法在写作,有的算法在默默影响人类写作

▲ 图片来自 《连线》

去年,华盛顿大学的团队突然想到一个曲线打击假新闻的方法 —— 想要创造最好的检测假新闻的算法?也许我们得先写一个擅长写假新闻的算法。

于是乎,Grover 诞生了

只需要输入标题,Grover 就能生成一段假新闻。《Fastcompany》编辑曾以《为什么特朗普一天要做 100 个俯卧撑?》为题,让 Grover 发挥

当你想到俯卧撑时,第一个想到的形象绝对并不是美国总统。

作为三军统帅,特朗普的健康状况并不怎样。他承诺一旦当选总统就会锻炼身体,而且在《飞黄腾达》中,他曾对阿诺德?施瓦辛格的技术大加嘲讽,如果没有什么能阻止特朗普不做「特朗普式的俯卧撑」。

不过就连特朗普自己也承认,不管你的工作多么适合你,要想驾驭自己的身体都是极其困难的。那么,是什么让三军统帅走上正轨呢?答案是 100 个俯卧撑。

虽然这段话看着看着让人觉得不妥,但仍无法否认它对特朗普言论风格的掌握不错,还挺「创造性」的。看到这里,你也许也会想起小爱同学写的诗句。Grover 论文的第一作者 Zellers 很好地总结出算法写作存在的普遍问题:

尽管书写看起来很流畅,但 Grover 和其他神经语言生成器所写的文章包含了机器独有的语言怪癖,这暴露了它们的机器起源。

正是因为算法写出来文章的「古怪」,它们正成为人类作家的一个寻找灵感的工具

小说家 Sigal Samuel 最开始因好奇试玩了 OpenAI 的写作算法 GPT-2。这个算法能基于人输入词语或句子来「接话」。

Samuel 觉得,虽然算法反馈的东西很随机,但不时能冒出一些她意想不到的内容,激发她的灵感。所以,现在当她「灵感便秘」时,有时会用 GPT-2 进行「畅想」:

作为一名作家,你没法随时都身处创作研讨会或找到合适的朋友讨论想法。所以有这样的人工智能做参谋兼合作者还挺好的。

与此同时,也有自己不写作的算法,很有可能在更潜移默化地塑造人类未来的写作。

在美国,采用算法来为学生文章打分的学校至少遍布了 21 个州。这些算法的「底子」是数百篇经人类教师批改的文章和反馈。就和面试算法一样,这些改作文的算法同样被指存在偏见。

▲ 图片来自 Vice

有家长反馈,算法批改文章的方式没有让自己的孩子更懂写作,只是鼓励了他们用各种浮夸的词语来换取高分。

不过,算法批改文章和人工批改间的最重要差别还是在于透明度——当文章是由人工批改,当你遇到困惑或不同意的结果,你可以去问改这个文章内容的人为何会作出这样的决定,但如果换做是算法,我们永远无法知道它的评价标准和原因。

无论是自己去写作的算法,还是被用于辅助人类写作的算法,未来这些工具只会有增无减。

也许它们的「语言怪癖」非常明显——这可以是像 Lsjbot 创造的小条目的「干巴巴感」,也能是 Grover 的「乍一看顺畅,细看觉得不妥」,但这不应该成为我们忽视它们的理由。无论喜欢与否,它们都将在不同程度上影响人类写作的创作。

当尼采开始用打字机写作后,他的朋友发觉他的散文变得更紧实,拥有了一种「强悍力道」。而他自己也认为「我们的写作工具会参与塑造思考」。在和机器人同行的算法时代,我们的写作又会如何演化?

题图来自 Giphy


本文》有 0 条评论

留下一个回复