编者按:本文全文翻译自《The time I tried to ruin Halo 2》(https://www.polygon.com/platform/amp/features/2019/7/2/18651880/the-time-i-tried-to-ruin-halo-2-user-research),全文翻译及转载已获原作者 John Hopson 授权。John 有 16 年的游戏行业从业经验,拥有杜克大学实验心理学博士学位,同时也是一位资深研究员,参与协助过包括《光环(Halo)》《帝国时代(Age of Empires)》《命运(Destiny)》《魔兽世界(World of Warcraft)》在内多款大作的开发,著有多篇心理学与游戏的相关文章,包括著名文章《行为游戏设计(Behavioral Game Design)》(https://www.gamasutra.com/view/feature/131494/behavioral_game_design.php)。


自 2004 年发售以来,《光环  2(Halo 2)》迅速成为了 Xbox Live 上最受欢迎的多人游戏,该记录整整保持了两年。可以说,初生的 Xbox Live 服务当时能够幸存下来的主要原因,就是这一款游戏所带来的超高人气。在《光环 2》六年的生命周期里,有超过 660 万位玩家在其线上多人模式投入了将近 5 亿小时的游戏时间。来自 Bungie 的开发团队冒着巨大的风险创造出了一种全新的线上游戏体验,并取得了空前的成功,并为数以百万计的玩家带去了欢乐。

这也是为什么我很高兴自己没有将它抹杀在实验室里。

《光环 2》开发期间的代号是“先知(Prophets)”,是以本作中新加入的外星种族来命名的。彼时,微软的大多数研究员都会同时参与三到五款游戏的支持工作,但由于《光环(Halo)》是初代 Xbox 上的扛旗之作,所以微软专门派了我和 Randy Pagulayan 两位专职研究员全程跟踪,支援系列续作的开发。我和Randy都是训练有素的实验心理学博士,也都是微软游戏用户研究团队的早期成员。我们的工作就是运用包括易用性研究、游玩测试和调查在内的定性或定量方法,帮助游戏设计团队洞悉玩家在游戏发售之后的评价。

本文要讲的一则关于我没能当好“先知”的故事,我试着运用研究数据窥探游戏的未来,却导致了微软研究团队与 Bungie 设计团队之间的理念冲突。一般来讲,大众对于游戏用户研究的讨论总是聚焦于我们做对了的时候,那些我们基于数据成功修正了游戏设计的情况;但关于《光环 2》的则是另外一种完全不同的情况,两位优秀的研究员对一项创新的设计上做出了错误判断,而游戏却在无视这一判断的情况下最终获得成功。

创新之举

《光环 2》之前,绝大多数的在线游戏是没有匹配机制的,而当时要找人一起进行线上游戏的默认解决方案是“游戏大厅”系统:玩家们会从大厅所列的游戏房间中选择一个,通过阅读其给出的简短描述来寻找适合自己的房间;如果房间里全是些混球或者比你强得多的玩家,你只能退出然后重新寻找一个合适自己的房间。

这种大厅系统的最大好处在于可控,建房的玩家可以高度自定义游戏体验,比如只选择他们喜欢的地图或模式,或者将不按房间里的规矩游玩的玩家踢出房间,诸如“不能使用狙击枪”或者“某某地图自由对战”的房间在当时非常常见。

相反,《光环 2》的新系统几乎把这些选择全部拿掉了,取而代之,玩家只能选择一般的游戏模式(比如自由对战、大型团队战斗等),然后 Bungie 会帮玩家确定地图、具体模式及对手。下图展示的是接近完成的“最佳匹配漏斗(Optimatch hopper)”匹配系统的截图。(我们自己想出来的术语显然并不如系统本身让人印象深刻。)

以下内容节选自 GameSpy 在游戏发售前夕发表的一篇描述《光环 2》匹配机制的文章:

“……有趣的是,游戏模式、地图、载具以及其他一切都是由Bungie决定的。
“这个主意乍看之下可能显得有些奇怪,但出于多种原因,这其实是个好点子。Bungie 通过确保同一局的每个玩家都尽可能得适合这一游戏模式,以保证各局游戏的流畅进行;除此之外,开发团队还能确保所有玩家排位的一致性,因为几乎所有玩家都能在每一张地图遇到数量大致相同的对手。任何时候,Bungie 都可以通过 Xbox Live 推送更新,让所有人都可以玩上新的游戏内容。游戏中的玩家排位是按照不同游戏模式设置的,举例来说,你在“突击之王”模式中可能排名 25,但在“杀戮之王”模式中的排名却可能只有 78。……”

在如今看来,这段描述可能显得稀松平常,但正是因为这个系统在当时取得了巨大的成功,才让它成为之后所有多人游戏的新标准;《光环 2》是如此成功,以至于我们甚至难以想象在此之前的线上游戏都是如何运作的。

所以再一次,我真的很庆幸自己没有把它抹杀掉。

如何研究

作为研究者,我们的目标在于确保玩家能充分理解这个新的范式,它与玩家习惯以及上一部《光环》中的系统都是如此的不同,所以我们希望能让玩家们尽早接触到这一全新设计,早到从单纯的纸面原型和文字描述开始。我们向玩家展示了一些描述,以及一些线框图构成的用户界面,来告诉他们今后的线上模式会以何种形式运作;这其中包括了上述的全新匹配系统与私人游戏模式,但没有包含传统的用户自建房间模式。

与调研的玩家们抛出的负面反馈几乎淹没了我们:“我们能理解,但我们真的非常不喜欢它。”玩家们的声音高度一致,他们想要自建游戏房间带来的那种高度可控,并且不认为这个新系统附带的种种好处值得他们放弃前作中的旧模式。放在如今这或许难以想象,但在当时这种一键开始匹配、剩下交给游戏的方式对习惯于自己进行选择的玩家来说显得既诡异又感到被人控制。

得知了玩家们的意见后,我和 Randy 都将自己视为正义感洋溢的用户意见代表,前去告诉 Bungie 玩家们讨厌新的匹配系统,我们应该考虑换一种方式来设计多人游戏模式;然而 Bungie 的设计者们坚持认为,他们对于未来的展望远比现有的模式要好。历史已经证明了他们绝对正确,新系统上线之后,玩家们对其爱不释手,时至今日它已经成了线上游戏的黄金标准。对于《光环 2》匹配系统的研究成了我职业生涯中最严重的一次“脱靶”(好吧,其实是至今为止的职业生涯)。

哪里出错了?

那么到底发生了什么?我们的研究结果是如何导出的,为什么会与游戏发售之后的实际情况大相径庭?问题的答案是两个错误的相互交织,其中一个来自调查参与者,另一个则来自研究者。

调查参与者们犯的错误是“情感性预测”,也就是猜测自己在一个假定情境下的感受。已经有大量文献指出,人类在预测自己处于假定情境下的情绪变化方面是多么不靠谱,即使是像瘫痪、中头奖这种会改变一生的大事,抽象判断其影响也显得十分困难。

如果当时你就这件事问过研究团队,我们大抵会说:“我们当然知道人类并不善于做情感性预测,但这不是我们正在做的。”最初,我们研究的课题是“玩家们能否理解这个系统”,这是一个很合理的问题,我们也很有信心能给出明确的肯定答复;但当调查参与者们给出了对新系统的看法时,我们错误地将这些意见当成了事实而非玩家基于经验的猜测。

问题的核心在于,我们调查的对象从来没玩过有真正匹配系统的线上游戏。没错,这在现在看来很荒谬,因为匹配机制如今已成为所有多人游戏的标配了,但在当时,大多数参与者只在本地局域网上玩过多人游戏,最多也就整栋宿舍的局域网。在我们于 2003 年进行这项调查的时候,全美只有不到 16% 的家庭装上了宽带网,所以我们实际上是要求调查参与者在现有的体验(自建房间)和一种全新、未知的体验(大量在线用户的公平、精准匹配)之间作出判断。对于现有系统,他们很清楚其中的优劣,而对于我们提议的匹配系统,他们真正能理解的恐怕只有自己将要舍弃的东西,这使得这一系统改良给人的印象比实际上的糟糕很多。

因此,当参与者告诉我们,他们不喜欢这个系统时,身为研究人员的我们错误地传达了信息。我们曾认为这些评价能够精准反映玩家在实际玩到游戏之后的感受,但事实并非如此。在经历了几轮激烈的讨论之后,Bungie 不顾我们的反对毅然决然地推行了在当时颇为新颖的匹配系统,事实证明这一选择非常正确。

当然,Bungie 的设计团队在推翻研究团队建议的时候,并没有指出我们方法上的漏洞,或是反对情感性预测。他们有一种独特而清晰的远见,这种远见建立在坚实的理论基础和团队内部的激烈论辩之上,也正是这种远见让整个设计团队产生了对于游戏中关键部分的坚定信念,坚信如此才能创造出最好的线上体验。事后,设计团队中的一位曾私下告诉我,其实无论我们最后的研究结果如何,都不会说服他们改变决策。几乎每当我的研究结果像这样被推翻时,我都会在游戏发售之后找机会以一种非常职业的口吻告诉游戏开发团队:“我早就跟你们说过了。”但在《光环 2》这件事上,设计团队才是最终正确的那一方,而游戏界也因此变得更美好了。

作为研究者,我们理应在如何呈现研究结果这方面具备更强的辨别能力。我们掌握的数据从“玩家第一次听到该系统时会作何评价”这个角度来说是准确的,而我们也本应从这个角度出发,和开发团队一道改进向玩家展示系统改进的方式,以此来提高玩家理解其真正价值的速度。数据本身并没有错,只是我们仅仅看到了表面。

我们的教训

在此之后我思考了很多,并从中总结出了几点教训。通过分享这个故事,我希望能帮助别人避免犯同样的错误,并能犯更多有趣的新错误。

教训之一:研究者有时应该输掉辩论

用户体验研究人员会倾向于认为我们是在探寻真理,而当其他开发部门不接受我们挖掘出的真理时,往往就会给我们造成大量挫败感。现在,虽然我们通常都是对的,但错报、漏报或者是彻头彻尾的错误总是有可能出现的。

尽管我们并不比游戏开发过程中的其他任何人更完美,但游戏用户研究依然是全过程中一个至关重要的声音。我们理应为我们所理解的用户体验据理力争,但这并不意味着我们总应该是胜利的一方。其实我真正想说的是,与玩我们游戏的玩家们一样,对研究人员来说也存在一个较为理想的失败几率;如果我们的每项研究都能取得同样的成功,那只能说明我们的创新性不足,要么就是研究课题不够有挑战性。我们需要去冒一些风险,这就意味着我们有时候会失败。

教训之二:犯错并不意味着研究关系的终结

关于《光环 2》的用户研究工作是一段高度紧张的经历,微软在这个游戏上下了很大的赌注,为这部作品而动用的研究人员数量可能有好几个游戏加起来那么多。Bungie 对合作伙伴的挑剔是出了名的,但他们即便是在最紧张的加班阶段中,依然史无前例地允许我们全程参与所有开发流程。对于我和 Randy 来说,我们带着空前的压力来展现自己的价值,力求把用户的反馈转化为对大众非常重要的游戏设计影响。面对着来自调查参与者的清晰反馈,因为害怕某项设计会给数以千万计的玩家带去负面体验,我们最终还是决定要和游戏开发者们进行这场辩论;我们一败涂地,事实也证明我们错的一塌糊涂。

这个故事发生在 2003 年,正值《光环 2》开发的中期,在这之后我们还接着为它做了好几项成功的研究。《光环 2》发售之后,我和 Randy 又马不停蹄地投入到了续作《光环 3(Halo 3)》的研究支持工作当中,而那也成了有史以来最为成功的游戏用户研究之一。同样的两个研究员、同一群设计师、同样的游戏系列,这一次我们的研究登上了《连线(Wired)》杂志封面,还成为了用户研究在游戏领域的一个重要里程碑。事实上,之前那次失败的研究案例直接帮助我们取得了后续的成功,而 Bungie 领导层从中得出的结论之一则是:研究人员应该更紧密地与游戏设计团队合作以避免类似情况发生;这种联合正是后来促成《光环 3》研究成功的关键。几年之后,Bungie 甚至直接聘请我来组建并领导他们自己的内部研究团队。

研究人员并不完美,所幸我们的合作伙伴也不需要我们做到完美,他们需要的是我们能尽全力忠实呈现玩家们的心声,能不断鞭策自己去创新和冒险,并且能在出错时大胆承认、改进方法。

教训之三:研究和设计是在用不同规则探寻同一事物

玩家们只能依据他们自身的经验来发声,无论是来自于他们过往的游戏体验还是呈现在眼前的演示;由于研究人员的工作就是替玩家们发声,所以我们其实也面临同样的限制,我们的预测也只能基于玩家们的反馈来做。

但游戏设计者们却不会受到这样的限制。他们想出的点子可能与之前的完全不相关,这也使得提前测试很难对游戏的改善有什么建设性的作用。检验这些创意的方法确实存在,但这些方法相比起我们的其它研究方法来说风险更高,我们的结论显然也就只有回炉重造了。

有些讽刺的是,在更合理地展示新颖体验这件事上,正是 Bungie 向我们提供了一个绝佳的例子。这里讨论的匹配系统仅仅是《光环 2》多人模式大量创新的一部分,其它很多创新都遭遇了玩家的类似抵制,为了打消微软方面的疑虑,设计团队制作了一段视频来模拟玩家和朋友们一起游玩最终成品时的体验;尽管这种展示方式在匹配系统的问题上也许不会奏效,但它是一个能证明演示这类新颖理念需要倾注额外努力与创意的好例子。

教训之四:在方法论上犯错并直面其后果是理解研究设计的最好方法

在这次研究之前,我其实很清楚情感性预测会带来问题,但我依然被参与者们的强烈意见给带偏了,并将他们的预测奉为了事实。在面对过这羞辱般的后果之后,我再犯类似错误的可能性已经大大降低了。

能先记住优秀研究设计的准则固然很好,但只有在第一次真正违背了这些准则并体验到后果之后,这些准则才会真正地刻进你骨子里;而是故意打破这些原则,还是遭遇某些情有可原的情况,就不是那么重要了。当你被迫放弃几天甚至几周的辛苦努力时,“有用的”伤疤就会留下;就像是涂色的时候,涂出界的那一刻才能真正让你意识到边界为何一开始会存在。

但有时候你也会发现,其实也没什么大不了的……有些研究的规则是基于自然法则,除此之外的不过就是一些指导方针罢了。游戏用户研究是一个应用领域,整个研究都是在有限的资源和混乱的境况下高速进行的,不是每一项研究都拥有完美的实验设计。利益相关者可能会要求改变研究方案,可能找不到调研参与者,设备也可能会坏,研究者的工作就变成了通过破坏性最小的方式来调节全局的状况。了解哪些原则可以适当妥协,哪些原则不可以侵犯,这能使我们成为更好的研究人员,并能为我们的团队和游戏提供最大价值。

尾声

创新性的设计意味着承受相应的风险,而在本文的这个案例里,Bungie 的设计团队冒的风险最终换回了惊人的成功。用户研究在开发过程中扮演的角色还是更侧重于想办法抵消这些设计上的风险,让设计者们敢于大胆尝试新事物,并在新设计真正让玩家感到沮丧之前,发觉并修复潜在的问题。在我们的专业领域内部,我们同样也承担着一些属于自己的风险,需要对课题设计以及哪些问题值得为之奋斗做出判断。在这个案例中,我们做出的选择并没有好的回报,但这并不会改变研究中需要冒险的事实。一名优秀的研究人员总是会运用其经验和直觉来承担适当的风险,以成为游戏设计者们的最佳合作伙伴,并一同为玩家们奉上最棒的游戏作品。

特别感谢 Randy Pagulayan 帮助我完成这篇文章,并且勇敢地与我一起分享这一公开的耻辱。感谢 Chris Butcher、David Candland、Curtis Creamer、Max Hoberman 以及 Jason Jones 帮助我更新了针对这个故事的记忆,并提出了关于最佳呈现方式的建议。