人工智能,诞生于1956年,从人口学的角度讲,属于婴儿潮一代。和许多同代人一样,它也常常过度乐观,承诺得多,做到得少。人工智能最初的目标——一台可以通过海量随机的试错程序解决任何问题的机器——很快被搁置一边,因为人们意识到,当时计算机的力量完全不足以实现该目标。在接下来的几十年里,计算机掌握了更简单的实用性任务:到目前为止,基于规则的系统(也被称作专家系统或基于知识的系统)没能创造奇迹,但完成了大量虽然有些无聊却很有用的工作,而且创造了经济价值。至于人工智能本身,到1970年代中期基本已经没人记得,可以说被彻底扔进了技术和知识史的垃圾箱。直到最近,它才再度复出,原因是可搜索内存和处理能力前所未有的结合,使得今天的计算机只要一直尝试,就能解决复杂的难题。尤其在过去几个月,一种获得新能力的人工智能震惊了全世界,它不仅突然超额兑现了承诺,其提交的成果甚至超出了大多数人的心理接受范围。
当然,在早期人工智能失败的“联结主义”(connectionist)方法和如今的“机器学习”之间存在着深刻的技术差别,但两者都同意下述假设,即:计算机从实际操作或实例中,要比从形式层面的教授中学得更多更好——这个消息估计会让卢梭大喜,让狄德罗失望,假如两人都曾想象过电子机械的教育问题的话。2010年代中期,机器学习的革命浪潮蔓延至视觉艺术领域,艺术家们发现,一种被称为“生成式对抗网络”(generative adversarial networks,简称gan)的新型AI模式特别适合用来操控图像。在我动笔写这篇文章时(也就是2023年初),gan艺术或AI生成艺术已成为数字艺术里的一大门类,其图像处理策略也广为人知。首先,gan艺术家需要搜集彼此相关的图像,组成语料库;接着,一个机器学习算法会处理这个“数据集合”,寻找这些图像可能具有的共同特征,并将其共同点形式化。这一归纳的过程会产生一个数学矩阵,计算机科学家称之为“隐空间”(latent space),如果换成过去哲学家的说法,大致可以说成是原始数据集的定义、理念、公式或本质。这一定义在今天既不是语言层面的,也不是视觉层面的,而是数学性(向量性)的,它会被用来识别外部图像的内容,或从同一个数据集里生成新的图像。所以举例来说,如果一个数据集里包含狗的图像,你给系统看一条真狗时,系统就能识别出来,或者你可以要求系统创造各种逼真的假狗图像——看上去是无中生有,但实际每条新狗都是从系统目前已掌握的所有(和唯一)的狗图像里映射来的。
自2022年春以来,生成式人工智能的热潮席卷全球,但上述概念框架并未发生根本性的改变。像Midjourney或DALL-E 2这类用户友好型的文字转图像工具只需简单的文字或视觉提示就能生成图像,但就目前来看,最后得出的结果往往还是过于一般化,因为它们来源于互联网上搜寻来的海量带标签的图像(文字-图像组合)集。尽管如此,将来某一天也许通过文字和视觉输入就能自动生成可精准控制的定制图像,这样的技术潜能并没有被设计界放过,不出意料地,它掀起了新一轮关于人类vs.机器的论战。
结果,关于创作本质的种种争论和讨论掩盖了AI生成图像兴起带来的其他后果,而设计业界和学术界对这些后果已多有体会。机器学习工具,无论是基于老的生成式对抗网络,还是新的文字转图像算法,都不仅使我们越来越适应AI驱动图像制作的技术逻辑,同时也塑造着我们对视觉交流的理解,改变着我们处理图像的总体方式。文化对所有颠覆性技术的采纳往往容易引发新旧模式之间的反馈循环;但这个例子不同寻常的地方在于,由AI驱动的图像制作的内在逻辑不仅远没有预示某种未来的后人类发展潮流,反而看上去正在复苏某些已沉睡多年的视觉策略,这些策略在过去曾一度主宰当时的艺术和艺术理论。
基于AI的图像制作,就其本质而言,是一种在双重意义上围绕相似性——视觉相似性——进行的活动,gan算法必须寻找相似性,再复制这些相似性。机器学习过程的第一部分是分析性质的:回到前文提到的例子,系统必须首先找出所有这些狗的图像有哪些共同点。是什么样的视觉特征让一只狗看起来和其他狗一样——从而可以成为一只名目上的狗?
这一归纳过程会得出一个关于原型狗的(隐性)定义。接着就是图像生成的部分:我们可以在这个理想的狗的形象上加入多少种变化,使它既与原型相区别,又仍能被识别为一只狗——只要它看起来和所有系统已知的狗都差不多?该过程的第二部分,也就是生成的部分,我们应该称之为“模仿”——实际过去也一直是这么称呼的:此处,AI系统表面上是在模仿它自己的原型狗(或用最近的技术语言说,就是一个外部图像,系统在对照过其犬类数据集或狗的语料库之后将该图像认定为一只名目上的狗)。
然而,这一步完成后,随之而来的也许还有下一步。假设我们想同时模仿两个数据集合,创造两个图像语料库的混合体或融合体。有很多方法可以达成这一目标,但这些方法都有赖于从一个数据集合里提取若干基本特征,再将其融入另一个数据集合,后者会因此保留一部分,同时丢掉另一部分自己的原有特征。让我们进一步假设,能够迁移的特征不是什么独立的、可以剪切粘贴的元素,而是根植于某种不可言喻的微妙氛围、调性或风味。过去,这种弥漫性的总体感觉被称为“风格”,而在2016年左右,计算机科学家开始将上述操作称为“风格迁移”(style transfer)。这个说法被沿用了下来,现在很多最受欢迎的AI图像制作工具都有这个选项。
“模仿”这个概念在技术上的复活是更晚近的事:尽管模仿学习一直是人工智能领域一个得到公认的分支,但模仿这个词本身成为众人关注焦点还是在2022年11月谷歌的DeepMind发表了一篇具有开创性的研究论文之后。不管使用何种术语,基于AI的图像制作技术所做的,或者说我们在使用这些技术所做的,其实就是视觉模仿和风格迁移这两件事。所以,试图用数学方法复制人类思维里某些明显恒久不变的核心功能的AI科学家们在某个时间点感觉到有必要求助于上述这些古老概念也就不足为奇了。不过,计算机科学家们可能不知道(除非同时学过比较文学,或者有一个搞艺术史研究的伴侣),在二十世纪大部分时间里,“模仿”和“风格”两个概念在人文学科里一直备受争议,尤其是活跃于上世纪后半叶的设计师和批评家们要么对其刻意避之不谈,要么拼尽全力想要抹除其存在。
关于“模仿”和“风格”如何以及为何被二十世纪艺术理论和文学批评排斥这个问题,要解释起来可以写好几本专著。古人们从来都坚定不移地相信,一切艺术均应为某种模仿(柏拉图和亚里士多德的意见分歧仅在于画家和雕塑家到底应以什么为模仿对象);西塞罗认为作家应该模仿其他作家的风格——尽管“风格”(style)这一源于拉丁语stilus(意指书写工具)并被西塞罗借用来比喻个人化写作方式的词在英语世界里的普及是很久之后的事。进入现代早期,文艺复兴时代的人文主义者都是模仿西塞罗拉丁语文风写作的高手,专业作家试图利用西塞罗的文字和语句来表达西塞罗时代所没有的观念和想法。为此,文艺复兴时期的人文主义者们发展出了高度复杂的写作策略;这些策略接着又影响了文艺复兴时期的建筑师,他们同样常常需要让自己做的新建筑看起来带点儿古风——由此诞生的创作模式明确就是为了实现可识别的抽象外观或调性在不同内容之间的迁移转换。差不多这时,意大利文艺复兴画家吉奥乔·瓦萨里(Giorgio Vasari)开始用“样式”(manner)来指称十八世纪被称为“趣味”、十九世纪被叫做“风格”的东西,而正是在十九世纪,风格成为艺术史这门新兴学科的基础概念之一。
现代主义艺术家,尤其是设计师为什么会对主宰了十九世纪欧洲艺术史的模仿和风格这两个概念感到深恶痛绝,原因有很多。如果形式遵从于功能,那么在传统的原初功能已然消失的情况下去模仿传统的形式就是个错误,甚至更糟;从现代主义的观点来看,维多利亚时代的“风格之战”以及随之而来的风格上的折中主义代表了自工业革命以来建筑领域的所有沉疴恶疾。除了上述功能主义立场之外,另一个原因是二十世纪很多建筑师仍处在浪漫主义的、普罗米修斯式的创造者迷思下;像霍华德·洛克(Howard Roark,安·兰德小说《源泉》的建筑师主人公)那样富有创见的天才不会沿袭前例,更不会效仿自然。话虽如此,建筑现代主义的奠基者们却并未完全抛弃风格的概念;比如勒·柯布西耶(Le Corbusier)就致力于创造一种“新的”建筑风格,而众所周知,在上世纪三十年代的美国,现代主义本身也变成了一种“风格”——一种被称为“国际主义”的风格。一场反对风格的全面战争要等到1970和1980年代才开始获得广泛回响——这是一场晚期现代主义,而不是现代主义运动。这时候,所有模仿都被视为彼此相同的复制,因此也就等同于抄袭,而艺术理论和文学批评不得不引入一整套同义词、曲笔和委婉语,以便在不明确将其点出来的情况下讨论“模仿”问题:灵感来源、影响(通常与“焦虑”相关联)、感知力、倾向、类似性等等。作为不同于古典模仿(包含着融合与迁移)的另类选项,后结构主义语言学在1970年代发明了“互文性”(intertextuality)这一概念,一种据称是新的剪切-粘贴(cut-and-paste)创作形式,在这里,对前例唯一不可避免的指涉就是拼贴,无数碎片或引文的拼贴,它们都被从原始语境中抽离,以非常显眼,甚至是令人感到违和的方式被重组装到一起。同时期的后现代建筑师们动不动使用同样的手法——明显不知道拼贴和现成品都曾经是,而且依然是典型的现代主义产物。
因此,今天电子技术的最新化身有可能复活二十世纪现代主义试图从机器制造环境的视觉文化中抹除的那些艺术理论修辞手法,这一事实本身包含着某种讽刺。被现代主义者们拒之门外的模仿和风格正通过技术的窗口重新回到艺术实践现场。问题在于,对过去整整两代人来说,模仿和风格在大部分视觉艺术的批评话语中一直处于缺席状态,所以我们所有人——尤其是在欧洲中心的现代主义西方世界——目前都有点疏于操练,面对过去长期以来一直遭到贬斥的传统图像制作方法出乎意料地悄然复苏,我们感到手足无措。古典理论家,当时的古典主义者们非常清楚地知道,一切创作都必然地包含着某种对前例的意识,甚至是承认;一切发明都建基于某种形式的吸收,或更直白地说,模仿(这里面也包括否定,否定是反过来的模仿)之上。从上述认识出发,随着时间的流逝,诞生了一整套旨在提升和推进最佳模仿实践的美学和认知理论。如今,当技术开始令模仿变得自动化,从而支持并普及了其应用,我们必须重拾某些对模仿概念的批评意识,明白模仿意味着什么,它如何运作,以及我们可以如何运用它。和所有工具一样,人工智能,无论是不是生成性,其智能程度都取决于我们交给它的任务。
马里奥·卡普(Mario Carpo)是伦敦大学学院巴特莱特建筑学院建筑理论和历史系雷纳•班纳姆教授,也是维也纳应用艺术大学建筑理论系教授。
文/ 马里奥·卡普
译/ 杜可柯