2023-10-21
「译」在人工智能时代,纪念路德维希·维特根斯坦
GenAI
一篇简单的讲述维特根斯坦与AI的文章,初学者友好(我)。文辞略显繁复,但还是说明了一些东西。对向量数据库的论述可与列夫·马诺维奇进行连接。
哲学不是一种理论,而是一种活动。——路德维希·维特根斯坦
1.
在一个机械思维与人类智慧交汇的时代,哲学巨人路德维希·维特根斯坦的身影显得既庞大又神秘。作为20世纪最重要的思想家之一,维特根斯坦在分析哲学中的遗产构成了一幅复杂而又简单的图景。他被广泛记住,特别是在语言哲学领域,他的思想如同在广阔复杂的风景中蜿蜒流淌的溪流,开辟了新的道路与视角。
在他哲学旅程的初期,维特根斯坦在其奠基性著作《逻辑哲学论》中编织了七个基础命题。从“世界是所有事实的总和”开始,这些命题如同一幅宏伟的挂毯的线索,构建了一个旨在揭示世界、人类思想与语言之间复杂关系的框架。在这部著作中,他着手剖析哲学的核心难题,这一过程徘徊在逻辑与表征的边缘,他相信一旦解决这些难题,就能解决所有哲学问题。维特根斯坦认为,我们的世界在我们的思想中得以反映,这些思想类似于事实的图像。句子存在的目的就是以图示的方式描绘世界。因此,我们对世界的理解受限于我们的语言。通过严谨的推理和逻辑命题,维特根斯坦在伯特兰·罗素的分析传统下构建了一座哲学大厦,目标是划定世界、思想和语言的界限。这是一个分辨意义与无意义的探索之旅,一个理解表达界限的过程。毕竟,正如他深刻指出的,“可以显示的不能被说出”,并且“对一个人无法言说的事,必须保持沉默”。
然而,维特根斯坦的思想之河注定要蜿蜒而行,在他后期的著作《哲学研究》中,他开始了一场挑战自己早期构建的哲学大厦的新旅程。抛弃“词语如同图像”的观念,维特根斯坦引入了“语言游戏”这一概念,而他并没有给出确切的定义(这并不奇怪)。正如《斯坦福哲学百科全书》所描述的,这一概念“旨在为一种更流动、更多样化和更以活动为导向的语言观提供支持”。这一概念标志着从静态的语言观向动态、情境化和与人类活动深度交织的视角的范式转变。在这一时期,维特根斯坦的关注点转向了语言的语用学——即“一个词的意义在于它在语言中的使用”。
此外,维特根斯坦的后期作品阐明了哲学本身的目的。在《哲学研究》中,他强调了哲学的治疗性和非教条性,实际上引导哲学家走向一种治疗性的探究。他建议,哲学家的角色不是规定真理,而是为“特定目的安排提醒”。这一观点为理解语言及其与思想和世界的关系打开了新的维度。
2.
当我们深入探索人工智能(AI)的迷宫时,路德维希·维特根斯坦的先见之明,如同古老的符文,在意想不到的地方显现出来。像ChatGPT、生成性AI和多模态大语言模型(LLMs)等技术的出现,标志着人类在自然语言领域的一次量子飞跃。这些曾经是学者们在学术象牙塔内的神秘领域的技术,如今渗透到日常生活的方方面面。研究人员、数据科学家、软件工程师甚至普通人都在使用这些工具,惊叹于它们重塑我们与世界互动的能力。在这场数字狂潮中,维特根斯坦一个世纪前的深刻见解再次焕发出新的意义。
维特根斯坦最引人入胜的探讨之一是他对定义本质的探索。特别是在他的后期作品中,他试图区分“本质定义”和“例子定义”。前者是一种深深植根于科学和数学领域的概念,识别出一个被定义实体的必要和充分条件。这是一种能够简洁地捕捉事物内在本质的定义,回响着苏格拉底在柏拉图对话中的追问:“所有属于这一类的事物有什么共同点,而因此被称为这一类的事物?”这一对本质的追寻,不仅划定了概念的边界,还揭示了其核心。
相对而言,维特根斯坦引入了“家族相似性”的概念,这是一种基于例子和相似性的模糊定义形式。它代表了一种例子定义,其中概念的应用由一系列特征的相似性决定,而非严格的必要和充分条件。这个概念就像一幅挂毯,每根线索都为整体图案贡献力量,而不需要每根线索都存在。它承认了正义、爱或抽象观念等概念的开放性和演变性,这些概念无法被束缚在“当且仅当”条件的严格界限内。在这种视角下,语言成为一种有生命的实体,适应和演变,反映出不断变化的人类经验。通过讨论家族相似性的概念,维特根斯坦让我们思考我们是否真的在询问不可能的问题?也许在我们的经验中,存在太多的固有不确定性。问题并不在于我们的语言,而在于内在的模糊性。我们的讨论应该在前,逻辑在后。然而,当我们尝试“定义”某事时,我们却要求逻辑先行。
在人工智能的时代,维特根斯坦的本质定义与例子定义之间的二分法找到了一种引人入胜的平行。大型语言模型(LLMs)在理解和生成自然语言的过程中,面临着维特根斯坦所思考的种种问题。它们必须在捕捉语言本质——其规则和结构——与拥抱语言流动性、情境性之间取得微妙的平衡。这些AI系统所依赖的算法面临着人类语言固有的模糊性和多样性,这一挑战回响着维特根斯坦关于语言优先于逻辑的观察。这一反思表明,在追求数字智能的过程中,我们可能要求算法的精确性,而语言在其有机本质上并不总是能够提供这种精确性。
随着我们进一步深入人工智能的复杂性,维特根斯坦构想的家族相似性概念在意想不到的地方展现出其深远的相关性——在向量数据库领域。这一现代技术奇迹与传统的表格数据库(如SQL)形成鲜明对比,后者用户可以使用特定语法写出的确切逻辑语句进行查询。向量数据库,凭借其在多维向量空间中存储和操作数据的能力,代表了数据处理和存储的量子飞跃,尤其适合我们日益多模态的世界的复杂性。
在现代数据科学的丰富世界中,图像和自然语言文本都被转化为向量。这些向量就像印象派画作中的笔触,以一种远离表格和行的刚性结构的形式捕捉数据的本质。这一从表格数据库到向量数据库的转变不仅是技术演变,更是哲学上的转变,深深共鸣于维特根斯坦的家族相似性概念。因为在庞大的多模态数据库中,如何定义特定文档或图像呢?这个挑战就像在无尽的森林中描述一片叶子,我们常常在用词试图描述一片叶子的本质时感到力不从心。
在这里,向量相似性的概念作为家族相似性的现代体现浮现出来。当我们需要从一个包含数百万张图片的数据库中检索特定图片时,我们不再依赖于类似SQL查询的精确逻辑语句。而是根据与数据库中其他图像特征相呼应的描述进行搜索。这种方法虽然缺乏传统定义的精确性,却捕捉到了维特根斯坦的洞见:有时候,定义一个实体的关键在于其相似性,即数据家族内共享的特征。承认这一点很重要:相较于其他相似对象,定义一个对象要容易得多。很多时候,几乎不可能穷举出所有属性,以形成一个精确、数学上有意义的定义或识别。
此外,向量数据库的能力不仅限于简单的存储和检索。它们能够直接在向量上执行算术运算——如加法、减法、点积等——赋予这些数据库卓越的效率和多功能性。在涉及计算机视觉问题和自然语言处理(NLP)任务的机器学习领域,识别相似对象或模式至关重要,向量数据库成为强大的工具。它们使得复杂操作能够以快速和精准的方式进行,这回响着向量计算中家族相似性原则。
因此,在人工智能时代,当我们利用向量数据库的力量时,我们在不知不觉中将维特根斯坦的哲学见解应用于数字领域。家族相似性这一概念,曾是对语言和定义本质的哲学思考,如今在我们管理和解释浩瀚数据海洋的方式中找到了实际应用。在这一过程中,维特根斯坦的遗产得以延续,不仅作为哲学界的灯塔,也成为在不断演变的人工智能和数据科学领域中的指导原则。
3.
当我们在人工智能和机器学习的复杂领域中探索时,路德维希·维特根斯坦的见解照亮了另一个关键方面:日益兴起的可解释人工智能(Explainable AI)。在这个领域,GPT系列和其他大型语言模型(LLMs)以其惊人的能力占据主导地位,新的探讨涌现,呼应着古老的哲学对理解与解释的追求。
可解释人工智能旨在揭示模型内部的工作机制,就像传统统计学家解释线性回归模型一样。在简单模型中,例如具有单个变量的线性回归,解释是明确的——我们可以量化因变量随着自变量每单位增加而变化的程度。这种因果关系的清晰性和操作的透明性是传统统计模型的标志。
然而,深度学习模型(如变换器模型)的复杂架构使得这种简单的解释变得困难重重。这些模型由于其复杂的神经网络结构,常常被称为“黑箱模型”。在这些神秘的系统中,我们只能看到输入和输出,复杂的机制仍然笼罩在迷雾中,远离我们对简单参数模型(如线性或逻辑回归模型)的轻松理解,后者的模型参数具有内在意义,在特定情况下可以以因果方式解释。
在这复杂的雾霭中,我们必须回想起维特根斯坦的智慧。他将定义的概念扩展到包括“例子定义”,与更严格的“本质定义”并存,邀请我们重新思考理解复杂模型内部机制的方法。如果我们接受例子在理解中的重要作用,我们的视角就会扩展,允许多种技术进入机器学习模型的解释领域,涵盖学术研究和实际应用。
这种哲学转变类似于法律研究中面临的挑战,特别是在尝试定义抽象概念,甚至是像“色情”这样具体概念时。困难不在于识别一个例子,而在于制定一个精确的定义。对于法官来说,写出色情的精确定义是非常困难的,但如果提出一个例子,就能很容易识别什么是色情,什么不是。同样,在我们试图因果解读机器学习模型如何运作的过程中,维特根斯坦的忠告依然适用:“不要问意义,要问使用”。我们常常首先寻求逻辑的安慰,要求解释的清晰与精确,然而这样做可能限制了我们真正理解这些深度学习模型的途径。因此,我们以逻辑方式理解事物在某种程度上成为了对人类感知的障碍,使我们无法看到复杂模型的真实情况与复杂性。
或许,我们应该让这些模型通过例子展示其能力,以一种更符合维特根斯坦理念的方式揭示它们的行为和内部机制。通过这种方式,我们不仅拓宽了对人工智能的理解,还尊重了维特根斯坦深入探讨的语言、逻辑与理解之间的复杂关系。这种重视效用与例子,而非严格逻辑的方法,或许是揭开这些数字智慧奥秘的关键,使我们能够以新的清晰度和对解读细微差别的欣赏,穿越人工智能的神秘领域。
4.
当我们站在一个人工智能与人类生活日益交织的时代的门槛上,哲学巨人路德维希·维特根斯坦的教义以更新的紧迫感召唤着我们。他的贡献,关于语言、逻辑和我们对世界感知的丰富见解,给哲学和技术的领域投下了深远的阴影。在这个数字繁荣的时代,可能性界限不断被重新定义,我们再次被历史巨人的永恒智慧所吸引,重新发现并重新诠释他的思想,以适应现代背景。
人工智能和技术的进步邀请我们反思过去的哲学探究。这是一段并置的旅程,科学努力的前沿与哲学思想的深邃相遇。在这种交汇中,我们发现自己在思考一个深远的问题:哲学,凭借其丰富的遗产和深厚的根基,如何与科学和技术的快速演变保持同步?
维特根斯坦凭借其关于语言和定义本质的革命性思想,为这一努力提供了一颗指引之星。他的观点认为,鲜有定义是精确且本质的,这挑战了我们传统的清晰和精确观念。他暗示,我们所认为的本质定义,或许更适合表达为例子定义。在他看来,语言或许不是逻辑的僵硬,而是我们对对象和事实的感知。它是我们描述的工具,甚至是生活的工具。我们需要语言不仅仅为了演绎和归纳,更是为了达成一种共识——这种共识有助于知识的发现,更重要的是,在一个我们无法总是用通常感知来理解的世界中实现清晰。
这种强调描述和共识而非严格逻辑限制的方法,在人工智能领域尤其引人共鸣。当我们努力理解并利用这些数字实体的能力时,维特根斯坦的哲学邀请我们采纳一种更流动、不那么决定论的语言与理解观。这促使我们看到人工智能不仅是逻辑与计算的胜利,而是描述、感知与解释之间复杂的相互作用,反映了我们的人生。
最终,当我们站在这个数字时代的奇迹与奥秘之中时,维特根斯坦的忠告依然是一盏谦卑与智慧的明灯。在我们无法解释的事物面前,在知识浩瀚的海洋中,许多事物逃脱了我们的掌握,我们被提醒要珍视沉默。这并不是源于失败,而是一种敬畏——一种认识,在追求理解的过程中,有些领域是言语无法到达的,而是充满了惊奇的开始。或许,这正是我们从维特根斯坦遗产中最持久的教训:在追求知识的过程中保持谦卑,并拥抱站在巨人肩膀上的敬畏沉默。
原文:Remembering Ludwig Wittgenstein in the Age of AI