跳转至

Philosophy

“吃完这点,别浪费!”是自欺欺人

我去年底休陪产假停工回家待了两个月,收假后的例行体检发现胆固醇、糖化血红蛋白等各种指标都飙到了临界值——原因无他,就是吃得太多。最近更是全家确诊了中度到重度睡眠呼吸暂停,虽然说我主要原因是鼻中隔偏曲和舌根后坠导致的气道阻塞,但是很难说跟中年发福没有关系,因为我的体重从那之后就没降下来。而医生的统一建议是:我们全家体重指数普遍超标,减肥有助于减轻症状。

为了降低体重,我开始有意识的控制热量摄入并审视全家一致以来的饮食习惯。

“吃完这点饭,别浪费了,‘粒粒皆辛苦’。”这是我妈在饭桌上常说的一句话,而当年《知音》或者《读者》广为流传的一个故事是:中国人到西方国家的餐馆消费,点了很多菜吃不完而被怒斥“浪费全人类共享的资源”。因而我从小养成了看不得剩菜被倒掉,拼了命也要吃完的习惯。后来我发现很多人和我一样,觉得“上的菜不吃完”是极大的罪过。

但是这个看似正确的朴素观念经不起仔细推敲。

首先,剩菜吃下肚和倒垃圾桶的主要区别是其能量是否为我们人体所吸收,然而现代人普遍营养过剩,多吃那几口反而是无谓地增加消化系统负担罢了。与之相比,倒垃圾桶反而能够有助于在清理垃圾的时候多消耗一些能量。

其次,“吃干净”这一举动并不能节省粮食,因为食物的消耗其实发生在进食之前:动物的宰杀、肉类的解冻、米饭的蒸煮都给食材可利用的时间加上了一个期限,因此剩菜吃完与否并不能改变粮食消耗的进程。

还有,长期吃撑会导致其它浪费——营养过剩会导致高血压、高血脂等各种消耗医疗资源的健康问题,美国每年为治疗肥胖症的医疗开支接近三千亿美元——这个金额如果用于购买主食能够让全体美国人在将近一年的时间里不挨饿。

这么看下来,浪费的发生根本不在吃饭的人,而在做饭的人啊!如果真想节约粮食、减少国家粮食进口的依赖,应该是做饭和点菜的时候把量控制在刚好吃饱的状态,或者吃不完就留下一餐,而不是硬撑着吃完。

于是我花钱请了膳食教练指导爸妈利用厨房秤定量烹饪三餐、均衡营养,艰难地改掉了他们“随收抓一把菜开煮,然后拼了老命塞完”的饮食习惯,现在他们的体重终于开始稳步下降。

我靠做题改变命运,现在想教女儿快乐学习

“优等生”的反思

作为一个寒窗苦读十几年靠知识改变命运的“小镇做题家”,我由衷地感激我从教育中得到的一切,却也深刻体会过“以考为纲”被迫追逐分数的痛苦,更惋惜那些在重压之下崩溃的灵魂。而我的经历也告诉我,“填鸭教学”的对立面——“三点下课玩乐、不留作业”那样“快乐地不学”只不过从一个极端走向了另一个极端。

因此,自从有了女儿以后我经常思考一个问题:如何能把学习的功力传授给她,让她在这个竞争更加激烈、“内卷”更加严重的环境里学业压力更小一点,在尽可能保持竞争力的同时有一个快乐的童年,甚至变得比她爸爸还要厉害。

这是可能的,因为我大部分时候是个优等生,但是在本科的时候也有过非常挣扎、听不懂又学不会的“学渣时刻”,这并非由于我跟老师磁场不合导致神经错乱、智商骤降,而是因为我在学习过程中撞到了某种难以察觉和突破的屏障。

在毕业多年之后,我一时兴起重新拿起了课本,猛然发现当年那些晦涩抽象的理论现在竟然能够看懂了,而且是跟原来完全不一样的思考路径。在仔细回忆了当年挣扎的过程之后,我认为主要差别是认知方法较当年有了巨大的提升,而这跟我做多年软件工程师的经验密切相关,因为这个职业经常要做三件事:

  1. 在一个陌生的领域把老板们画的大饼、产品经理们天马行空的需求转变成如数学般严谨的程序代码,而这个过程中需要准确理解大量模糊的新概念,并且将其精确地重新描述并且加以推理与应用,这正是学习中“融会贯通”的一种体现。
  2. 在结果不符合预期的时候,从初始条件出发,仔细探查中间环节,寻找造成差异的原因,并提出改进方法,这跟学习中不停修正认识如出一辙。
  3. 制定合理的执行计划,降低关键环节遭遇困难造成阻碍而导致项目延期乃至失败的风险——这种风险在学习过程中同样存在,“从入门到放弃”最后一无所获的经历想必很多人都有过。

因此,学习本身可以被看作一个认知工程,可以使用对应的工程管理技巧和认知方法。工程管理本身并不困难,毕竟工地上的包工头也不尽是本科学历。而认知方法本身既不依赖天分,也不需要任何专业知识,只不过它本身是一个非常抽象的技能,受限于认知偏差、时间精力和语言能力等多种因素,在哲学素养和逻辑训练缺乏的应试教育环境下缺乏有效的引导,因而大部分人难以得到提升。

学习为什么困难?

小时候我爸大概以为我是个傻子:有一次我追着他问“到底为什么1+2=3?”,他解释了半天我也没听明白,于是他很生气地问我“这么简单到底哪里不明白?!”我当时很委屈,但是即使是现在,这个问题一般人也很难解释清楚。这就是所谓的“知识的诅咒”:人一旦掌握了某种知识,就很难设身处地地想那些不理解的人是如何思考的。

但是我记得我的困惑是什么。

现在做一个实验:

把0123456789依次替换成ABCDEFGHIJ,那么“DA+GE=?”

一个简单的两位数加法,在做了一个简单的变换之后就变得很困难,根本原因在于引入一个不熟悉的数字表示极大增加了认知复杂度——这是一个软件工程领域常用的名词,代表人认识一个系统的困难程度。而复杂度的增加正是来源于多了的两个转换步骤导致我们脑海中需要储存的新信息(转换结果)成倍增加。

如果给纸和笔,甚至只要多一点点时间,我相信所有人都能给出正确答案:DA+GE=30+64=94=JE——因为在短时记忆能力有限的情况下,我们会很自然地把它们拆分成若干个简单的问题(字母到数字转换、数字加法、数字到字母的转换),并利用额外的时间或者纸笔来辅助记忆中间结果。

切换到三十年前我的视角:一位数加法的规则就有100种,1+2=3就是其中之一,这还不包括进位的规则——前面的思想实验让成年人都觉得困难,何况对于一个认知还像白纸一样的三岁小孩呢。除了加法本身,还有十进制阿拉伯数字的表示、交换律、结合律……当这一系列陌生的概念一起砸过来的时候,先全部记下来再去尝试理解,一定是痛苦的——背过中英文单词对照表的同学一定深有感触,不信可以让考过留学英语考试的同学说出他们背过任何单词表的前几个单词,答案基本上只有一个:Abandon(放弃),因为它是几乎所有单词表的第一个单词。

怎么学习才不那么困难?

学习有没有捷径?当然有,因为捷径是一个相对的概念,只要相对于大部分人的效率更高就算。我认为很多人学得苦、学得累、学到最后还不会的原因正是效率低下,这主要体现在三个方面:

  1. 认知顺序不合理
  2. 概念理解不精确
  3. 思维链路不流畅

因此,如何解决这三个问题就成了关键。

方法一:优化认知过程

学习的本质是一个把信息转录到大脑的过程,而人脑的特性就是:跟现有记忆无关联的不熟悉的东西处理得慢,而枯燥乏味的记忆过程也会让人产生抗拒心理,进而更加延缓这个步骤。

要让小孩学会加法,大概可以拿着鸡毛掸子盯着让他死记硬背几天加法规则就行了——孩子会长大,记忆能力会增强,加法规则会变得像呼吸一样平常,甚至九九乘法表也不在话下。可同时学习的难度也在加大,大部分人终究会遇到让他们难以理解的“1+2=3”——中学长久以来流传着一种说法:“很多同学到了高中理科下滑得厉害,是因为死记硬背那一套到了高中不管用了。”这种说法给很多同学留下了深刻的阴影,遇到瓶颈就开始怀疑自己,以致不少人“逃”到了文科班,殊不知那里很可能遇到一样的困境。

加法规则怎么来的,为什么要记忆这么多规则?这些问题是我的困惑所在,很显然我当时没有能力提出这些问题——而这却又恰是解决问题的关键:即便简单如加法,其概念之间是有关联和层次的,循着层次递进,逐步理解和记忆相比于一股脑背下来再去理解便是捷径。

以后我大概会则会么跟我女儿解释:

  • 加法就是数数,加几就是往后数几个数,你已经知道从1数到10啦,1往后数2个数就是3,所以1+2=3
  • 2往后再数1个也是3,所以2+1=3
  • 阿拉伯数字1,2,3只是我们给那些数起的名字,其实以前人们画竖线来表示,有几个就画几竖,所以I,II,III是他们的另一种名字。
  • 但是随着数字越来越大,人们就嫌太麻烦,就开始想办法简化。比如罗马人用V表示5,在他们前面加几个I就表示往前数几个,往后数几个就加几个I,所以IV是4的另一个名字,VIII是8的另一个名字。
  • 再后来,人们觉得笔画还是太多了,就统一使用了今天的阿拉伯数字1,2,3……它比用罗马数字数数快多了,不信你照着这个加法表试试?

就这样,认知对象“加法”被拆解为了几个记忆量更小、可以从前往后推导从而自然衔接的层次: 1. 加法的本质是数数 2. 加法的交换律 3. 选择阿拉伯数字作为表示系统是因为它方便 4. 十进制数字的表示方式 ……

更进一步,乘法也可以如法炮制——当手指数不过来的时候,九九乘法表便是一个只靠记忆就可以让数数变得更快更简单的“秘籍”。

回过头来看,虽然需要认识的内容总量增加了(多了罗马数字的表示),但是比起“背下来就自然理解了”的粗暴的方法,这条学习路径的理解和记忆起来更轻松,而且有趣得多——所以很多讲课很好的老师都喜欢谈论课本上没有的八卦,因为这些内容往往能够辅助理解记忆,还可以给暴露在密集知识点之下的同学们一点喘息的时间。可惜当年竟然有不识货的同学竟然投诉老师“讲太多跟高考无关的内容”。

不过这似乎陷入了一个怪圈——在“学会”之前,对于充满未知的所学之物,如何解构它的层次从而找到最优的递进策略?方法很简单:课程导论就是干的这个事情,只可惜导论课程长时间以来不受重视,很多老师讲不清楚,学生更是听得迷糊。但是各个领域都有非常优秀的人所作的教程和讲义,尤其是美式教材相较于与国内普遍的苏式风格的教程讲解清晰明了得多,在很多情况下借助他们辅助理解甚至自学的效率远高于课上一知半解、课后抓耳挠腮的方式。更何况,在中国买书可以说是白菜价了,而现如今国内已经大量引进外国科普读物和教程。

方法二:准确表述概念

“学会了”指的是能够理解规律并在思维过程中准确应用,而语言是思维的载体,清晰思考的体现就是能够清楚地表达。现代研究普遍认可“语言相对论”,即语言结构影响其使用者的世界观或认知,因此人类的感知与思考模式与其所使用的语言相关(著名科幻电影《降临》就是以它的强化版本“语言决定论”作为故事核心展开)。

学习和思考的过程是通过记忆已知,推理未知,从而直达结论的过程。而歧义代表着某种不确定性,因此如果思想和语言本身是模糊的,那么最终的不确定性就会随着推理深度指数叠加。因而学习得深入,脑子越迷糊。

Mind Explode

虽然语言的使用对于大部分人来说已经跟呼吸一样自然,但是大部分情况下人们并不仔细思考自己说的话到底是什么意思,大概凑合差不多能理解就行了——因而时常遇到遇到类似“一个人成为单身狗的原因是谁都看不上”(到底谁看不上谁?)这样语言结构不明确导致的歧义,与“这个那个”等代词滥用造成的指代不清。

学习的阻力相当一部分来自于语言的模糊性,比如:

“为什么镜子里面的像是左右颠倒,而不是上下颠倒?”

alt text

这看似只是一个物理成像的问题,实则是一个语言游戏。它可以说明我们日常语言有多么的不严谨,又如何进一步影响我们的思考和认知。

首先,颠倒本身指的就是上下移位,跟左右没什么关系。可改成“左右相反”还是不对,因为镜子里的人像左手依然在左边,右手也依然在右边,这怎么能叫“左右相反”呢?

而镜子里面的人像跟外面的人确实有一种相反的关系,但是应该怎么描述呢?这就需要想清楚“上下左右”到底指的是什么。实际上,“上下左右”是一种以观察者,也就是人自身为中心的方向定义:头在上、脚在下,胸在前、背在后,而左右是通过“上下前后”定义出来的。当方向的概念明晰了之后,显然镜子里的像并不是左右相反,而是“前后相反”。

alt text

当然,还有另一种理解——如果把观察者换成镜子里那个虚拟的人像,那么与镜子外的原来观察者真身相比,本体的左手确实变成了虚拟人像的右手,从这个意义上说,它的确是“左右相反”——但造成这种相反的原因是思维过程中的视角或者说观察主体的切换,而更本质的本体与成像“前后相反”的差异却在切换后被隐藏了。

由此可见,如果没有对语言本身含义的精确把握,一个非常简单的日常现象都会变得很难理解,因而学习思考更庞杂的知识体系时必然举步维艰。

只可惜,语言的语义属于哲学的研究范畴,而哲学一向被认为是文科而长期排除在理科教学之外,同时文科课程中的哲学在中学的课程安排由于客观原因而有意无意地略过了西方哲学史中几大哲学家的核心思想。好在语言和思维的训练完全可以通过自主学习哲学开始,《大问题:简明哲学导论》和《苏菲的世界》便是最好的启蒙读物。

方法三:梳理思维链路

学习的过程中我们会对理解的概念进行连接和推导,从而构建出一个“信念之网”。当遇到问题,我们就会从这个信念之网的某个节点出发试图找到一个通向某个结论的链路——这个就是随着大语言模型而火起来的“思维链”。

而很多时候,“不理解”实质上是“思维链路”不通顺,这一般有两个原因:关键知识的缺失、认知方式的偏差。将脑中模糊的思维链写到纸上,往往能够很容易发现其中缺失和断裂的环节,我们可以从而查漏补缺或修正认知。其中,把思维链写下来有几个好处:

  1. 书写迫使我们思考从而准确地表述相关概念
  2. 思维链拆解成多个环节之后可以被分开审辨,从而降低这个过程中的认知复杂度
  3. 用书面语言表达的思维链方便用于交流和提问

关键知识缺失造成的认知困难很好理解。当年我初三月考的时候有这么一道化学题:

黄瓜富含维生素,那么以下哪种方式处理方式最营养?

A. 切片跟猪肉爆炒 B. 拍碎用陈醋凉拌 C. 切块加排骨炖汤 D. 去皮与牛肉黄闷

一个同学死活想不明白,反问“为什么不切着吃”在课堂上跟老师纠缠了很久。我当时还因为觉得这是胡搅蛮缠而生气,因为这没什么好纠结的:

  1. 黄瓜富含维生素
  2. 维生素C是维生素的一种
  3. 维生素C容易被高温破坏
  4. 除了B选项,所有烹饪都有加热步骤

所以,陈醋凉拌保留最多维生素C,肯定最营养啊!

出题人意图的思维链路应该就是这样,虽然说他这个题的“脑回路”有点绕,但在初三化学有限的知识体系内这个推理路径还是基本合理的。而那个同学想不明白的原因大概率是缺失了“维生素C容易被高温破坏”这一环,从而无法推导下去得到答案——回去看课本就很容易补齐。

回想起来,我遇到最痛苦的学习经历之一是大学物理——麦克斯韦方程学不会的一个主要原因是讲课的时候数学课的多重积分还没学到。

还有一类属于认知偏差。我初三的时候还碰到过一个物理题:

一个人最初静止地站在电子秤上。随后,他开始做一个下蹲再站起的动作。下列关于秤上读数变化的说法中,正确的是哪一项?

A. 在整个过程中,秤的读数始终不变。 B. 在下蹲的过程中,读数减小;在站起的过程中,读数增大。 C. 在下蹲的过程中,读数增大;在站起的过程中,读数减小。 D. 秤的读数只取决于人的质量,动作不会对其产生影响。

正确选项是B,因为下蹲过程中重心下移意味着重力大于秤的支持力,反之则意味着重力小于支持力。

而我选了C。当时我的想法是这个过程可以等价于:一个人从和秤一样高的台阶上轻轻平跳到秤上立即下蹲,因而这个人和下蹲一样也有一个从0开始慢慢增加的速度,而这个过程速度秤的示数显然是一直增大的,综合所有选项只有C满足条件。

alt text

这个思维过程犯的错误比较隐蔽,老师没听懂我在说什么,而聪明的同桌听懂了却没能发现问题,所以我苦思冥想了一整个晚自习的时间导致作业差点没写完。如果我来给当年的自己讲这道题,只要把思维链的各个环节清晰地列举出来逐个审视、质疑,存在的问题就会很明显:

  • 为什么能得到下蹲读数增大的结论?
  • 因为我提出的等价模型能够得到这个结论。
  • 为什么等价模型能够得到这个结论?
  • 因为跳上去的时候秤的示数是0,人站在上面示数肯定大于0,所以肯定下蹲的过程是增加。
  • 为什么这两个模型等价?
  • 因为刚跳到秤上的那一瞬间,人的速度为0,同时有一个下蹲的重力加速度,和静止正要下蹲的人的状态完全一致。

而问题就出现在这两个物理模型等价的假设上:二者不等价,因为我提出的模型只考虑了人的状态而忽略了秤。原题中秤的初始示数是体重,而我的模型中最开始示数是0,因此如果要和原题状态一致需要等到秤的示数和体重一致再开始下蹲,这时候答案就是B了。如果当时我能把这个思维过程列出来问老师,可能5分钟就能搞明白。

这个审视因果的方法叫做“五问法”(5 Whys),因为大多数情况下最多5问就能够直达问题的核心。它来源于丰田汽车制造方法学中积累的宝贵经验,现在已经被广泛应用到包括软件开发在内的诸多领域。

其实这个方法跟我们俗语中的“打破沙锅问到底”异曲同工,但是怎么有效地提问、怎么深入问题的本质是需要大量的练习和思考才能够熟练掌握的。

总结

总而言之,学习是有捷径的,但是决不是那种能让一个中专生自学两年偏微分方程和“谢惠民的数学方面”之后参加竞赛就能碾压全世界的那种捷径——从理论上这就是不可能的:对于无数个认知复杂度远高于“九九乘法表”的理论,那种期望就如同指望熟读《唐诗三百首》便可作莎士比亚戏剧,或者学会自由泳之后便可徒手登珠峰一样荒谬可笑。

对真理之山应该心存敬畏之心,但是攀登的时候,不妨借助前人留下的绳索;在登顶之后,也别忘了给后人铺一块砖。

花絮

(以下对话纯属虚构)

  • 媳妇:“所以,这就是你们985理工男爱说教的原因?”
  • 我:“果然你们女人得到了就不懂得珍惜!以前要我讲题的时候恨不得叫我‘神’,现在得到了、嫌烦了、薅光头了、榨出油了,就叫人家‘总想教会你什么东西的既普通又自信的中年油腻男’?网上说的都是对的,不管女人多少岁,喜欢的永远是十八岁!你嫌我人老珠黄了是吧!”
  • 媳妇:“嘿,‘男人至死是少年’是吧?我可从来不爱听说教!这么多话讲给你穿尿布的小情人听去,她现在爱读书听故事!”

别慌,人工智能还考不进师大二附中

人工智能的安全焦虑与现实

我中学母校是师大二附中。在ChatGPT刚开始火爆的那一阵,老师邀请我回去给学弟学妹讲人工智能。当时正值《减轻人工智能带来的人类灭绝风险》公开信发布之际,媒体正在疯狂炒作“人工智能”的安全问题,而同学们最关心的问题大多也围绕这个点:

  • “人工智能时代,社会真的只需要精英吗?”
  • “人工智能完成的论文是否具有学术价值?”
  • “人工智能是否有可能或者已经通过‘图灵测试’?”
  • ……

从这些问题可以看出大家仿佛担忧《终结者》中的天网时代就要开启,人类与机器的大战即将到来。我笑道:“别慌,你们都是目标清华北大的尖子生,人工智能现在的实际能力还远达不到你们小学到初中升学考试的水平,它截至目前的最大进步是说出的话比以前语法更流畅,不那么答非所问甚至狗屁不通。”我不是瞎说,因为它的实际认知能力不如幼儿园,推理不如小学生。

逻辑不如小学生

师大二附中当年是国有民办学校,所以有完全自主招生权,因此想入学必须经过一个能力测试。别的试题我都记不清了,唯独一道分值很高的推理题的题型让我印象深刻——多条件逻辑推理。它广为流传的一个复杂版本是“爱因斯坦谜题”,总共有5个变量和15个条件。下面是一个3个变量和4个条件版本的谜题:

新学期开始了,班里换了新的老师,她们是林老师、王老师和吴老师。三位老师分别教语文、数学、英语课。已知: (1)每个老师只教一门课; (2)林老师上课全用汉语; (3)英语老师是一个学生的哥哥; (4)吴老师是一位女教师,她比数学老师活泼。 问:三位老师各上什么课?

就是这么一道大多数人通过画表格就能轻松解决的小学推理题能够难住当下所有流行的大语言模型,没有例外。这暴露了它们的共同的局限性——不具备小学水平的逻辑思考能力。尽管“思维链技术”展现的“思维过程”让他们看上去像是在推理,实际上只是在说语法通顺而逻辑混乱的胡话。招生老师看到这样的试卷的结论一定是“不懂装懂、瞎糊弄,给0分”,因而录取的结果自然不会很好。

误解的来源——鸭子测试

“人工智能危机”是一个很时髦的话题,我当然不是否认近几年大语言模型为代表的人工智能技术取得了长足的进步,但是现在媒体尤其是自媒体的渲染有点过了头——里面甚至掺杂了不少由于缺乏了解造成的想象。这种误解来源于人们认知中的一个常见假设:“如果它看起来像鸭子、游泳像鸭子、叫声像鸭子,那么它可能就是只鸭子”——这也是谈笑风生的美国记者华莱士提到过的“鸭子测试”。

然而,“可能是鸭子”的鸭子未必是真鸭子,因为这取决于测试的方式和比较的维度——能在100米外通过“鸭子测试”的仿真玩具100元人民币能买好多只,只是用来煮汤的时候真假鸭子的差距可就显而易见了。现在的新闻标题里不难看到“X模型在Y任务中超过了Z”之类的惊悚标题,仿佛计算机已经学会了如人类一样思考,律师、医生、程序员等一系列专业人士立马就要失业。实际上,这种测试很容易陷入类似于拿计算器跟数学教授比速算的片面比较,从而得出前者数学水平高过后者的荒谬结论。

智能的标准——图灵测试

那什么样的评价标准能够比较全面地评判人工智能的水准呢?很遗憾,在搞清楚智能是怎么产生并且给它准确定义之前,很难有一个公认的标准,不过者并不妨碍人们尝试去定义它:“图灵测试”便是其中最负盛名者。

图灵测试其实和鸭子测试有点相似,可以概括为:如果计算机能像人一样交流,那么它可能具备了人一样的智能。换句话说,如果一个机器能够伪装成人与人类进行足够长时间的沟通而不被发觉,那么这个机器就通过了测试。

然而图灵测试虽然具有可操作性,其描述却比较模糊,实际的效果千差万别,因为不同的测试者的能力会有显著的差异。比如前一段时间“真假靳东”诈骗中老年妇女的新闻就闹得沸沸扬扬——这种对大多数人看一眼就知道是人工智能生成的假的视频缺依然蒙住了很多人。实际上,某些最新的论文研究表明GPT-4的图灵测试通过率已经达到了54%,这是一个乍一看非常惊人的数字。实际上,对于了解人工智能原理的测试者,当前最先进的模型的通过图灵测试的概率可以说无限接近于0。

从本质上说,我们比较两个事物是否“相同”靠的是它们是否存在某些关键性的“不同”。图灵测试就是通过给被测试者一个语言的输入,观察它的输出,然后判断这个输出是否与“常人”保持一致。因此,一种有效的测试方式是测试者用语言为测试对象描绘一个基于自己认知和广泛共识的“虚拟世界”并一同在这个世界中进行“探索”。最后测试者根据测试对象在探索结果的描述中找与自己想法不一样的地方——这些异同往往就是区分智能与非智能的强烈信号。

例如,我们可以假想自己在一个二维平面上,用轨迹画一个字母A:

我的初始座标位置(100, 100), 现在依次走到 (102, 104), (104, 100), (103, 102), (101, 102),我走出来的轨迹是个什么字母?

alt text

显然,对于这样难度的问题,哪怕是喝了酒的醉汉也说不出ChatGPT这样的胡话:

画出这条轨迹,我们发现它形似英文字母 "N": - 先上升到高点(第一步), - 再斜向下降到底部(第二步), - 然后中间折回(第三步), - 最后走到左侧(第四步)。

所以,你走出的轨迹像字母 "N"!

智能的假象——鹦鹉学舌

然而,“图灵测试”也不乏质疑之声,其中最著名的莫过于“中文房间”思想实验:

一个对中文一窍不通,只说英语的人关在一间只有一个开口的封闭房间中。房间里有一本用英文写成的手册,指示该如何处理收到的中文讯息及如何以中文相应地回复。房外的人不断向房间内递进用中文写成的问题。房内的人便按照手册的说明,寻找合适的指示,将相应的中文字符组合成对问题的解答,并将答案递出房间。尽管房里的人可以以假乱真,让房外的人以为他说中文,但事实上他根本不懂中文。

这个思想实验有一个更地道的中文表述:“学舌的鹦鹉不会讲话。”只不过大语言模型比鹦鹉“学”得更多罢了。

那么凭什么证明当下的人工智能不过是学舌呢?如下两个测试可以说明这一点:

alt text

这两个问题交给当下流行的大语言模型,结论一律都是“一样大”、“一样长”,当你质疑的时候还会说:“不信你拿尺子量一量”。可见,大语言模型的认知水平和鹦鹉没有本质区别,远不如幼儿园的小朋友。

那为什么会出现这种情况呢?原因在于大语言模型的原理——它可以近似理解为通过分析大量的文本得到的统计数据,根据对话的上下文去推测蹦出下一个词的可能选项以及各自的概率。

举个简单的例子,在对话中一旦出现“我爱”,它就会权衡——是接“你”呢,还是“他”再加个“妈”?又或者来点狗血,直接接“但”?最后选择哪一个,很大程度上取决于训练模型的素材中金庸、琼瑶韩剧哪一个比重更大一点。

上面两个图是从两个著名的视觉错觉图《米勒-莱尔错觉》与《艾宾浩斯错觉》修改而来的:

alt text

这两个图里,橙色的圆圈是真的一样大的,两个线段也是真的一样长的。这两个错觉过于出名,所以“一样”的结论跟这两张图在用于训练模型的各种资料中一起出现的概率远远高于其它的答案,因而看到高度相似的图片大模型坚定地输出“一样大”,却并不真正具备对于“大”的概念认知。这几个测试或许能够被聪明的工程师们经过特殊处理后得到正确的结果,就像不会做两位数乘法的ChatGPT现在会直接调用代码进行计算那样——然而这些工程上修修补补并不能从本质上提升当下人工智能的水平。

到底怎么看当下的人工智能?

就我个人而言,相比于把它看作一个“智能体”,把当下的大语言模型看作一个新时代的搜索引擎更合适——它压缩了世界上各种语言里几乎所有高质量的材料,并廉价甚至免费地通过一种交互的方式开放给全人类,这无疑是某种形式的“知识共产”。但是,这种压缩并不是原汁原味的,大模型本身并不能够像人一样理性地去解读文本,它可能会丢失原文的准确性然后一本正经地胡说八道。因此,在大语言模型逐渐普及的时代,除了使用它的能力之外,理性思辨的能力变得愈发重要。

同样,正是由于其并不具备人的逻辑和认知,我暂时不太接受将驾驶权完全交给汽车——或许从统计学上说自动驾驶的事故率已经低于人类司机的平均水平,但是一旦它犯我绝不会犯的错误导致严重的后果我是无法接受的。

至于被人工智能取代?从技术的角度上说,等它真正上了幼儿园再去担心也不迟——更何况,汽车出现之后,就算马车夫的岗位没了,还可以去当司机嘛。

附录:ChatGPT的“逻辑推理”过程

我们根据题目信息逐步推理三位老师各教什么课:

  1. 设定变量

    • 三位老师是:林老师、王老师、吴老师。
    • 他们分别教授语文、数学和英语。
  2. 利用条件进行推理

  3. 条件(2):林老师上课全用汉语。

    • 这意味着林老师不能教英语(英语课不可能全用汉语讲)。
  4. 条件(3):英语老师是一个学生的哥哥。
    • 说明英语老师是男性。
  5. 条件(4):吴老师是一位女教师。

    • 结合上面的信息,英语老师不可能是吴老师,因此英语老师只能是王老师。
    • 得出:王老师教英语。
    • 由于每个老师只教一门课,剩下的科目分配是:
  6. 林老师不能教英语(条件2),而王老师已经教英语了,所以林老师只能教语文。剩下的吴老师只能教数学。

  7. 验证条件(4):吴老师比数学老师活泼

  8. 这里的“比数学老师活泼”说明吴老师不是数学老师,而这个条件和推理出的吴老师教数学相矛盾。因此,我们需要调整推理。

  9. 调整推理:

    • 林老师教语文(由条件2推出)
    • 王老师不能教数学(否则吴老师比数学老师活泼的条件矛盾),所以王老师教数学。
    • 吴老师教英语(符合英语老师是男性的条件,可能是翻译教学或者其他形式)。
  10. 最终答案:

  11. 林老师教语文
  12. 王老师教数学
  13. 吴老师教英语

我到底为什么要和你结婚啊

灵魂的拷问

“我到底为什么要和你结婚啊?”这是妻子生气的时候经常对我发出的灵魂拷问。在这种情势立刻低头认错,夹尾求饶才是生存之道,因此这个问题也从未触及我的灵魂深处。

直到一次饭局,酒过三巡、众人微醺之后,那些对结婚与否尚举棋不定的朋友对我和妻子提出了这个问题——在朋友圈中,我们属于最早交卷的那一拨。这些朋友的经济条件和学历无疑是让人羡慕的,可似乎他们也有自己的困境和苦恼,我和妻子不得不认真对待这个问题。

这个问题其实有两个层次:“为什么要结婚?”以及,“为什么是你?”

妻子很快给出了第一个问题的答案:“婚姻就是抓一把最有希望的药做一场临床试验,如果一直有效,就进入下一期试验。当然,有可能最后试验会失败,结论是‘男人的嘴,骗人的鬼’。”天地很大,大到让人觉得孤独。人生的尽头是死亡,那里很冰冷。治愈孤独和冰冷需要一种药,它提供爱与温暖。

可是,“为什么是‘你’呢?”这个问题在之前我没有完全想清楚,这一刻答案异常清晰地呈现在我眼前:光阴易逝,人生无常,我们习以为常的东西说不定哪一天就会突然失去。而“你”便是我对抗这种生活不确定性的一个锚点,就像是《盗梦空间》中柯布怀里的那个陀螺,是我这个渺小的人类在浩瀚宇宙在现实中能感受到最坚固的依靠,能够有勇气去面对任何狂暴的波涛,想办法摆平任何问题。

婚礼

我和妻子很早就领了结婚证,那时候,这对于我们来说更多是一张结束异地长跑的机票——相隔万里,想念真的是一种会呼吸的痛。没有婚礼,没有誓言,甚至连一束花都没有,只有在不耐烦的婚姻登记员注视下于冷清的结婚纪念厅后留下的一张合影。之后的日子,一切跟“恋人以上,结婚未满”的的时候并没有什么两样,柴米油盐,吵吵闹闹,就这样平静的过了好几年,直到2020年的春天。

一开始,同事们都认为那不过是一个大号的流感。随后的一阵子,公司内部的各种线上频道慢慢变得异常的安静,接着便是经济震荡以及它带来的巨大冲击——裁员。虽然未被直接波及,毕业时拒绝去知名大企业而选择了创业公司的我还是受到了极大的震撼——管理层的决策失误与事后的无情感到愤怒,于是我决定跳槽。可是覆巢之下焉有完卵,整个世界的经济形势几乎跌到谷底,工作四年之后名校毕业生的光环已消磨殆尽,这几年的工作经历几乎页一文不值。彼时,当初选择大企业的同学们都安之若素,升职加薪风生水起,这更加剧了我的焦虑。

我是个好面子的人,从来都羞于求助,更害怕承认我一度骄傲的履历在市场上不值一提,以及过去四年的非主流职业投资是个彻底的失败。在投简历、面试屡次被拒之后,我的自尊心开始崩溃,没有心情吃饭,三个月瘦了二十斤,每天都在全方位地怀疑自己:“我到底还行不行?”在这段时间里,她给我的支持也是全方位的。终于,我幸运地搭上了一班逆势而上的列车,重振雄风,这次中年危机的预演得以成功度过。

之后我们买了个小房子,养了条小狗,怀上了宝宝,日子过得确定而幸福。妻子跟我说这是她最快乐的时光之一,直到这一切被意外击碎——临产前6周,由于意外,我们眼睁睁地看着小狗的生命在妻子的怀里消逝。

妻子十分的自责,却也强忍着悲痛坚持到了宝宝的降临。或许是由于激素的剧烈地波动与照顾宝宝的劳累,在生产之后陷入了极度抑郁的状态,全然没有成为母亲的喜悦,只有无尽地自责、思念和痛苦。不夸张地说,那时候的她完全成为了一个情绪的黑洞,无情地吞噬这个家里的所有能量。那段日子,她经常面无表情地问我:“我是不是不会快乐起来了?”

对形势估计过于乐观而只休了一个月产假的我尚需要兼顾工作,压力大得我一度崩溃痛哭。但是我见过她快乐的样子,那样的笑容比春日的阳光还要明媚。“不会的!相信我,一切都会好起来的!”我坚定地回答。后来,借助各路救兵,在休息与调整几个月之后,熟悉的妻子回来了。

所以,对于我来说,就凭这份多年共同的经历构筑的信任和了解,“你”就是那个在正确的时间、正确的地点遇到的最合适的人。这种机缘,此生独一份。汝若非佳人,我必沦为浪子。

想到这里,我仿佛身处牌桌,一个叫命运的荷官问我:“无论富贵贫穷,无论健康疾病,无论人生的顺境逆境,在对方最需要你的时候,你能不离不弃……你押几年?”

“全押,直到死亡将我们分离。”

“我跟。”

“……”

于是我俩愉快地拿走了台面的全部筹码,从此隐退江湖。

后续

妻:“你这是赤裸裸的抄答案啊,明明我们表达的就是同一个意思。”

我:“读书人的事怎么能叫抄呢?这叫英雄所见略同。”

妻:“你有没有觉得那天晚上有点像即兴宣读结婚誓词?”

我:“是哦,不如以后咱们结婚纪念日改成那天吧?”

妻:“纪念个屁,你什么时候记得。”

我:“这回我一定记得了,2024年11月23日。”

妻:“行吧,信你一次。刚好那天有四个证婚人。”

其他的话

之前工作上遇到了一些挑战,就在朋友圈里分享我的反思和解决步骤得到很多朋友的点赞和评论。这才发现原来不只我一个人遇到这些问题,原来那些看似复杂的问题往往都有很简单的解决方案,原来我神经病一般的絮叨也能够启发和帮助一些人。

我们的小狗离开之后,我最大的感触是:钱能解决的问题都不是问题,而钱解决不了的问题大概只有生死。

死亡是令人恐惧的,但是恐惧本身最惧怕被谈论。我和妻子从不避讳小狗的去世,我们讨论它诸如拉完屎会愉快蹭腿的小习惯,回忆它同我们睡觉的时候半夜翻身滚下床一脸困惑的糗事,我们会去探讨它的死因,理性分析如果再来一次我们哪里会做得更好。

于是它的离世似乎变得没那么难过——我们一起承担命运的暴虐无情,一起感激曾经能够拥有的快乐时光。

生死既然都如此,其它的事就更不用说了。

岂曰无衣,与子同袍。

如果辩论不是为了输赢,那还有什么意义?

“我们并不认知事物本身,而只认知事物通过我们的感官和理性所显现的样子。”

—— 康德《纯粹理性批判》

引子

因为几个“舞女”辩论,我的友谊险些翻船,爱情差点破产。

事情是这样的,我是个程序员,每当遇到和别人对某件事情意见不一致的情况,我就会像调试代码一样用对方能够理解的语言梳理问题的结构和我推断出结果的逻辑。在工作环境里,同事大多是理科生,因此这个方法无往不利,分歧基本上最后都能理性地解决。

我跟媳妇的沟通大部分情况也是如此。理想情况下,她会提出质疑,我不停解释,直到她被我说服从而达成一致——这其实就是一个辩论的过程。

这个方法在重大决策,比如涉及到买车、买房和投资策略的时候非常奏效,我们最后往往能够达成一致。但是偶尔我也会遭遇重大挫折,比如“内裤和袜子能不能一起洗”的问题——当我自信满满地完成论证之后,她只白了一眼:“你说的很有道理,但是我今天不想跟你说话!”用她的话说,“我只想跟你表达一个观点,你却总想教会我什么。你们男人就是这样爱说教!”这种情况下,虽然心里不服,我也只能以“听你的,别生气啦!”息事宁人,夹尾求饶。媳妇也都能很快消气,我们俩和好如初。

然而,“退一步海阔天空”并没有从根本上解决问题。在若干个不同场合的涉及性别平等议题的讨论中,我或者像我一样的“中年油腻男”们在唇枪舌剑的辩论中将“对方辩友”惹恼、甚至不欢而散之后,我开始认真反思如下问题:

  • 都说“真理越辩越明”,为什么一触碰到涉及性别的话题双方就难以辨明是非了呢?
  • 为什么本来温和的理科生之间的讨论会擦出怒火呢?
  • 理性解决分歧的唯一方式是通过辩论让一方将另一方说服吗?
  • 辩论如果最后不能分出输赢,是不是除了带来怒火之外没有提供任何价值呢?

于是我和媳妇对争议最大的几个话题进行了复盘,其中最有意思的一个辩论是发生在我和我的本科同学之间。当时我们由于对最近的两个体操世界冠军就直播跳舞一事在微博引发的风波态度截然不同而引发激辩。我们对这件事的理解差异之大,导致我们甚至不能够在如何描述这件事情上达成一致——

  • 我:退役运动员生活惨淡直播跳舞却遭道德批判与不公封禁
  • 她:前世界冠军自甘堕落跳擦边舞蹈举止轻佻封号实属活该

因此这种讨论一开始就剑拔弩张、针锋相对,甚至带上了一点情绪。看罢我们的讨论,媳妇大呼过瘾,说终于有人给她出了一口气——先前我们因为某个韩国女团有恋童癖嫌疑的出道专辑是否应该“封杀”产生过类似的争论,但是媳妇辩不过我。

幸运的是,这个讨论并没有停留于肤浅的人身攻击和性别对立层面。尽管我们最后都没有能够在支持和反对的立场上说服对方,讨论让我们从更高的层次认识了问题和分歧,而不在拘泥于原本立场的对错本身——这就是辩论应该带来的意义。

超越立场的对错

大部分人对辩论的了解主要来源于学生时期的“辩论赛”——正反双方就某个话题唇枪舌战。而其中最负盛名者莫过于当年的国际大专辩论赛,其经典战役《狮城舌战》参与者之后几十年的个人成就更是为其蒙上了传奇色彩。只可惜现如今辩论赛日渐式微,尽管几年前辩论综艺《奇葩说》一度爆火,却也不过昙花一现。

造成这种现象的原因是多方面的,但其中很重要的一点是:比赛要决出输赢的特性很容易让人把注意力都集中在打败对手——这个过程中辩论者受到辩论形式、时间、受众接受能力的限制,甚至还有收视率的的压力,往往会采取不合逻辑的诡辩、诉诸道德与情感等“技巧”,而没有深入挖掘问题的层次、分歧的根本或是去调和二者的矛盾,从而陷入鸡同鸭讲或者同义反复的低层次乏味讨论,实在是捡了芝麻、丢了西瓜,而日常的辩论更是容易陷入这种局面,甚至进一步引发人身攻击。

那怎么样算是超越立场的对与错呢?举一个简单的例子,下面这个动图叫做《旋转的舞女》:如果从头顶往下看,这个舞女应该是顺时针旋转还是逆时针旋转?

旋转的舞女

没有见过这个图的人大概率会觉得答案是显而易见的,得出结论就像在呼吸一样自然,直到发现有人的选择跟自己不一样。如果这是一个互联网讨论,事情大致会演变为双方各执一词,纷纷找来自己的支持者,吵得不可开交,甚至互相嘲讽——“蓝黑白金裙之争”便是一个例子。

而与旋转方向的讨论相比,一个更有意义的问题是:这个舞女抬的是哪条腿?这个提问跳出了讨论影子这个表象,开始探究造成这个影子的那个实质到底应该长什么样。如果更进一步探寻的话,人又为什么会看到不一样的旋转方向?

实际上,这个舞女的画面可以看作是一束光在穿过一个运动的三维模特后投射在其后方屏幕上的影子。由于所有关于“远近”的深度细节都已丧失了(例如,在某一时刻朝向我们的到底是胸还是背),所以旋转方向是不可判定的——两个镜像的三维模型以相反的方向运动可以得到完全一样的投影。下面的关公像及其影子能够很清晰的说明这一点: 关公

而人之所以会看到不一样的旋转方向,是因为潜意识中预设了雕像的样子,通过主观想象充实了模特是抬左腿或抬右腿这些细节,从而“推理”出雕塑的旋转方向,却对下意识中忽略的另一种可能性浑然不知。

如果把这个关公像的例子对应到放在每一个有争议的话题上面,那么

  • 是我们接受信息的来源
  • 影子是我们理解的话题题面
  • 抬哪条腿的假设来源于我们下意识的主观选择
  • 旋转方向是我们脑中快速推理出来的立场
  • 雕像之一是我们以为的“真相”

这个得出“真相”的过程是如此的自然,以至于我们毫不怀疑,甚至也不容他人质疑。然而,正如我们看到的这样,“事实”不止这一种可能性——如果进一步打破“雕像一直沿着一个方向旋转”和“雕像不可以突变”的潜在假设,可能性可以是无穷多的。

这个问题正是苏格拉底《洞穴寓言》的又一个诠释,是一代代哲学家们思考的终极问题之一,也是电影《黑客帝国》探索的主题——什么是真实的存在,如何透过感官的蒙蔽去追寻真相。

洞穴寓言

方法只有一个——理性思考。

正是在理性的逻辑的指引下不停地对矛原本盾的两个观点展开追问,我们才可以找到分歧的根源,从而接近真实的本体。如这个例子中那样,引导我们跳出原本“旋转方向”的争论的,正是那个“抬哪条腿”的疑问——它是我们发现了双方判断差异根源的线索,我们顺着它抬升了讨论的层次,从而得以借助理性找到了调和矛盾的新理论,刷新认知。物理学上这样的事情一次又一次地发生:光的波动性和粒子性矛盾由波粒二象性调和、电场和磁场借由麦克斯韦方程组统一、光速不变与经典力学相对性原理在相对论中和谐……世界的真相并不总是一开始就出现在我们的选项里,哪怕已有的二元选择似乎已经涵盖了逻辑上所有的可能性。

求同存异

说完了“旋转的舞女”,再说“擦边的舞女”。

“求同”的过程是艰难的,因为它除了需要大量的思考之外,还对参与者的表达有两个最基本的要求:

  • 能够清晰地表达观点
  • 可以遵循逻辑地论证

更何况,很多时候求同是不可能的——孔子路上遇到《两小儿辩日》,在当时的科学认知水平下,他们是不可能超越早晨或者中午两个选项去接近“哪个时候太阳离我们更近”的正确结论的。

但是,“求同”所求的“同”并非只有结论的一致,还有论证过程中局部认知的一致——彼此的这种认同越多,需要包容的“异”也就越少,接受对方迥异的选择也就更容易。

就这场“舞女风波”,我和同学在朋友圈展开了一天一夜的辩论,发表了几十条意见,大致总结下来的主要论证逻辑是:

  • 我:封禁她违反了“私权法无禁止即可为”和“公权法无授权即禁止”的法律原则,而舆论审判也损害了程序正义。
  • 她:前国家队员世界冠军沦为“擦边舞女”讨好男性,树立错误榜样,损害社会风气、导致女运动员甚至未成年人受到骚扰,而舆论纠偏保证了结果正义。

而后我们对“既有的身份是否应该导致更高到的标准”、“公权力是否参与”、“封禁是否应该有明确的标准”、“舆论作用的界限”、“舞蹈是否是造成社会风气的败坏于女性受到骚扰的原因”等一系列话题进行了详细的论述。虽然依然没有能够说服对方,但是在整个讨论的过程中我们梳理了对方和自身的逻辑,发现造成结论差异的原因并非源自截然相反的价值取向。

在这个话题中,“支持封禁”与“不支持封禁”是一个非此即彼的选择,就如“旋转舞女”的运动方向一样,然而背后支撑我们推理逻辑的价值选择却不是截然相反的:如果说封禁是对法制原则的破坏,不封禁是对女性特别是未成年女性权益的损害,那么就损害程度而言,我认为应该舍女性权益而保护法制的价值,她则反之。但是,这并不意味着我反对保护女性权益而她舍弃法制的价值,只是由于两人基于自身经历得到两种价值的重要性排序稍有不同——显然,我作为性别议题理论上的利益既得者,我对于追求性别平等的迫切性自然不如她高。从两个充满冲突的问题描述,聚焦到一个价值的排序而非取舍的问题,这本身就是一种趋同。

于是,我们只需要包容彼此价值排序中这个微小的差异罢了。实际上,存在这种价值排序的差异是好事,因为社会的全方面进步正是需要不同的人去推动,很多社会的改变都是由个人或团体从切身利益出发去推动的——如近年来高层住宅加装电梯的政策与落实、校车服务的推广覆盖,等等。

而我们之所以在辩论中容易带有情绪,有一部分是由于不理解对方完整观点而产生的误解:误以为对方否定结论的行为源自于他们对我们整个逻辑链条大部分环节的否定——而这其中往往牵涉到我们的习以为常、万分坚信的东西,包括常识和价值观。这是我们信念中最敏感的部分,因而会立即激起心理乃至生理上最激烈的反抗。

由此可见,耐心地倾听是多么的重要,然而这不是一件轻松的事。逻辑思考跟数学证明的本质是一样的,它有门槛,也十分消耗脑力。数学证明能力不是每一个人都具备,而数学考试结束后的那种疲惫感应该让大部分人印象深刻。因此,事无巨细刨根问底大概是行不通的,有些情况下“差不多主义”有可能反而是更好的选择。

正确地辩论

正如本文中所展现的那样,辩论并不只有辩论赛一种形式,它也可以是庄子《濠梁之辩》那样的一问一答,还可以是苏格拉底《申辩》那样的慷慨陈词,甚至可以是在线协作文档上的论证报告。

知乎有一个热度比较高的讨论叫做《你为什么讨厌辩论赛》。高票的几个答案总结下来只有一个原因——水平低:裁判水平低,选手水平低,观众水平也低。这的确是一个客观现实:在我的教育的经历中,从小学到高中就没有正经的逻辑学或者哲学入门训练,因此辩论赛绝大部分人都是根据吵架的经验本能地进行的。这种辩论受限于参与者的水平,有时候不免陷入各种逻辑谬误和鸡同鸭讲、车轱辘话来回说的局面——这种水平的讨论的确没有太多看点,也很难让人有什么收获。

优秀的辩论比赛首先要讲逻辑,在破题立论后,双方通过摆事实讲道理的同时寻找对方的逻辑漏洞竭力驳倒对方,而观众在这个过程中对问题的认识进一步加深了。华语辩论史上最经典的战役莫过于《2001年国际大专辩论赛决赛:金钱是不是万恶之源》。虽然依然是选边站,但是观众看下来的感觉就是先听了正方立论觉得很有道理,再听反方的驳论觉得也说得通。在进一步的辩论中,观众还能够从正反双方交战点找到分歧的核心——“‘万恶’到底是不是指全部的恶,如果不是,那怎么解释钱出现之前的恶和与金钱无关的恶?”至此,原本的问题已经得到了一个更高维度的诠释,所有人都从讨论中获得了新的思考角度观点,那么与之相比,由辩论技巧得分点而决定的输赢还有那么重要吗?

辩论赛需要临场的即兴演讲,我一辈子也达不到电视上那些知名辩手出口成章的水平。不过绝大部分场合我们有充足的时间思考并组织语言,因此辩论是每一个人都可以掌握的技能。合乎理性的辩论方式并不难学,只需要阅读《大问题:简明哲学导论》中的《导言:做哲学》与《逻辑准备》两个篇章获得理论基础,再研磨几场高水平的辩论并实践清晰的思考与表达,任何人都应该可以轻松上道。

结语

在本科入学的时候,我偶尔听同学抱怨“咱们计算机系学这么多哲学、历史、文化的通识课程有什么用?”我想,构建这篇文章的思考能力便是我的收获,让我受益终身,也算是“博学而笃志,切问而近思”之校训在我身上留下的痕迹吧。