如何理解语言学在科学领域中的基础作用和带头作用?

  摘    要:在主流的人工智能伦理学研究中, 很少有人意识到:将伦理规范的内容转化为机器编码的作业, 在逻辑上必须预设一个好的语义学理论框架, 而目前主流人工智能研究所采用的语义学基础理论却恰恰是成问题的。文章主张在人工智能与人工智能伦理学的研究中引入认知语言学的理论成果, 并在此基础上特别强调“身体图式”在伦理编码进程中所起到的基础性作用。依据此番立论, 并主张:机器伦理学的核心关涉将包括对人工智能的“身体”——而不仅仅是“心智”——的设计规范, 即必须严肃考虑“怎样的外围设备才被允许与中央语义系统进行恒久的接驳”这一问题。

  关键词:人工智能伦理学;认知语言学;认知图式;具身性;语义学

  作者简介: 徐英瑾,教育部长江学者奖励计划青年学者, 复旦大学哲学学院教授, 博士生导师, 主要从事认知科学哲学、人工智能哲学、知识论、维特根斯坦哲学等研究。

  基金: 国家社科基金一般项目“自然语言的智能化处理与语言分析哲学研究” (13BZX023);国家社科基金重大项目“基于信息技术哲学的当代认识论研究” (15ZDB020)。

  随着人工智能技术的日益发展, 对于此类技术产品的伦理学考量也逐渐进入学界的视野。概而言之, 与人工智能相关的所有伦理学思考, 都在国际学界被归入“人工智能伦理学” (ethics of Artificial Intelligence) 的范畴, 而这个学科分支本身又可分为两个小分支:“机器人伦理学” (roboethics) 与“机器伦理学” (machine ethics) 。前者的任务是对设计机器人的人类主体进行规范性约束, 而后者的任务则是研究如何使得人类所设计的人工智能系统在行为上具有伦理性。这两个分支彼此之间既有分工上的分别, 又有微妙的联系。两者之间的差别体现在:“机器人伦理”直接约束的是人类研究主体的行为, 而“机器伦理”直接约束的是机器的行为。两者之间的联系又体现在:不通过“机器伦理学”, “机器人伦理学”的指导就无法落地;而没有“机器人伦理学”的指导, “机器伦理”的编程作业也会失去大方向。

  不过, 在当前人工智能伦理学研究中, 很少有研究者意识到此类问题实质上乃是某种深刻的语言哲学-语言学问题的变种, 而不能就事论事地在应用伦理学的层面上被谈论。而笔者的相关判断又是基于如下考量:如果我们要把用自然语言表达出来的伦理学规范———如著名的“阿西莫夫三定律”———转换为能为机器识别并执行的程序语言的话, 我们就必须对人类的语言运作的本质有着一种预先的理论把握;而语言学家与语言哲学家对于人类语言机制的不同理解, 则显然又会导致对于上述问题的不同解答方式。

  此外, 也正因为一般意义上的语言哲学-语言学问题在人工智能伦理学研究中的边缘地位, 认知语言学关于“具身化”问题的见解也相应地被边缘化了。很少有人工智能伦理学方面的讨论触及如下问题:伦理编程问题不仅仅牵涉软件的编制, 而且还将牵涉“怎样的外围设备才被允许与中央语义系统进行恒久的接驳”这一问题。也就是说, 依据笔者的浅见, 机器伦理学的核心关涉将包括对人工智能体的“身体”———而不仅仅是“心智”———的设计规范。而为了支持这一看似“非主流”的观点, 本文的讨论将始自于对如下问题的“务虚”式讨论:为何伦理学必须具有“具身性”?

  一、从伦理学的“具身性”说起

  “具身性” (embodiment) 本是一个在认知哲学领域内使用的术语, 其主要含义是指:人类认知的诸多特征都在诸多方面为人类的生物学意义上的“身体组织”所塑造, 而不是某种与身体绝缘的笛卡尔式的精神实体的衍生物。如果我们将这样的观点沿用到伦理学领域之内, 由此产生的“具身化伦理学”的核心观点便是:伦理学规范的内容, 在相当大程度上便是为作为伦理主体的人类的肉体特征所塑造的。换言之, 伦理学研究在相当程度上必须吸纳生物学研究的成果, 而不能将自己视为与“肉体”绝缘的“纯精神领域”。

  应当看到, 将“具身性”与伦理学相互结合的观点, 并不是西方伦理学研究的传统路数, 甚至还与该领域内的思维定式相左。譬如, 柏拉图就曾将“善”的理念视为超越于可感知的物理世界的最高理念, 而康德则将道德律令视为某种凌驾于肉身领域的“绝对命令”。但随着演化论等自然科学思维范式逐渐进入伦理学领域, 越来越多的具有自然主义倾向的伦理学家开始注意到了伦理学自身的生物性根基。正是基于此类考量, 英国生态学家汉密尔顿 (William Hamilton) 在1964年提出了所谓的“亲属选择模型”。[1]根据该模型, 在假定甲、乙两个生物学个体之间具有一定的遗传相似性的前提下, 只要这种相似性与“乙从甲获得的好处”之间的乘积能够抵消“甲自身因帮助乙而遭到的损失”, 那么, 使得互助行为可能的那些基因就会在种群中传播 (这一规律, 也在科学文献中被称为“汉密尔顿律”) 。或说得更通俗一点, 依据汉密尔顿的理论, 道德的生物学起源, 很可能就是与“通过亲属的生存而完成家族基因的备份”这一隐蔽的生物学目的相关的。需要注意的是, 汉密尔顿所给出的这种对于道德起源的描述看似抽象, 其实已经触及“身体”对于伦理学的奠基意义。譬如, 前述“汉密尔顿律”的起效, 在逻辑上已经预设了一个生物学个体有能力将别的生物学个体识别为其亲属。而要做到这一点, 辨认主体若不依赖于被辨认对象的身体形态的识别, 则几乎是难以想象的。从这个角度看, 道德意义上的“共情感”很可能便是以道德主体之间在身体方面的相似点为前提的。

  对于上述的理论描述, 有的读者或许会问:汉密尔顿的“亲属选择模型”又将如何解释人类对于非亲属的其他人所产生的同情感呢?实际上答案也非常简单:“基因的相似性”实质上是一个针对特定参照系才能够成立的概念。若以其他物种为参照系, 整个人类都算是一个巨大的亲属组织, 因此, 你与地球上任何一个需要别人帮助的人之间都有着某种基因上的关联性。而按照“汉密尔顿律”, 只要这种关联度与“被帮助者从你这里获得的好处”的乘积能够大于“你因为帮助他而遭到的损失”, 那么利他主义行为就可以被激发。而在很多情况中, 对于陌生人的很多帮助形式———譬如在网上向受灾群众捐献10元———所需要付出的生物学资源其实是微不足道的, 这就使得“汉密尔顿律”所规定的相关条件在数学上变得容易被满足 (换言之, “大于”左边的乘积实在太容易超过其右边的数值了) 。或再换一个更通俗的说法:廉价的“助人为乐”行为的传播之所以并不是很难, 就恰恰是因为这些行为自身所消耗的资源不多;而与此同时, 人与人 (尽管很可能彼此是陌生人) 之间在身体层面上的起码的相似点却已经足以激发出微弱的“好感”, 以便催生那种微弱的利他性行为。与之相对应, 代价不菲的利他主义行为却往往是建立在被帮助者与帮助者之间较密切的亲属关系之上的, 并经由这种亲属关系所提供的更为强烈的“亲近感”驱动。

  不过, 笔者也承认, 上述这种基于生物学考量的道德起源学说, 并不能对人类所有的人际行为做出充分的描述, 因为作为自然存在者与社会存在者的合体, 人类的具体行为在受到生物学因素的制约外, 还会受到社会-文化因素的制约与影响 (譬如文化、生产方式、政治理念、宗教等因素对一个人的“亲密圈”的重塑效应) 。但即使如此, 生物学方面的考量依然会构成“文化重塑活动”的基本逻辑空间;换言之, 文化重塑的方向本身必须首先是“生物学上可能的”。意识到这一点的美国哲学家麦金太尔便在《依赖性的理性动物》一书中, 特别强调了伦理学研究与生物学研究之间的连续性。他指出, 如果我们将伦理学视为对人际关系根本规范的研究的话, 那么, 我们就无法忽略使得此类人际关系得以存在的下述基本的生物学前提:人类是一种离开了群体生活就必然会灭亡的物种, 因为人类的身体具有一种生物学意义上的脆弱性。“我们是否能够存活, 在相当程度上取决于别人 (更别提繁衍了) , 因为我们经常遭遇如下困难:身体疾病或伤害、营养不足、精神疾病与困扰, 以及来自于别人的入侵与无视……”[2] (P1) 也就是说, 按照麦金太尔的观点, 人类道德规范中最为基本的那部分———如尊老爱幼、帮助弱小, 等等———都是对于某些最基本的生物学需要的“再包装”, 而不是脱离于人类的生物学实际的纯粹的“文化发明”。由此不难推出:如果在另外的一个可能世界中的人类的生物学习性与现有的人类不同 (譬如, 那个世界中的人类会像螳螂那样在交配之后吃掉“新郎”) , 那么, 我们也就没有理由期望他们的道德规范内容与我们的道德规范基本一致了。

近来,人工智能(AI)行业利好消息不断,各大巨头都在积极拼抢这个领域的人才,笔者最近也频繁收到相关方面的咨询和讨论,不得不说,有时候大家真的搞错。人工智能是个非常大的概念,囊括了几乎所有学科,并非单纯计算机、通信、声学、光学等领域,也并非热炒的机器学习(例如深度学习和强化学习)就能实现的。然而,基于大数据和机器学习的狭义人工智能,确实已经给人类生活带来了巨大的变化,比如搜索、电商、广告、社交、语音等等。

一直以来,人们似乎都把语音识别看的极其重要,并认为语音识别就是最接近人工智能的领域。实际上这是一个误区,语音和按键、触摸、手势等方法一样,只是人类交互的一种手段。也有很多人认为语音帮助人类产生了智慧,然而,这一观点并没有有力的证据支撑。目前,这方面的基础研究还没有实质性的进展,我们对人体精密构造的认知还是非常浅薄的,至于智慧更是几乎一无所知。唯一能推断的就是,语音交互确实是我们获取知识的一种重要手段。

鉴于以上的认识和误解,笔者认为应该写篇这方面的科普文章,虽然笔者也不精通这个领域,但是我们可以从底层声学这个范畴来思考和讨论一下人工智能相关的概念,确实这方面通俗易懂的资料太少了,也希望更多学术和产业领域的大牛们来指正和探讨。

在此,笔者要先摆明自己的观点,目前人工智能的相关应用中,语音识别并非是关键点,而且语音识别也并未给我们生活带来多大变化。语音识别经过十多年的高速发展,特别是结合深度学习的融合发展,目前的精度已经相当高,然而达到99%以后,再提升就显得非常困难。但为什么语音识别的精度到达如此程度,我们却对其仍然不满意呢?其实,这和语音识别的关系不大,是我们误把语言理解的概念强加给了语音识别。实际上,语音识别只是人工智能中的一个小学科,现在也可以算是深度学习中的一个分支。类似于人类,语音识别至多是我们听觉系统内的一个神经单元,只负责将语言转化成人类可听到的信号激励,若在计算机应用中,就是转化成我们常说的文字。

那么关键点在哪?从各大巨头发布的宣传资料和介绍的相关信息来看,实际上大家都在追求:自然语言处理(Natural Language Process,NLP)或者说自然语言理解(Natural Language Understanding,NLU)的突破。当然,这也是得益于基础声学和语音识别的巨大进步。基础声学和语音识别解决的是计算机“听得见”的问题,而NLP实际上就是要解决计算机“听的懂”的问题。这么看来,“听的懂”才是目前十年内最为关键的问题,下面,笔者就NLP的概念以及国内外的学习资料进行盘点与分析。

我们首先要明确一下语音和语言的区别,这是一个基础性的问题。语音(Speech)是语言(Language)的信号载体,语音是人的发音器官发出的,承载一定的语言意义,而语言才承载人类的智慧。通俗的讲,语音是天生就存在的,婴儿的咿呀咿呀也算是语音,甚至其哭声也代表一定的意义,而语言则是需要学习不断进化的。

人类的进化为什么自然的选择了语音作为交互的手段?一般认为,是因为语音有着得天独厚优越性,比如声音比光更容易传播,而且不受昼夜变化影响,同时也有更广的传播范围。当然,也有许多科学家提出反对的声音,比如很多动物的听觉实际上比人类更为发达,为什么却没有进化出来语音交互呢?这个问题我们暂时放到后面文章探讨,事实上动物界中的很多动物也会发出一定的声音来进行信息的交互,但是仅有语音交互是不够的。

单独强调语音,而不说语言实际上没有任何意义的。当然语言也不仅是只有语音这一种载体,语音是不好保存和搜索的,所以人类还发明了文字这个神奇的东西。文字却又是通过视觉来感受的,不过文字也仅是帮助我们映射而已。象形文字刚开始的时候,还和视觉有直接的关联。后来,不论是汉语,还是其他语言基本上都进行了抽象,与听觉以及视觉的关联不再明显。到此为止,语言就已经完全抽象出来,和我们所理解的概念相关了,已经远远超过了语音、图像等识别的概念,甚至数学也成为了我们的一种语言。

因此当人类使用语言来存储知识和表示概念的时候,计算机和机器人也就必须学会适应这种方式。也就是说,计算机和机器人在未来的趋势中,必然是理解语言这个极其复杂而又承载人类知识传承的表达方式。但是,做到这一点是极其困难的,虽然我们看到了很多的进展,但是,机器理解语言在短期内还无法看到实质性的突破。这个领域需要更多优秀的人才加入,笔者写这篇文章目的也是这个原因,人才的涌入才会带来希望,至少我们不断的积累总会带来些许进步。

如何描述和定义NLP?

事实上,自然语言处理(NLP),或者说自然语言理解(NLU),或者说计算语言学(CL)很难有个准确的定义。1999年美国计算机学家Bill Manaris曾这样描述:自然语言处理是一门研究人与人交际中,以及人与计算机交际中的语言问题的学科。自然语言处理(NLP)研究表示语言能力、语言应用的模型,通过建立计算机框架来实现这样的语言模型,并提出相应的方法来不断地完善这样的语言模型,还要根据这样的语言模型来设计各种实用系统,并探讨这些实用系统的评测技术。笔者认为这个概念定义的比较准确,但又太过泛泛了。所以,很多时候我们仍然非常迷惘,然而这没有问题,因为语言本身就是我们人类最为复杂的概念之一。

这些年NLP的研究得到了前所未有的重视并获得了长足的进步,逐渐地发展成为一门独立的学科。而NLP又与基础声学、语音识别等技术互相渗透,而形成了众多新的研究分支。而这些分支的发展也在大众中混淆了概念,大家干脆就把语音识别理解成了我们上面所啰嗦的那么多内容。

NLP涉及哪些研究内容?

entailment)等等,其中,基础声学和语音识别等相关学科也可以纳入这个研究范畴。

自然语言理解研究的目标自然是希望通过图灵测试,包括了语音、形态、语法、语义以及语用等方面,也要解决人类语言中的因果、逻辑和推理的问题。这是非常重要的,我们知道大数据仅仅是代表了历史的规律和预测的趋势,如果没有因果关系和逻辑推理,计算机和机器人就始终无法为人类提供可参考的建议,甚至是决策。

NLP当前难点都有哪些?

这个就太多了,上面我们提到过了,人类的语言融合了语音和文字,实际上也是听觉和视觉的融合,不是割裂开的。但是,现在这两个学科却是互相独立的,人为造成了这种研究的困难。另外,人类的语言多样化,每种语言的表达方式也千差万别。理想主义甚至认为人类的很多语言知识是与生俱来的,这个说法也有一定的实验支持,声学在线曾经报道过这方面的进展。不过,即使经验主义也是认为语言是通过感官和人脑的联想与抽象得来的。这是个大问题,因为这让很多研究人员没有了思路,科学的进展最怕这种困难。很多时候,我们还都把科学的进展归结为哲学的进步,没有了思路也就很难找到突破点,这需要基础研究的进展。

当然NLP现在实际的技术困难还是语义的复杂性,包含因果关系和逻辑推理的上下文等。现在解决这些问题的思路主要还是深度学习(Deep Learning)。深度学习带给了研究人员一种全新的思路,这倒不是最新的,BP神经网络刚兴起的时候,学术和产业界也是非常热闹,因为当时的研究人员认为总算找到了思路,后来BP神经网络几乎没啥实质进展,渐渐的就冷了很长一段时间。深度学习拓展了神经网络的层次,而且大数据的积累和并行计算的增强则给这种方法奠定了基础,这也是最近机器学习非常火热的原因。因此基于大数据、并行计算的深度学习将会给NLP带来长足的进步,但是若想达到人类的这种理解层次,恐怕仅靠这种方法也很难实现。

NLP学习的参考资料有哪些?

笔者一直在说自然语言理解的问题,文字还是最为重要的知识传承方式,因此自然也要提供些参考资料给大家,但是这个领域的科普书籍实在太少了,笔者也只能推荐一些书籍、网上资料给大家参考学习,姑且先把这篇文章作为入门科普的参考吧。

首先,笔者建议还是要先看斯坦福大学的视频学习课程,哥伦比亚大学的视频学习课程也不错,只是这些课程还是英文的,国内也有几位老师的公开视频可以参考,比如宗成庆老师或者关毅老师的自然语言理解课程,冯志伟老师的计算语言学课程都还不错。微信上不方便放链接,感兴趣的朋友就到我们声学在线的网站上直接点击链接吧。

LanguageProcessing》,已经出第二版本了,也是国内外的主要教材。这两人还写了几本相关方面的书,都还不错,亚马逊等一些线上平台搜索一下就能查到。国内也有冯志伟老师翻译的《自然语言处理综论》可以参考。数学基础稍好的还应该看看《数学之美》(吴军)和《统计学习方法》(李航),计算机编程稍好的更应该看看《机器学习实战》(Peter

NLP都有哪些知名研究机构?

笔者通过声学在线的众多朋友汇总了一些信息,可能不是很全面,不足的地方还请各位批评指正,这些研究机构(排名不分先后)包括:斯坦福大学自然语言处理研究小组,卡内基梅隆大学语言技术研究院,哥伦比亚大学自然语言处理研究组,约翰霍普金斯大学语言和语音处理研究组,康奈尔大学NLP研究组,宾夕法尼亚大学NLP研究组,伊利诺伊大学香槟分校NLP团队,南加利福尼亚大学自然语言研究组,爱丁堡大学语言与计算研究所,谷歌苏黎世研究院,亚马逊NLP研究组,香港科技大学NLP实验室,中科院计算机所自然语言处理研究组,北京大学计算语言学研究所,清华大学人机交互与媒体集成研究所,中科院声学所语言声学与内容理解重点实验室,中科院自动化所模式识别重点室,百度自然语言处理部,中科大人机语音通信研究评测实验室,哈尔滨工业大学计算机学院智能技术与自然语言处理研究室等。

总之,自然语言理解随着深度学习的发展,还是看到了很多进展,但是NLP所需要解决的语言问题真的是非常复杂,近期内还是难以有所突破。正因为有这些挑战,才更需要更多有才华的人才持续不断的投入这个行业,而且这是未来数十年的新兴行业,现在刚毕业的优秀学生都有可能拿到50万的年薪,其经济收入将是很可观的。当然这也是个问题,虚高的投入或许会给这个行业带来一些阻碍。

我要回帖

更多关于 认知语言学的研究领域 的文章

 

随机推荐