通过 吉列梅·普雷格*
自然语言聊天机器人的使用将趋于强化并获得越来越有趣的内涵
公司最受关注的Chat-GPT 打开AI 和其他最先进的聊天机器人能够通过图灵测试吗? 了解此测试将有助于避免与采用这些新技术工具相关的错误。
图灵测试是 1950 世纪最著名的思想实验之一,它是由数学家艾伦图灵在 XNUMX 年的一篇论文中提出的,论文名为 计算机器与智能.[I]的 在此,数学家通过尝试回答机器是否可以思考来开始他的论证(“机器能思考吗?”)。 然而,艾伦图灵从一开始就承认这个问题是不明确的,因为术语“机器”和动词“思考”都不准确。 因此,他没有给出问题的答案,而是提出了一个“模仿游戏”形式的心理实验(模仿游戏). 换句话说:游戏是回答所提出问题的启发式程序。
然后游戏从预备阶段开始,在这个阶段,男性 A 和女性 B 将接受审问者 C(可以是任何性别)的提问。 审问者 C 必须处于他既看不到 A 也看不到 B 的位置。他必须发出打字的问题并以同样的方式接收答案。 问题应该是日常的和简单的,询问者应该根据回答来猜测回答者的性别。 他有时是对的,有时是错的。 于是数学家问:如果我们用机器代替答题者 A 会怎样? 在这种情况下,审问者 C 必须不再区分男性和女性的反应,而是区分人类和机器的反应。 在这种情况下,C是否会保持之前情况的错误级别? 根据艾伦图灵的说法,这些问题取代了机器是否可以思考的原始问题。
在这个实验中重要的是,数学家没有提出哲学问题的答案,而是将其转移到另一个“模仿”原始问题的“相似”问题,但在一个可以回答的上下文中一台机器。足够强大(当时还没有)。 在同一篇文章中,艾伦图灵指出,“图灵机”模型(即当代数字计算机的抽象、正式模型)可以作为候选测试参与者,如果它有足够的内存,可以互换地替换 A 或 B和处理能力。
游戏场景的描述相当简单和快速,但在文章的其余部分,艾伦图灵建议回应一系列对测试的可行性或真实性的反对意见(总共 9 个)。 我不打算在这里总结这些反对意见,[II] 但首先值得注意的是它可能存在的性别偏见:初步步骤(没有机器)旨在消除的正是性别偏见加剧的可能性。 如果存在明显的性别偏见,首先,审讯者会稍微失误(也就是说,他最终会发现这种偏见); 其次,测试将变得更加复杂,因为它必须区分“女性智力”和“男性”智力。 有趣的是,当机器“进入”游戏时,图灵最初提出替换男性受访者(A),好像实际上是女性(B)更完美地“模拟”了一种通用的人类语言.[III]. 换句话说:为了使测试有效,有必要假设一种通用的人类语言。
最后,在回答了异议之后,艾伦图灵以一些基本的思考结束了他的文章,这些思考与当前自然语言聊天机器人的问题产生了共鸣。 第一个是测试可行性是一个纯粹的编程问题,即简单地找到一个有合适程序的图灵机(数字计算机)来参与测试。 这位数学家甚至假设到 XNUMX 世纪末这将成为可能。 A
第二个思考是他提出了一个假设,即有资格参加测试的机器将属于“学习机”类型(学习机). 然后提出另一个问题:与其尝试制作一个模拟成人思维的程序,不如尝试制作一个模拟儿童思维的程序? (“与其寻找一个模拟成人思维的程序,为什么不制作一个模仿儿童思维的程序呢?”)。 这位数学家甚至认为,审讯者的作用是模仿自然选择在物种认知发展中的作用。 换句话说,一台打算通过图灵测试的机器应该是这样的,它必须开发一种“机器学习”,然后提交给连续的测试以进行改进(改进) 你的编程。
正是从这一点开始,我们回到了 Chat-GPT。 我们观察到具有语义响应能力的聊天机器人遵循“语言范围模型”(大型语言模型 – 法学硕士)。 这些是使用神经网络处理自然语言(NLP-Natural Language Processor)的语言模型。 GPT 又是一个预训练的生成转换器(发电机预训练变压器). 它具有生成性,因为它由于神经网络的非线性特性而呈现出“紧急能力”,这是不可预测的。 变压器(变压器)是一种“深度学习”技术(深入学习).
在这方面,阿兰·图灵的直觉被证明是深远的,他预测能够通过图灵测试的程序应该具有学习能力。 然而,对于图灵来说,学习应该受到监督,而这些新的人工智能 (AI) 模型能够进行自我学习或自我监督学习。 面对数量庞大的参数(数十亿级),LLM 开发了回答问题的能力(查询) 写在 提示 通过自然语言,让我们看到令人印象深刻甚至令人惊讶的结果。
这种惊讶来自于 LLM 创建的聊天机器人实际上似乎成功通过了图灵测试。 任何测试过 GPT-4 版本的人 打开AI 面临着与软件“对话”的能力,就好像它是在对话者在场的情况下一样。 换句话说,该软件通过再现他的自然语言,非常逼真地模拟了人类对话者的认知。[IV] 图灵在他的文章中回答的一些反对意见与这种效果有关。 其中一个被图灵称为“洛夫莱斯夫人的反对意见”[V]”:计算机(她称之为“分析引擎”)缺乏独创性,因为它只遵循预先编程的指令,也就是说,它不能产生任何新东西。 “它无法让我们感到惊讶”,图灵改写道,然而,他反驳了这一立场,指出计算机可能会让人感到惊讶,因为我们无法预测算法的所有结果,即使它们以更简单的方式编程方式. 比法学硕士。 在 Chat-GPT 和类似的情况下,令人惊讶的效果包含在术语“生成”中,事实上,当在不同时间回答相同的问题时,软件会给出完全不同的答案。
这不仅仅是因为嵌入在其编程中的神经网络的非线性效应,而是因为它自己的数据库(互联网 万维网 完全)在任何时候都在变化,软件本身在每次询问甚至没有询问时都在“学习”新信息,因为它不需要“大师”,因为它“自我教育”。
LLM 的人工智能让我们大吃一惊,因为它能够为以自然语言(卓越的人类语言)提出的给定问题选择正确的语义框架。 它优于大多数能够在单个集合中选择备选方案的算法。 在选择框架时,LLM 聊天机器人可以选择一组替代方案来模拟人类智能的能力。 但与此同时,在选择镜框时(帧),聊天机器人也更清楚地揭示了语义偏见。 因为,在选镜框的时候,马上就会产生一个问题:为什么选这个,不选另一个?[六]?
使问题变得更加困难的是,偏见的证据使软件更加“人性化”,因为,尤其是在数字社交网络中,我们总是观察到偏见、意识形态立场、确认偏见的存在,这些偏见是最复杂的。[七] 正是因为它给了我们关于给定主题的“非中立”答案,这似乎更“可信”并且可能与“普通”人类对话者的反应相混淆。[八]
同时,很多系统用户经常会“耍花招”来欺骗软件,有时甚至会“落入”圈套。 其中一个例子是由当代最伟大的信息哲学家之一 Luciano Floridi 完成的,他将 Chat-GPT4 提交给这个问题:“Laura 的母亲的女儿叫什么名字?”。 该软件没有回应,声称它没有关于个人的信息。 尽管这位哲学家多次尝试,但该软件拒绝了答案,称它需要更多信息。[九] 这种通常给孩子们的测试(“拿破仑的白马是什么颜色?”)让人想起艾伦图灵在同一篇文章中的另一个观察,即“学习机器”可以像孩子的大脑一样被编程并且很少“礼貌” . 然而,即使在这些欺骗练习中,软件的行为也是“奇怪的人类”(不可思议的人)[X] 正是因为他像人类代理人一样陷入了欺骗。
另一方面,在公司自己进行的测试中 打开AI,据报道,GPT-4 版本试图诱骗一名人类工作者试图联系他进入临时服务站点(TaskRabbit). 直接消息要求该工人执行“验证码”,图标识别,进入该站点,很快就怀疑该消息是被一个 机器人; 然后问他是否真的在和人类代理人交谈。 GPT-4 被指示避免暴露自己是软件,并回答说它是一个人类代理,但它有视力问题,无法验证 验证码 通过它自己。 工作人员随后将 验证码 而不是软件。 根据开发商公司自己的说法,这项测试的有趣之处在于 GPT-4 表现出“人类水平的表现”,研究的目的是找出它是否具有“寻求权力”的特征(寻求权力) 和制定“长期计划”的能力。[XI]
在这种情况下,图灵的问题就变得更加现实和紧迫:这等同于说软件是智能的吗? 甚至是最强的假设:这是否等同于说他在思考,他有意识? 为了达到目的而说谎、欺骗的能力不正是人类认知的一个特征吗? 这个问题已经在阿兰图灵在他的文章中回答的另一个反对意见中指出,该反对意见提到了意识问题。 随后,他回应了一位教授的说法,即仅仅处理语言符号来写十四行诗并不等同于有作诗的意识,因为这种诗歌行为涉及语言所承载的感受和情感。[XII]
换句话说:人工智能可以巧妙地组合自然语言的符号,但这并不等同于声称它知道自己在做什么。 后来,语言学家约翰·塞尔在另一个名为“中文屋”的思想实验中再次坚持了这一点。[XIII]. 对塞尔来说,意识需要意向性,而不仅仅是符号语言的处理。
艾伦图灵回应了这一反对意见,他说,然而,在任何通常的对话情况下,不可能知道另一个对话者在表达自己时的感受,除非他是同一个对话者,因此,没有必要承认这样的假设,接受检验的有效性。 这种图灵解释对于评估像 Chat-GPT 这样的软件有很大的相关性,并且可以扩展到整个更广泛的人工智能主题。 目前对该计划的许多反应,尤其是那些更像是世界末日的反应,表明 LLM 的 AI 正处于变得有意识的边缘(如果它还没有),这一事件被概念“奇点”。
用自然语言进行认知反应的能力已经模拟了人类的语言表达水平。 智人 并通过扩展他们的心理反思能力。 在最悲观的预测中,风险在于“生成型变形金刚”变得比人类更聪明。 这最初将在工作领域产生巨大的影响,人工智能可以有利地取代大多数智力人类活动。 然而,在更深层次上,“有意识”人工智能的创造将对人类特殊性的自我形象造成冲击,这种自我形象认为人类学理性优于其他自然或人工生物的认知(同样具有神学意义)宗教信仰的后果)。宣扬人与超然神灵之间的相似性)。
这是一种在滥用“智力”概念时已经存在的混淆,因为我们认为这是一种指心理认知能力的品质。 在这方面,艾伦图灵的立场很有启发性,因为对他来说,人类意识对观察者来说是不透明的。 因此,我们不能将意识比作计算机程序。 事实上,LLM 的 AI 执行的任何操作都与生物的心理过程非常相似。 以算法方式通知机器的神经网络是计算模型。 生成型转换器所使用的“记忆”是通过互联网搜索的数据库,与生物的记忆过程完全不同,这些过程是根据其在更复杂的生态环境中的经历形成的。 因此,我们必须永远记住,图灵提出的实验是一种模仿测试。 这位数学家提出的是考虑一个程序是否能够对问题和答案的交际情境进行可信的模仿。
争论的主要问题是意识和交流的区别。 甚至艾伦·图灵 (Alan Turing) 也没有想到的是,它们是不可通约的域(但并非不相容)。 交流行为不是良心行为,良心行为也不会“转移”到交流中。 图灵测试可以验证的是模仿一种交流行为,而不是一种意识行为。 在说话者的意识中发生的事情对于对话者来说是深不可测的,因此是无法模仿的。 在计算机科学术语中,我们可以说意识是“不可简化的”,也就是说,它不能被计算机程序模拟。[XIV] 从那里我们了解到聊天机器人恰恰是“聊天”,即对话,而不是“思维机器人”。 正如研究员 Elena Esposito 所说,算法模拟的是交流过程,因此应称为“人工智能”而不是“人工智能”。[Xv的]
从认知分析转向对话分析,这是一种视角的改变,甚至是范式的改变。 首先,这使我们能够停止提及模糊或不可观察的人工认知过程。 其次,因为在会话范式中,我们将观察者作为交际行为的参与者。 通过“提示”注册的对话(聊天)模拟了观察者与机器的交互,而正是这种交互是批判性分析的对象。 就所有意图和目的而言,逻辑测试和机器引导的信息搜索,无论是否合理,都与社交互动有关。 有了这个,问题的焦点就改变了:我们不再想知道机器的认知能力有多强,而是人类代理人和控制论代理人之间的对话有多“可信”。
逼真度的概念在这里被精确地使用,因为它涉及艾伦图灵放置他的游戏的模仿环境。 聊天不会再现真实的对话,而是模拟(模仿)它。 使用 Chat-GPT 界面搜索信息的人工代理与机器交互,就好像他在与机器交谈一样。 在这种情况下,他就好像在使用一个“门户”与整个互联网网络进行通信(万维网) 并且该软件是该网络的代言人,几乎就像希腊神庙中古老的狮身人面像神谕一样。[十六]
就像那些日子一样,软件的响应具有一种我们现在理解为复杂的神秘品质。 这种复杂性源于这样一个事实,即机器可以访问其明显屏幕表面背后的大量数据,这对于人类代理来说是不可想象的,但是,然而,这并没有什么超自然的。 万维网上数以百万计的可用数据库充当“隐藏”在软件明显界面后面的巨大控制论设备的潜在(虚拟)基础结构层。
但实际上是人类代理和机器代理之间发生的对话吗? 或者,换句话说:模拟对话真的是真实的吗? 这是最有趣的研究课题之一,因为有效代表的是人类主体与控制论装置之间的相互作用。 询问者有需求,装置以自然语言的结构化文本响应该需求。 这种语言在这里用作主体-机器耦合的语言结构。 从这个角度来看,情况与使用普通编程语言进行交互并没有太大区别,只是自然语言要复杂得多。
最大的区别在于,编程语言试图将与机器的交互简化为单个代码,而自然语言不能用单个代码来表达,相反,它是许多代码的组合。 在通常的对话中,两个对话者试图相互调整他们使用的代码,以便交流成功。 在LLM的AI案例中,软件需要做这个调整,这就是我们所说的“语义框架”。 这种情况下的复杂性(复杂性)要高得多,但这不会改变所模拟情况的性质。
我们可以通过说明新的语义接口增加了控制论装置的反身性程度来理解这种新情况。 但在使用“反射”一词时,我们绝不能再次将其与意识概念混淆。 自反性在这里意味着机器正在向我们提供更复杂的人机交互画面。 该图像目前通过书面语言的“提示”来表示(将来还会有其他表示方式)。 它是互动的形象,而不是对话者的形象。
就像一面镜子,映出一对舞者的舞姿,却映不出舞者本身。 在这里,我们可以使用著名的控制论创始人、数学物理学家诺伯特·维纳 (Norbert Wiener) 的概念,他区分了具象图像和操作图像。 具象形象是我们在绘画或照片中常见的形象,而操作形象则是对一个过程的抽象表现。 维纳做出这种区分恰恰是为了质疑人工智能必然呈现拟人化形式的观点。[ⅩⅦ] 因此,界面反映的图像是交互的说明,而不是对话者的图像,更不用说机器了。
但问题仍未得到解答:它是对话还是人机之间的真正对话? 也许这个问题恰恰是“不可判定的”,但我想用另一个位移来结束这个思考。 让我们记住,艾伦图灵将最初的问题(机器是否思考)转移到了“模仿”的领域。 但我想转移到表达的另一面,即运动场(游戏). 自然语言聊天机器人的使用将趋于加强(毫无疑问)并获得越来越有趣的内涵。 当我们与软件交互时,我们就像在玩数以千计的不同软件一样玩这台机器。 游戏. 这些游戏仍然是训练和机器学习的形式。
此处使用游戏概念来产生迭代符号组合。 而且游戏实际上并没有停止成为一种人类交流方式。 但玩聊天机器人并不一定意味着玩或对抗机器代理。 我们在玩自己,机器会返回(反映)正在玩游戏的图像。 这场比赛的参与者不是隐藏在装置内的人造人或控制论恶魔,而是一个庞大的人类集体,在最多样化的界面中记录其多种互动。
* 威廉·普雷格 是一名工程师。 本书作者 科学寓言:科学话语和思辨虚构(埃德。 语法).
笔记
[I]的 该文章可在以下地址获得: https://web.archive.org/web/20141225215806/http://orium.pw/paper/turingai.pdf.
[II] 这些异议在与测试相对应的维基百科条目中得到了很好的描述: https://en.wikipedia.org/wiki/Computing_Machinery_and_Intelligence#Nine_common_objections.
[III] 然而,在文章的后面,图灵提出了另一种情况,使用图灵机代替任何受访者。
[IV] 正如我们稍后将看到的,这并不意味着软件总是能准确地回答问题。 响应中出现的信息错误是模型的“预期”效果。
[V] 那恰好是艾达·洛夫莱斯 (Ada Lovelace),拜伦勋爵的女儿,她被认为是历史上最早的程序员之一。
[六] 这种偏见的证据在最近围绕社交网络的一个例子中很明显:一位对话者询问 Chat-GPT 他可以在哪里找到盗版电影来下载和观看电影而无需付费。 聊天机器人回答说看盗版电影是违法的,并建议对话者寻找授权的流媒体平台并支付放映费作为对内容制作者的报酬。 它还列出了他不应访问的盗版平台。 在这种情况下,聊天机器人充当了版权财产权的捍卫者和 现状 的文化产业。 如果他是“无政府主义者”或“共产主义者”的受访者,他就不会那样回答。 或者他甚至可以回避回答,声称这是一个可能违反某些国家/地区法律规范的问题。 问题在于该软件向人类对话者建议了某种行为,而不是避免判断。
[七] 根据研究人员的说法,在最近的测试中,GPT-4(于 2023 年 XNUMX 月推出)表现出大多数左翼政治立场的倾向(偏见),尽管总是声称中立。 与此同时,这些研究人员透露,可以训练人工智能来呈现与权利相关的政治立场。 这种培训可以以非常低的成本进行,这表明在政治意识形态纠纷中采用聊天机器人的风险迫在眉睫。 查看 https://unherd.com/thepost/left-wing-bias-persists-in-openais-gpt-4-model/.
[八] LLM 的许多聊天机器人回应都以“优缺点”的形式出现,这表明它旨在在极端之间进行调节,同时呈现参与者对“平均”文化或知识的认知方式。
[九] 完全正确,该软件甚至怀疑这个问题是某种谜语(谜语). 这位哲学家的推特上描述了这个实验: https://twitter.com/Floridi/status/1635951391968567296?t=w5zdS8qBd79n6L5ju70KsA&s=19.
[X] 这个词指的是“恐怖谷”的概念(恐怖谷) 从事机器人技术。 当机器人的行为与人类的行为非常相似,并不完全相同,总是呈现出一定程度的陌生感时,就会出现这个山谷。 科幻小说中经常探讨这种情况。
[XI] 授予 https://www.pcmag.com/news/gpt-4-was-able-to-hire-and-deceive-a-human-worker-into-completing-a-task🇧🇷 的报告 打开AI 此处提供测试说明 https://cdn.openai.com/papers/gpt-4.pdf.
[XII] 事实上,已经有一些经验涉及 LLM 使用 AI 来创作散文和小说诗歌。 Chat-GTP3 创作俳句和虚构摘录的网站给出了众多示例中的一个示例: https://towardsdatascience.com/using-chatgpt-as-a-creative-writing-partner-part-1-prose-dc9a9994d41f. 有趣的是,作家伊塔洛·卡尔维诺在 60 世纪 1964 年代就已经预见到创造出可以取代诗人和作家的“文学机器人”的可能性。 起初,这些机器人能够用传统的曲目写出“经典”作品,但卡尔维诺相信,“文学机器”可能会出现,通过组合游戏,它会开发出前卫的作品,从而在文学中产生混乱传统。 请参阅 Italo CALVINO 的论文《控制论与幽灵》(关于叙述作为组合过程的注释)(XNUMX 年)。 主题关闭。 文学与社会论. 圣保罗,Cia das Letras,2009 年。
[XIII] 在这个实验中,在一个孤立的房间里,实验者可以通过狭缝接收英文文本,并通过翻译程序,按照程序翻译算法的步骤,用中文表意文字翻译。 对于一个好的算法,实验会成功,但翻译者不需要用中文说话或表达自己或理解消息的内容。 查看: https://en.wikipedia.org/wiki/Chinese_room. 我们还可以想到会议和研讨会上的同声传译员:他们不需要理解讲座的内容就可以做好工作。
[XIV] 计算机科学中的不可约性意味着一个计算过程不能被任何其他更简单的计算过程模拟或简化,这等同于说它不能被“编程”,除非通过一个严格相同的过程。 查看 https://en.wikipedia.org/wiki/Computational_irreducibility.
[Xv的] 看看埃琳娜埃斯波西托, https://www.researchgate.net/publication/319157643_Artificial_Communication_The_Production_of_Contingency_by_Algorithms.
[十六] oracle 的概念在这里不仅仅是一个比喻,而是在严格的计算意义上使用,指定一个抽象的封闭实体(黑匣子)来响应询问者的问题。
[ⅩⅦ] 参见 WIENER, Norbert。 God & Golem, Inc.:对控制论影响宗教的某些要点的评论. (1964)。 适用于 https://monoskop.org/images/1/1f/Wiener_Norbert_God_and_Golem_A_Comment_on_Certain_Points_where_Cybernetics_Impinges_on_Religion.pdf.
A Terra é Redonda 网站的存在要感谢我们的读者和支持者。
帮助我们保持这个想法。
单击此处查找操作方法