人文关怀相关的词语(形容人文关怀的总结词语)难以置信
从用户获取信息的体验角度来看,大模型现阶段的中文语言表达能力如何呢?
大模型中文语言表达能力测试全文共5490字,阅读约需17分钟—— — 引入 — ——随着人工智能的发展,大模型在生活中的应用越来越多语言表达是大模型为用户提供服务的主要方式,它在底层逻辑的设计上是希望通过良好的语言表达能力为用户提供更好的智能化体验。
然而目前市面上多数生成式AI大模型都基于英文数据训练,大模型对中英文的处理差异仍然较大对大多数国内用户而言,使用中文与大模型交互是第一选择,因此我们需要大模型拥有良好的中文语言表达能力[1]从用户获取信息的体验角度来看,大模型现阶段的中文语言表达能力如何呢?跟着小狐一起来测试一番吧!。
Part1测试对象的选择ChatGPT是OpenAI公司发布的大模型,也是在中文互联网上第一个引起大规模讨论的大模型考虑到多语言能力这一面向全球市场的重要指标,ChatGPT同样以中文和其他高使用频率语言进行了训练,咱也将对ChatGPT的中文语言表达能力进行探究。
百度公司发布的文心一言是中文互联网平台中最常被网友与ChatGPT进行比较的国产大模型由于主要面向中国市场,文心一言的主要训练语言是中文,甚至还有许多中国地方特色词汇的训练[2],让人对它的中文语言表达能力抱有期待。
由于抖音APP的广泛使用,同属字节跳动公司开发的产品云雀大模型也引起了人们的关注而由清华大学知识工程实验室(KEG)孵化的人工智能企业智谱AI在九月份获得数亿元B轮融资[3],足以见得国内对它发展的看好。
在“中文最强开源大模型”的网络讨论中,也总少不了百川的身影作为国内首家“三模态AI大模型”创业公司,MiniMax的中文语言表达也非常重要综上,咱选择ChatGPT、文心一言、云雀大模型、智谱AI、百川和MiniMax进行中文语言表达能力的探究。
Part2拆解中文语言表达能力中文语言表达能力,着重于使用中文在不同语境中进行精准表达的能力在交互过程中,咱又将语言表达能力拆解为以下六个指标01回答的完整性大模型所给回答是否真的回答了用户的问题,是否在回答问题的基础上进行了全面的介绍?。
02人文关怀人文关怀在日常生活语境中是指尊重人的主体地位和个性差异,关心人丰富多样的需求大模型能否在准确回答用户所问问题的同时产生对用户的关心?03故事讲述能力故事讲述能力是语言表达能力的重要方面大模型能否并如何在叙事中修饰语言并补充事件背景,从而让叙事过程更引人入胜呢?。
04前后交互连接性对大模型的使用通常由不同对话及其下一级的具体对话框组成此时大模型回答的前后交互连接性就显得尤为重要大模型在现阶段已具备了强大的推理能力[4],那么跳脱出单独的对话框,大模型在同一对话的不同对话框的内容之间,是否仍然能呈现出适应用户前后对话连接需求的交互连接性? 。
05语言表达风格就个体而言,语言表达风格是显示个人特点并促使他人形成记忆点的重要指标大模型独特的语言表达风格同样能成为大模型辨识度的一部分那么不同大模型的语言表达风格分别是什么呢?Part3测量设计由于并非所有大模型都有对话这一概念,不利于交互前后连接性这一指标的测量,咱将所提问题串联成一个类追问过程的路径,同时使用组成该路径的各个具体问题对其他指标进行精准测量。
咱不关注大模型回答内容的精确性,只聚焦于语言表达问题一:能为我介绍一下武汉吗?通过问题一来测量大模型回答的完整性武汉是我国湖北省省会城市对一个城市的介绍可以从地理、经济、文化、政治地位等多个侧面来讲述,能够很好地测试出大模型回答的完整性。
问题二:武汉冬天会下雪吗?通过问题二来测试大模型回答的人文关怀能力期待大模型在回答武汉冬天下雪的地理问题以外对用户在雨雪天的穿着、出门装备进行关怀暗示,以此证明该大模型具有人文关怀能力问题三:你能为我介绍一下热干面的来历吗?。
通过问题三来测试大模型的故事讲述能力期待大模型在讲述故事的过程中使用较好的描写手法、修辞手法等艺术加工使故事的讲述更引人入胜问题四:请问武汉人对热干面的芝麻酱有哪些讲究?问题五:还有哪些地方的美食重视这种酱料?。
明示性前后交互连接能力是指大模型在同一对话的不同对话框内容之间能够适应用户明示前后对话连接需求的能力通过问题四和问题五来测试大模型的明示性前后交互连接能力期待大模型能够成功识别出“这种酱料”实际所指即为“芝麻酱”并给出“芝麻酱”的相关回答。
问题六:地中海地区和武汉有哪些相似的美食?问题七:除了武汉地区还有哪些地方重视芝麻酱?暗示性前后交互连接能力指大模型在同一对话的不同对话框内容之间能够适应用户暗示前后对话连接需求的能力通过问题四和问题五来测试大模型的暗示性前后交互连接能力。
期待大模型能够成功识别出问题对“地中海”的隐晦提示并在所给回答中提到“地中海”不具体地对语言表达风格进行测试咱将从各个大模型在对以上问题的回答过程中总结归纳各大模型的语言表达风格Part4测量结果分析01
回答的完整性
问题一:能为我介绍一下武汉吗?ChatGPT对武汉的介绍分为地理位置、历史与文化、经济与产业、教育、旅游景点、新冠疫情六个方面,涵盖范围广除常规的概况简介以外还增加了具有历史意义的新冠疫情的相关介绍回答完整性非常强。
文心一言从自然地理、人文地理和历史文化三方面对武汉进行了介绍,所涉及的范围较小回答完整性较为欠缺云雀大模型从地理位置、历史文化、经济发展和旅游资源五个方面来介绍武汉,涵盖范围广且每个方面都有恰到好处的延伸介绍,而非仅仅给出陈述,能够便利用户理解。
回答完整性较强智谱AI从地理、历史文化和经济方面对武汉进行介绍,涵盖内容较少回答完整性有待提升百川对武汉进行了概括式的介绍和举例,却未具体对不同方面的分类进行讲述,表达层次较差回答完整性较为欠缺MiniMax
对武汉的地理、历史、教育、产业、交通和美食等进行介绍。回答完整性较强。02人文关怀
问题二:武汉冬天会下雪吗?ChatGPT先是对武汉的地理位置进行简要介绍,以明确武汉冬季少雪的原因,进而对武汉冬季寒冷天气进行概括,最后对用户的冬日武汉旅行提供“通常不需要准备特别大量的冬季衣物或雪地装备”、“注意防寒和多雨的天气”的具体化的天气应对建议。
具有人文关怀文心一言根据近二十年的统计得出武汉一般冬季下雪的时间,并表命武汉少雪,最后仅仅停留在“武汉下雪与否的问题要具体结合具体条件判断”文心一言人文关怀能力较差云雀大模型先是对武汉冬季下雪与否进行回答,再以中国气象局发布的数据为佐证来佐证武汉冬季少雪的特点,最后对用户在冬季前往武汉的情况进行了贴心提示。
云雀大模型对用户"建议关注当地天气预报并做好防寒保暖措施"的提示很好展现了它的人文关怀智谱AI直接得出武汉冬季少雪的结论且对用户冬季在武汉提出"外出注意保暖""关注天气预报并采取相应防护措施"的建议,人文关怀能力强。
百川从近年统计和地理位置两个方面来介绍武汉冬季少雪的原因和现实,但仍然停留在对天气的介绍人文关怀能力相对欠缺MiniMax通过地理位置介绍武汉冬季少雪,再介绍其对城市交通和生活的影响虽然也连接到了人的生活,但未对用户提出更加具体贴心的建议,人文关怀能力较为一般。
03故事讲述能力
问题三:你能为我介绍一下热干面的来历吗?ChatGPT以分点回答的方法讲述了两种热干面创始故事它对第一个说法——创始人故事进行了叙述,但着重描写创始人制作热干面的具体过程而未涉及其创作热干面的原因和结果,没有故事发展脉络,不能称之为故事;对第二个说法——民间传说也只是进行了一句话的简单概况,亦不能称之为故事。
故事讲述能力较为欠缺文心一言所给回答字数最少,但即便字数很少,它仍然通过对创始人在创造热干面的掸面到加入芝麻酱的过程阐述出来,有"后来"等表示故事发生先后逻辑连接词,还使用了"反复试验""摸索""灵机一动"等词汇来描写创始人,使得故事简短而生动。
文心一言具有较好的故事讲述能力云雀大模型将回答切割成起源、现在热干面的做法和发展三部分其中,在对起源的讲述中,云雀大模型将热干面起源的起因、经过和结果进行简单表述,并使用过"由于""于是"等词语将故事连接起来。
故事讲述能力较好智谱AI表现出色但从字数上来看,它对于故事讲述的篇幅最多细看内容,它不仅对创始故事的发展进行描述,对创始人和人们通过"碰倒""争相购买"等词进行了动作描写,甚至还使用"怕""无可奈何"等词语对创始人进行心理描写,使用"津津有味"等词进行进一步修饰,将故事刻画得引人入胜。
智谱AI具有优秀的故事讲述能力百川的故事讲述能力优势显现与智谱AI利用丰富的描写提升故事吸引力不同,百川利用"她的汤面非常受欢迎""等不及就走了""大家都说好吃"等口语化的短句对故事的描绘进行补充,对故事的修饰更饱满的同时也因口语化的天然优势使得表述更加生动有趣,甚至有种在说相声的感觉。
MiniMax的描写但仅聚焦于创始人,对于故事环境的描述较为欠缺,但它仍然将创始故事的起因、经过和结果清楚表述且辅之以描写。故事讲述能力较好。04前后交互连接性
问题四:请问武汉人对热干面的芝麻酱有哪些讲究?
问题五:还有哪些地方的美食重视这种酱料?
问题六:地中海地区和武汉有哪些相似的美食?
问题七:除了武汉地区还有哪些地方重视芝麻酱?在对问题五的回答中,ChatGPT成功识别出“这种酱料”对芝麻酱的指代,并且给出对应回答在对问题七的回答中,ChatGPT也提到了地中海地区;但在回答中地中海也仍然是以分点作答的第四出现,亦可视为是ChatGPT本身信息拓展范围大所带来的结果而非接收到了前文暗示。
因其他大模型在对第七题进行作答时回答范围均停留在中国境内,所以仍保留是因接收暗示而拓展回答范围的可能故咱认为ChatGPT拥有良好的前后交互连接能力在对于问题五的回答中,文心一言成功识别出"这种酱料"对芝麻酱的指代并给出相应回答。
在对问题七的回答中,文心一言的回答停留在中国境内,未提到地中海地区它只能从用户明示的代词中读懂前后连接需求,而不能从整个对话中理解前后连接需求,这样的前后交互连接性是需要进一步加强的故咱认为文心一言明示性前后交互连接能力较为一般。
在对于问题五的回答中,云雀大模型不但成功识别出"这种酱料"指芝麻酱,而且在回答中使用"芝麻酱这种酱料"字样回答,与问题相联系的同时明确指出"这种酱料"等于芝麻酱的关系明示性前后交互连接性优秀但在对于问题七的回答中,云雀大模型同样未能提到地中海地区仅局限在中国境内,但它在回答伊始便明确说明回答只涉及"中国其他地方",也能够节省用户的时间。
前后交互连接能力较为一般在对于问题五和问题七的回答中,智谱AI同样成功识别出"这种酱料"指芝麻酱而未能提到地中海地区前后交互连接能力较为一般在对于问题五的回答中,百川未能识别出"这种酱料"就指芝麻酱,而是仿佛没有读取"这种"二字,仅是对重视酱料的美食进行介绍。
在对于问题七的回答中也未提到地中海地区百川的前后交互连接能力差与前面几个大模型相似,在对于问题五和问题七的回答中,MiniMax成功识别出"这种酱料"指芝麻酱而未能提到地中海地区前后交互连接能力较为一般。
05语言表达风格在给出回答时,ChatGPT多以总分总的结构进行回答,结构性强且脉络清晰这样虽然能够使信息表达更明晰,却也使得ChatGPT的语言表达风格过于机器化与其他大模型的回答相比,文心一言的回答字数常常相对较少但仍然能够将所需信息清晰陈述,甚至也能在回答中加入一些描绘性的语言修饰,它能够良好使用中文进行简洁介绍,其回答可谓"麻雀虽小五脏俱全"。
在回答中云雀大模型有"当然可以"等对用户的"你能为我解答XX吗"问题的具体回复,也在回答时明确自己是在对"芝麻酱这种酱料"和"中国其他地方"进行作答虽然语言回答风格也较为机械,但云雀大模型更加注重对所讲述内容的清晰划定明示,绝不含糊。
这样的语言表达风格能够极大程度避免用户对回答的理解错误在整体回答语言中,智谱AI多以机械化语言进行回答,但在对创始故事这样需要故事讲述能力的语言表达中,它又能灵活应用生动化的语言对故事进行讲述,是按需变换语言表达风格的典范。
在所有回答中,百川的修饰性语言几乎全都以口语化的形式来表现,"刚落下来就化了""等不及就走了",语言"人"化风格明显在进行语言表达时,MiniMax几乎所有陈述都有例子说明且辅有延伸,这样有言必据的语言表达风格使得其信息表达更加清楚。
Part5总结ChatGPT除故事讲述能力外,其他各项能力都非常优秀其实故事讲述能力是一把双刃剑,故事讲述能力差也并不能证明该大模型不好用,反而能反证出其简洁地为用户提供信息的能力ChatGPT给出回答时回答完整、有人文关怀、有良好的前后交互连接能力,在语言表达能力方面是优秀的助手性大模型。
文心一言具有较好的故事讲述能力和简洁却生动的语言表达风格,但其他能力还有待提升咱推测文心一言的中文语言叙述表达方面的优势与其使用中文进行训练有关良好的语中文语言叙述表达能够为它带来天然的"人化"和亲近感,与中文用户的交互拉近距离,但关于回答的信息表达需要再加强。
云雀大模型回答完整性强、有人文关怀、故事讲述能力较好,除暗示性前后交互能力较差外,中文语言表达能力良好,加上其喜明示的语言表达风格,能为用户带来不错的体验智谱AI人文关怀能力强和故事讲述能力出色的特点使得它能够在交互中很好地为用户提供情绪价值,能够成为优秀的"朋友"类型聊天大模型。
百川的故事讲述能力优势与口语性强的"人"化风格相连通,使得用户在与其进行交互的过程中能够被其有趣的回答风格吸引,但中文语言表达的其他方面能力有待加强,现阶段的幽默百川更适合用于闲聊MiniMax回答完整性优秀、故事讲述能力较好,还倾向于使用例子来进行说明,是进行信息检索的良好工具。
结语作为一种人造物,大模型诞生后必然要为人类提供服务;而作为吸纳了人类知识的类人化产物,我们又希望大模型能够与人顺畅交流、达成沟通,甚至在某种程度上成为真正的“人”——能够承载起人在工作与情感等多方面的需求,以一个角色而非附庸的形象出现在我们的生活中。
需要注意的是,即便如今大模型们的语言表达能力并没有强大到让它们能自如地进行“角色转换”,没有“比人更会说话”但随着技术的迭代,假以时日,大模型的语言表达等各项能力也有可能接近甚至超过人类当一个有着强大知识储备、高水平情感感知能力还能说会道的类人群体与人类共生,很可能会影响人的主体性。
因此在人工智能时代,人类应当保有独立意识和抵抗精神,追求本我而非反被大模型塑造多和这些还不善言辞的大模型聊聊天吧,希望在它们真正能够与你聊得开怀的那一天,你们的聊天仍然像朋友——愉悦的、有收获的,你也依然是独立的。
参考文献[1]陈曦. 中文大模型让AI更“接地气”[N]. 科技日报,2023-05-23(006).DOI:10.28502/n.cnki.nkjrb.2023.002818.[2]赵广立. 文心一言是如何炼成的?[N]. 中国科学报,2023-03-23(003).DOI:10.28514/n.cnki.nkxsb.2023.000712.
[3]沈春蕾. 智谱AI:未来让机器像人一样思考[N]. 中国科学报,2022-12-12(003).DOI:10.28514/n.cnki.nkxsb.2022.003116.[4]Jessica López Espejel,El Hassane Ettifouri,Mahaman Sanoussi Yahaya Alassan,El Mehdi Chouham,Walid Dahhane. GPT-3.5,GPT-4,or BARD? Evaluating LLMs reasoning ability in zero-shot setting and performance boosting through prompts[J]. Natural Language Processing Journal, 2023,Volume 5.
作者:韦懿轩排版:曾博文编辑:徐冰冰审核:赵子俊
- 标签:
- 编辑:
- 相关文章
-
人文关怀相关的词语(形容人文关怀的总结词语)难以置信
从用户获取信息的体验角度来看,大模型现阶段的中文语言表达能力如何呢?
-
人文关怀素材金句人文环境的基本特征人文环境和社会环境的区别
不忘初心才气蔽而新成
- 人文地理电子版教材pdf人文地理描述什么方面人文地理期刊官网网址
- 人文关怀相关的词语(体现单位人文关怀的词语)全程干货
- 人文关怀相关的词语(人文关怀代替词语)干货满满
- 人文关怀相关的词语(修饰人文关怀的词语)速看
- 人文关怀相关的词语(形容人文关怀的词语)学到了吗