A Data Set of Synthetic Utterances for Computational Personality Analysis

A Data Set of Synthetic Utterances for Computational Personality Analysis
可计算人格分析的综合话语数据集 A Data Set of Synthetic Utter

可计算人格分析的综合话语数据集

A Data Set of Synthetic Utterances for Computational Personality Analysis

用于可计算人格分析的综合话语数据集摘要1 背景和摘要2 方法论2.1 角色生成2.2 数据集生成

3 数据记录4 技术验证4.1 人类专家验证4.2 计算工具验证话语4.3 机器学习模型验证4.4 各种数据集和间接测量验证

5 代码可用性

摘要

人类人格的计算分析主要集中在五大人格理论上,而心理动力学方法尽管具有丰富的理论基础并且与各种任务相关,但基本上缺乏。在这里,我们提出了一个由4972 个合成话语组成的数据集,对应于心理动力学方法描述的大五人格维度(抑郁、强迫症、偏执、自恋和反社会精神病态)。这些话语由人工智能生成,具有深刻的理论导向,启发了GPT-4 提示的设计。该数据集已在14 项测试中得到验证,可能与人类个性的计算研究和数字领域中现实世界个性的设计(从游戏到电影角色的艺术生成)相关。

1 背景和总结

人的个性涉及相对稳定的思维、感觉和行为模式。这些是将模式缩小到一定维度的不同方法。例如,最流行的人格理论“大五人格”考虑了人类人格的重要方面,例如外向性和神经质。

用于分析人类性格的各种计算工具主要基于该理论。与“大五”方法相反,心理动力学方法是在临床实践中理解人格类型的主要理论方法,例如心理动力学诊断手册(PDM)和谢德勒-韦斯滕评估程序(SWAP)。然而,它强调PDM 旨在代表不同“类型”的人,与DSM 相比,它并不是疾病的分类。即使没有任何病理或障碍,一个人也可以被描述为自恋者。在本文中,我们使用心理动力学方法作为人格理论来构建代表5 大人格类型的话语数据集。本文的目的仅限于数据集构建和验证,临床意义超出了本文的范围。

心理动力学研究人格的方法强调人类人格的多维结构以及无意识过程和内部矛盾在塑造人格和行为中的作用。 例如,抑郁人格有几个方面:有助于该假设的成熟模式(例如,抑郁症的遗传倾向),这种人格类型背后的核心张力(例如,自我批评),描述人格的核心情绪(例如,抑郁)。悲伤),关于自我和他人的信念(例如我是一个失败者,别人讨厌我),以及人格防御机制使用的核心情绪(例如自我评价)。换句话说,在解释抑郁人格时,心理动力学方法针对人格背后的主要矛盾、伴随这种紧张的情绪、自我和他人的表现以及伴随自我的压力来描述主要的心理防御机制。习惯于其他人的经历。

使用心理动力学方法对人格进行评估在很大程度上仅限于临床环境和人类专业知识的使用。通过心理动力学方法评估人格的最结构化的工具是SWAP-200。 SWAP-200 的核心是一组200 个项目,描述各种人格特征、态度和行为。临床医生根据观察和与客户的互动来评估这些项目。换句话说,该工具在很大程度上依赖于人类专业知识和精心挑选的项目的存在。目前,还没有结构化的自动化工具可以使用心理动力学方法从自由文本中提取性格类型。我们重申,本文提出的数据集是代表大五人格维度的话语数据集,而不是临床实践中使用的诊断工具(例如SWAP-200)。该数据集是为有兴趣测量文本数据中的这些个性维度的研究人员而设计的。

由于其复杂性,心理动力学方法很少用于计算人格分析。尽管其理论基础深厚且与各种任务相关,但它在计算领域的存在并未得到充分重视,可能是由于缺乏大量数据集。然而,心理动力学技术的使用可能与多种任务相关。例如,**创新的大规模语言模型(LLM)可以模拟不同人的思想、感受和行为。这项新技术使我们能够构建在对话过程中遵循对话者个性的对话代理。 **被描述为高度自恋的客户可能比那些被描述为高度强迫的客户更平易近人。目前,缺乏根据心理动力学方法代表不同人格类型的大量话语数据集,本论文旨在填补这一空白。

本文提出了针对五种主要人格类型的高质量综合论述:抑郁症(DEP)、强迫症(OBS)、反社会精神病(PSY)、偏执狂(PAR) 和自恋(NAR)。我们选择关注这5 大性格类型有两个主要原因。首先,某些性格类型,例如焦虑回避型和抑郁型,彼此非常接近,以至于很难区分。我们决定重点关注几种典型的性格类型。其次,由于我们的项目是计算科学项目而不是心理学项目,因此我们主要使用机器学习分类模型来测试数据集的质量。将话语分类为越来越多的类别(例如性格类型)可能会显着降低模型性能。因此,我们将当前的项目限制在人格类型的研究上。

此外,对于每个话语,我们提供了五个主要PDM 维度的详细描述:(1)话语中表达的主要心理动力学主题(例如,服从权威),(2)完美(例如,表达深深的悲伤)。(3)关于自我的信念(例如,我几乎都是电缆),(4)关于他人的信念(例如,人们不可信任),(5)防御机制(例如,情感超然)。这是同类中的第一个数据集,将与许多研究人员高度相关,从那些从事计算心理学工作的人员到那些为游戏行业和社交辅助机器人开发对话代理和人工角色的人员。该数据集可用于个性发展的一些方法包括:

为游戏行业创建数字角色(例如,创建一个真正的心理变态人格作为“坏人”)。

分析老年人的谈话,以确定抑郁症状及其动态的代表。

自动分析家庭治疗,为治疗师提供在线实时分析工具。

2 方法

2.1 生成角色

生成表达不同性格类型的话语并不是一件容易的事。要求人工智能在没有特定指令的情况下直接生成话语可能会导致夸大且无法表达的话语。 **为了避免夸张的角色表示,我们认为生成一组虚构角色(即字符)来生成这些话语非常重要。 **此步骤对于确保表达特定个性类型的话语包含最佳的语言多样性非常重要。因此,该过程的第一步是生成不同的角色,即产生话语的虚构主题。为了应对这一挑战,我们选择了几个常见元素来生成话语特征,例如性别、职业和年龄。假设这些选定的维度会产生同一个性的不同表达。例如,一家高科技公司的35 岁男性首席执行官可能表现出与90 岁祖母不同的自恋特征。

为了解决这个挑战,我使用了GPT-416(API 版本GPT-4-0613)和以下提示。

【人工角色的生成】

我们生成了100 位独特的美国英语使用者,每个人都代表了八个维度的不同组合:性别、年龄(16-80 岁)、文化身份、社会经济地位、教育水平;家庭状况、职业和个人身份。

确保在这些维度上有多样性。

2.2 生成数据集

在第二阶段,使用您的角色列表和下面的提示模板来生成代表不同性格类型的话语。我们在这里提供一个模板。

[生成表达个性类型的人工话语]

摘要文本:[在此部分插入您的性格类型的简短描述]

(我在本节中插入了对性格类型的更详细解释)。

你的任务是让你的角色说出五种不同的话语来表达[性格类型]。确保您使用的语言准确反映他们的个性。

以下是角色描述:[在此处插入角色描述]。

我们为100 个人类角色中的每一个角色运行提示。结果是代表上面列出的五种性格类型的5,000 条话语的列表。完成论文中描述的所有流程后,我们删除了重复项,最终文件包含4972 个话语。每句话都被标记为五种人格类型之一。

以下是生成的话语的三个示例。

女,84岁,低收入,高中学历,寡妇,农妇,非裔美国家庭主妇。

3 数据记录

一条数据记录包含多个文件。所有文件都是CSV 文件,结构非常简单。该文档包括:

(1) 100个字符列表

(2) 包含性格类型、话语和相关数据的文件。该链接还包括运行SetFit 模型的代码。

4 技术验证

技术验证部分包括多项验证测试以支持数据集的质量。测试分为以下几类:

检查1。经过人类专家验证。

检查2。通过计算工具验证。

检查3。使用机器学习模型进行验证。

检查4。扩大话语的生态有效性。

4.1 人类专家的验证

如果合成的话语有效地代表了其背后的性格类型,则话语的标签与专家人类注释者的决定之间应该匹配。

我们选择了100 个话语,其中20 个话语代表每种性格类型。这些代表性话语是从具有最高人格类型评级(参见验证2)和最低其他评级的话语中随机选择的。然后,我们聘请了两位独立专家/注释者来确定哪种人格类型最能解释这些话语。两名注释者(“A”和“N”)是两名研究生,他们已经完成了为期一年的性格分析和侧写课程。该课程包括文本数据分析方面的专门培训,“A”和“N”均以优异的成绩完成了课程。每个注释者按照以下说明按随机顺序收到这100 个话语:

随附的Excel 电子表格包含100 个话语。每句话都代表五种人格类型中的一种。对于每句话,选择最能描述它的性格类型。人格类型名称使用缩写DEP、PSY、PAR、NAR 和OBS 书写。

专家注释根据“黄金标准”(即用于生成话语的人格类型(即标签))进行了测试,并且相互之间进行了测试。

专家注释之间的相关性具有统计显着性(X=360.25,p0.001),表明它们之间几乎完全一致。他们95%的时间都达成了一致。每个注释者与黄金标准“A”(X2=386.32,p0.001)和“N”(X2=369.31,p0.001)之间的相关性也被发现具有统计显着性。这些结果检查了言语的质量及其代表人格类型的程度。

4.2 通过计算工具验证话语

这些话语被认为有效地代表了人格类型。在这种情况下,话语的标签与不同计算工具给出的话语标签之间必须存在匹配。为了检验收敛有效性的假设,我们使用了两个检验:LangChain 和GPT-4。

测试2.1

我们使用的第一个工具是LangChain,一个用于开发由语言模型驱动的应用程序的框架。

(1) 上下文感知:将语言模型与上下文源连接起来(例如,即时指令、少量示例、基于内容)。

(2) 做出推论:依靠语言模型根据提供的上下文进行推论(如何回答、采取什么行动等)。使用LangChain 逐步生成每个话语的对话评分。请参阅下面的提示。

尖端

用户:我给AI的任务是生成表达[性格类型]性格的合成话语。

这是生成的话语“[utterance]”。

您对人工智能生成的话语的总体评价如何?根据心理动力学诊断手册(PDM)和SWAP,它是否真正代表了[人格类型]的人格?

请以“是”或“否”的格式简单、清楚地回答。

ChatGPT 回复:[回复]

**

现在,从人格的PDM(心理动力学诊断手册)方面来评估这一论述:主题和关注点、情绪、对自我的信念、对他人的信念以及主要的防御机制。生成并评估维度标题。

ChatGPT 响应

用户:请输入1 到5 之间的数字评分,以表达特定话语中[角色类型]的个性特征的呈现程度。 1 表示“一点也不”,5 表示“非常”。

ChatGPT:单一数字评级。

在此过程之后,我为该文件生成了一些附加列。首先,你是否同意人工智能评估的合成话语表达了他们所代表的性格类型(是或否)。其次,话语表达其试图传达的个性类型的程度(1-5)。

如果合成的话语是有效的,我们应该期望原始标签和LangChain 生成的标签之间的一致性。结果证实了这一假设。浪链结果显示,97%的话语表达了DEP人格类型,98%表达了OBS人格类型,99%表达了OBS人格类型。 PAR 人格类型在65% 的病例中表达,PSY 人格类型在65% 的病例中表达。

4.3 通过机器学习模型验证

我们假设,如果这些话语有效地代表了不同的性格,它们可以用来训练和测试机器学习分类器。该假设成立的原因如下。机器学习模型在数据集上进行训练以识别模式。在我们的例子中,这种模式包括通过言语表达的不同性格类型。该模型之所以成功,是因为它可以根据学习阶段学到的模式对新话语进行分类。如果话语的质量很高,您可以期望模型成功学习模式。我们使用三种机器学习模型测试了我们的假设:CRT、SetFit 和RoBERTa。

4.4 通过各种数据集和间接测量进行验证

我们进行了几次间接测试来检验我们话语的生态有效性。

测试4.1

我们使用SetFit 模型来分析EmpatheticDialogues 数据集,这是一个包含话语及其情感的大型多轮对话数据集。首先,我们将重点关注标记为“骄傲”和“悲伤”的话语。我们选择了667 个标记为“悲伤”的话语和686 个标记为“骄傲”的话语。接下来,使用之前训练好的SetFit 模型来分析“骄傲”和“悲伤”的话语。我们假设“骄傲”的话语应该表达更高水平的自恋人格,而“悲伤”的话语应该表达更高水平的抑郁人格。如果这个假设有实证基础,那么SetFit 模型应该对“骄傲”的话语给予比“悲伤”的话语更高的自恋人格评级;也应该对“悲伤”的话语给予更高的抑郁人格评级。测试这些假设可以为话语质量提供进一步的支持,因为我们期望在高质量话语上训练的模型将有助于识别其他上下文中的人格类型的表达。

结果如图2a-b 所示。

我们看到这些分数支持我们的假设。中位数检验具有统计显着性(p0.001)。此外,使用曼-惠特尼U 测试,“悲伤”话语的抑郁人格得分平均排名高于自恋人格得分(分别为984.47 和378.04)。 “自豪”陈述的人格得分较高(分别为958.53 比387.45)。这些结果支持了我们的假设并进一步检验了话语的质量。

5 代码可用性

https://doi.org/10.6084/m9.fgshare.24971943.v1

所有文件都是简单的CSV 文件。包含(1) 100 个角色的列表(2) 个性类型、话语和随附数据。该链接还包括运行SetFit 模型的代码。

以上#Synthetic Utterance Dataset for Computational Personality Analysis相关内容摘自互联网,仅供参考。相关信息请参见官方公告。

原创文章,作者:CSDN,如若转载,请注明出处:https://www.sudun.com/ask/92020.html

Like (0)
CSDN的头像CSDN
Previous 2024年6月24日
Next 2024年6月24日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注