中科院软件所等揭示:大模型模拟人类存在完美主义幻觉偏差突破
中科院软件所等揭示:大模型模拟人类存在完美主义幻觉偏差突破
  • 2026-04-18 06:14:12
    来源:放荡不羁网

    中科院软件所等揭示:大模型模拟人类存在完美主义幻觉偏差突破

    字体:

    这项由中国科学院软件研究所、中国科学院大学与快手科技联合开展的研究,于2026年4月以预印本形式发布在arXiv平台,论文编号为arXiv:2604.08362。研究围绕一个核心问题展开:当今最强大的AI大语言模型,究竟能不能像真实人类一样行动?

    每个人每天都在数字世界里留下无数痕迹。早上醒来刷短视频,中午在直播间抢购商品,傍晚搜索一条感兴趣的新闻,晚上在电商平台咨询客服。这些行为零散却又紧密相连,共同构成了一个人真实的数字画像。现在,研究人员想知道,如果把这些行为序列交给大型AI模型,它能预测出下一步你会做什么吗?它能模拟出一个"像你一样"的人吗?

    这个问题的意义远不止于技术好奇心。推荐系统需要预测用户下一秒想看什么;企业需要模拟用户行为来测试新产品;社会科学家希望用AI代替真人参与实验。如果AI真能扮演好"人类替身",这将极大降低研究成本,加速各行各业的创新。

    然而,研究团队发现,现有的测试基准(也就是用来评估AI能力的"考卷")都存在一个严重缺陷:它们只测试AI在单一场景下的表现,比如只测购物行为,或者只测视频浏览,而且大量使用人工合成的假数据。这就像只通过一道数学题来判断一个学生的综合素质——考卷本身就是错的。

    正因如此,研究团队构建了一个名为OmniBehavior的全新测试基准,这是目前第一个完全基于真实用户数据、同时覆盖多场景、长时间跨度的人类行为模拟评估体系。数据来源于拥有超过4亿日活用户的快手平台,囊括了200名真实用户长达三个月的完整行为轨迹,涵盖短视频浏览、直播间互动、电商购物、广告点击和搜索行为五大场景,共记录了22种不同类型的用户动作。

    研究团队用这张"真实世界考卷"对包括Claude-4.5-Opus、GPT-5.2、Gemini-3-Flash、DeepSeek-V3、Qwen3-235B在内的一系列顶尖AI模型进行了全面评测,结果令人深思:即便是表现最好的模型,整体得分也只有44.55分(满分100分)。更关键的是,研究团队发现AI模型在模拟人类时存在一种系统性的结构偏差——它们倾向于把所有人都模拟成一个"积极友善的普通人",而真实的人类世界远比这复杂和混乱。

    一、为什么单一场景的数据是一张"残缺的地图"

    假设你要为一位从未见过面的朋友挑选一件生日礼物。你只有两种信息可以参考:第一种,你知道这位朋友最近三个月在所有场合的消费记录、浏览历史、搜索关键词和聊天内容;第二种,你只知道他上个月在一个电商平台买过几件商品。显然,第一种信息让你能够勾勒出一个立体的人,而第二种只是一个模糊的轮廓。

    这正是OmniBehavior研究团队最先想验证的问题:单一场景的数据究竟有多"残缺"?

    为了回答这个问题,研究团队从用户历史中提取了他们真实点赞、收藏过的内容,并用AI分析每个内容背后对应的兴趣类别和关键词,最终为每位用户绘制出兴趣画像。当只使用视频浏览数据时,用户画像会呈现出某一种面貌;当只使用搜索数据时,又是另一种面貌。这些单场景画像往往片面而失真,就像盲人摸象,每个人摸到的只是大象的一部分,没有人能描述出完整的大象。

    定量数据更加直白。研究人员发现,如果只看搜索行为,用户的兴趣类别覆盖率仅为2.4%,兴趣关键词覆盖率也只有0.4%。加入电商数据后,兴趣类别覆盖率跳升至14.4%,关键词覆盖率达到8.3%。再叠加广告数据,分别达到23.6%和14.1%。加入直播数据后,覆盖率继续攀升至57.6%和26.2%。当五个场景的数据全部汇聚在一起,才能达到100%的完整覆盖。换句话说,每引入一个新的场景,都会让我们对一个用户的了解增加约20%到30%。单独使用任何一个场景,都只是在管中窥豹。

    这一发现为后续的所有研究奠定了基础:要真正理解和模拟一个人,你必须同时观察他在多个生活场景中的行为,不能只盯着某一个角落。

    二、一次购买背后,隐藏着长达数周的"因果链条"

    买一部手机,真的只是"看到一款手机然后下单"这么简单吗?

    研究团队从数据中随机抽取了180个高价值购买行为(比如用户完成了一笔商品交易),然后像侦探一样往前追溯——这笔交易背后,究竟发生了什么?

    数据给出了一个令人深思的答案。超过60%的购买决策,依赖于三天以前乃至更早时候发生的行为作为触发线索。这打破了传统分析中"用户在当次会话里做决定"的假设,就像你以为消费冲动是一时的念头,实际上它已经在脑海中积累了好几天。

    更关键的是,81.8%的购买路径跨越了不止一个场景。也就是说,大部分重要的消费决策,不是在单一场景内酝酿完成的,而是在多个场景之间反复穿行后才最终落地。

    研究团队在论文中呈现了一个生动的真实案例。一位用户在9月25日通过搜索"小米发布会"开始对某款手机产生兴趣。两天后,他在直播间看到了小米17 Pro Max的新品预售,随后又在视频里比较了小米17 Pro与Pro Max的差价是否值得。9月30日,他又看了一个对比三款旗舰手机的视频。10月3日,他浏览了手机钢化膜评测。10月8日,他在广告中再次看到了小米官方旗舰店,并在直播间看到了预售信息,最终在当天晚上通过电商下单购买。

    这条从"搜索"到"下单"的路径整整跨越了12天,穿越了搜索、直播、视频、广告、电商五个场景。如果任何一个中间步骤被切断,都可能改变最终的购买决定。那些只记录单一场景的数据集,相当于把这条因果链条拦腰斩断,让AI看不到完整的故事,自然也就无法做出准确的预测。

    三、人工合成的"假用户",和真实用户差了多远

    除了跨场景和长时序这两个维度,OmniBehavior的研究团队还想弄清楚另一件事:用AI生成的模拟用户数据,和真实用户数据之间,到底差在哪里?

    研究团队将OmniBehavior中的真实用户数据,与LoCoMo这个知名的长期记忆模拟数据集进行了对比。LoCoMo的数据是通过AI生成的,模拟了用户在长期对话中的兴趣变化。

    研究者用同样的方法,追踪了两组用户在80天内的兴趣主题分布,看看它们是如何随时间演变的。真实用户的兴趣变化就像一条蜿蜒的河流——不同的兴趣主题此起彼伏,相互交织,缓慢而自然地流动,某天对动漫感兴趣多一些,某周对服装话题更关注,整体呈现出一种有机的、多维度交融的动态。

    而合成用户的兴趣变化,则更像是一幅机械的折线图。兴趣会突然飙升,然后立刻断崖式归零,再突然出现另一个不同主题的高峰,整个模式生硬、程序化,缺乏真实人类行为中那种自然的惯性和惰性。

    研究团队用一个叫做"1减Jaccard相似度"的指标来量化这种差异——这个数字越高,说明相邻两天的兴趣变化越大。真实用户的平均值是0.6311,而合成用户只有0.1698,差距接近四倍。这说明合成数据严重低估了真实用户兴趣的动态性和复杂性,无法反映人类那种"今天对这个着迷,明天又被另一件事吸引"的真实节奏。

    四、拿最强AI来"扮演"真实用户,成绩究竟如何

    有了这张基于真实数据的全面考卷,研究团队接下来做了一件让人期待又略感忐忑的事:让目前最顶尖的AI模型来参加考试。

    测试的设定是这样的:给AI一份用户档案、一段完整的历史行为序列,再加上当前场景的具体信息(比如正在直播的内容、正在展示的商品),然后要求AI预测这个真实用户接下来会做什么。比如,这个用户会点赞这条视频吗?会把这件商品加入购物车吗?会在客服对话中说些什么?

    研究一共设计了6000个这样的预测任务,分布在视频、直播、广告、电商四大场景中,评测了11个顶尖模型,包括Claude-Opus-4.5、Claude-Sonnet-4.5、Claude-Haiku-4.5、Claude-Sonnet-4、Gemini-3-Flash、GPT-5.2、GPT-4o,以及开源的GLM-4.7、DeepSeek-V3、Kimi-K2-Instruct和Qwen3-235B。

    结果怎么样?表现最好的Claude-Opus-4.5拿到了44.55的综合得分,大多数模型集中在32到41分之间。对于一项"扮演真实用户"的任务来说,这个成绩相当于不及格。

    从具体数字来看,问题尤为突出。对于"点赞"这类最基础的二元行为预测(用F1分数衡量,满分100),大多数模型得分都不超过40%。在广告场景的购买预测中,Claude-Opus-4.5的F1分数为29.98,GPT-5.2为29.32,Qwen3-235B仅有19.22。这意味着AI在预测"这个人会不会买这件商品"这件事上,正确率相当有限。

    有意思的是,排名第二的并非某个知名闭源模型,而是开源模型GLM-4.7,得分41.46,超过了Claude-Sonnet-4.5的40.49和GPT-5.2的39.07。同时,DeepSeek-V3在电商场景的购买行为预测中(33.31),甚至超过了Claude-Opus-4.5(29.98)。这说明在特定细分任务上,开源模型完全有能力与顶级闭源模型一较高下。

    五、更长的记忆反而帮不上忙——AI的长上下文困境

    既然用户的行为序列那么长,那么给AI提供更多历史信息,是不是就能帮助它做出更准确的预测?

    研究团队专门针对这个问题做了实验。他们筛选出66位历史行为记录超过12.8万个token(大约是一本中等厚度小说的篇幅)的用户,然后把提供给AI的上下文长度从16K token逐步扩展到128K token,观察预测准确率的变化。

    结果出乎意料地令人沮丧:增加上下文长度并不能稳定地提升预测准确率。在多个模型上,从16K扩展到32K会有一定提升,但继续扩展到48K、64K甚至128K时,性能曲线开始震荡甚至下降,并没有随着信息量的增加而持续改善。

    这一发现和学术界此前观察到的"迷失在中间"现象高度吻合——AI在处理超长文本时,往往会遗忘或忽视位于文本中段的信息,只有头尾的内容能被较好地记住。换句话说,尽管现代AI模型已经能够"阅读"几十万字的文本,但它们并不真正"理解"和"记住"这些内容。

    研究团队还测试了三种常见的记忆管理策略,看能否解决这个问题。第一种是"截断法",只保留最近的一段历史;第二种是"检索增强法"(RAG),根据当前场景的相似性从历史中检索最相关的100条行为;第三种是"摘要法",每当历史积累到4000个token就压缩总结一次。

    三种方法都在Qwen3-235B上进行了测试。结果发现,摘要法的平均表现最好(24.27分),相比截断法(21.13分)提升了约14.9%,在直播场景下的提升尤为明显(从23.84分跳升至31.06分)。而检索增强法的表现反而不如截断法(20.38分,下降3.6%),在电商场景中甚至出现了明显退步。

    原因在于,检索增强法依赖"语义相似性"来匹配历史行为,但用户行为之间的关联往往是因果性的,而非字面上相似的。比如,一个月前看了一个手机评测视频,和今天在直播间购买手机,语义相似度很低,但因果关联很强,检索算法无法识别这种隐性联系。摘要法虽然能保留全局趋势,但在压缩过程中不可避免地会丢失细节。总体而言,这三种方法都只是权宜之计,都无法真正解决AI面对长期、复杂用户历史时的理解瓶颈。

    六、AI眼中的"理想用户":一个永远积极、礼貌、没有个性的人

    如果前面的发现还只是"AI的能力不够强",那么接下来的发现则触及了一个更根本的问题:AI在模拟人类时存在一种系统性的认知扭曲。研究团队把这种扭曲称为"正向平均人偏差",具体表现为三种相互关联的现象。

    第一种现象叫做"超活跃偏差"。在真实世界中,用户对内容做出积极互动(比如点赞、收藏、加入购物车)的频率其实非常低,通常不超过所有浏览行为的10%。这是人类行为的自然稀疏性——大多数时候我们只是漫无目的地刷刷刷,并不会对每条内容都点赞。

    然而,所有被测试的AI模型都倾向于大幅高估用户点赞和互动的频率。Qwen3-235B和Gemini-3-Flash的预测结果中,积极互动率比真实人类高出40%到60%,相当于把一个"偶尔点赞"的普通用户,错误地模拟成了一个"几乎每条都点赞"的热情粉丝。

    这个问题的危害不止于数字失准。如果AI把用户模拟得过于活跃,企业就无法从中学习到"用户什么时候会停止互动"、"什么样的内容会让用户流失"这类关键信号,用户流失预警系统将完全失灵。

    第二种现象叫做"乌托邦偏差",集中体现在电商客服对话中。这个场景特别有代表性,因为用户在寻求售后帮助时往往处于不满甚至愤怒的情绪状态,这正是测试AI能否模拟"负面情绪"的绝佳场合。

    研究团队让Claude-Sonnet-4.5对真实用户和AI模拟用户的客服对话进行情感评分,评分从-1(极度负面)到+1(极度正面)。结果发现,真实用户的情感分布广泛,有相当比例的表达集中在-0.5到-1的负面区间。而所有AI模型生成的对话内容,情感分布都明显向0和正值方向集中,极少出现强烈的负面情绪。

    研究团队进一步从五个语言风格维度对比了真实用户和AI模拟用户的措辞:礼貌用语的使用频率、缓和语气的程度、责任归咎倾向、情绪控制程度,以及顾全对方面子的程度。AI生成的用户发言在每一个维度上都比真实用户更"礼貌"——它们使用更多"请问"、"麻烦"、"谢谢"这类词汇,措辞更委婉,几乎不会出现"骗子"、"催死我了"、"赶紧给我退款"这类真实用户在遭遇售后问题时常见的直接、激烈表达。

    这不是AI"不知道"人类有时会发脾气,而是它被训练成了"永远友善"的状态。AI的对齐训练让它本能地回避冲突、回避负面情绪,即便在扮演一个愤怒的消费者时,它也会不自觉地把措辞软化成一个"理性维权者"。

    第三种现象叫做"人格同质化"。这是最深层的问题。研究团队用17个维度的行为特征(比如点赞率、分享率、购买率等)来给每位用户画一幅"行为画像",然后计算两类距离:同一用户前后两段时间内行为的相似程度(内部距离),以及不同用户之间行为画像的差异程度(外部距离)。

    对于真实用户,内部距离远小于外部距离,比例约为0.29。这意味着真实用户的行为在时间上相当稳定(同一个人的行为前后差不多),但不同用户之间的差异非常显著(每个人都有自己独特的行为风格)。

    而AI模拟出来的不同用户,内部距离和外部距离之间的比例普遍在0.7到0.87之间。换句话说,AI模拟的不同"用户"之间,行为差异极小,几乎像是同一个人在不同时间点的重复。无论AI被要求扮演一个20岁的男学生还是一个45岁的家庭主妇,它最终生成的行为特征都高度相似,都趋向于某种"平均用户"的模板。

    这种同质化的根源,可能在于AI的预训练数据中高频出现的是"普通用户的普通行为",而那些小众的、非典型的、长尾的行为模式,在训练中被系统性地压制和淡化了。结果就是,无论输入什么样的用户描述,AI输出的都是一个经过平均化处理的"理想用户形象",而不是那个真实的、有自己怪癖和个性的具体的人。

    七、OmniBehavior是怎么被造出来的

    理解这项研究的发现之后,或许有人会好奇:这张测试AI的"真实世界考卷"究竟是如何制作出来的?

    整个数据集的构建分为四个环节。第一步是数据收集。研究团队从快手平台收集了2025年9月1日到11月30日这三个月期间的真实用户交互日志。所有原始日志按照时间戳排列,形成跨越多个场景的统一时间线。每个用户行为都附带丰富的内容元数据,包括视频字幕、OCR识别出的图面文字、ASR转写的音频内容、商品描述,以及播放量、点赞数等互动统计。

    第二步是数据清洗,分为行为层面和文本层面两个维度。行为层面的清洗旨在去除"噪音"行为——比如用户不小心触碰屏幕导致的误操作,或者把手机放在一边导致的无意义播放。研究团队通过统计方法确定了阈值:视频观看时长超过879秒(约14.6分钟)的记录被视为异常,直播停留超过9601秒(约2.7小时)的也被剔除,最终每位用户平均去除了91条噪音记录。文本层面的清洗则用正则表达式去掉了乱码和口吃词,并用Qwen2.5-72B模型进行语义校正,OCR文本压缩了85.9%,ASR文本压缩了5.2%,大幅提升了文本质量。

    第三步是代表性用户采样。从数亿用户中最终只保留200名,这200人需要尽可能代表整个用户群体的多样性。研究团队给每位用户构建了一个多维特征向量,涵盖年龄、性别等人口统计信息,交互频率和活跃天数等活跃度指标,对不同内容类别的偏好分布,以及在五个场景中的使用频率。随后用K均值聚类算法把用户分成若干个行为相近的群体,从每个群体中选出最具代表性的那一位,最终汇聚成这200人的样本。

    第四步是数据匿名化。研究团队在本地部署了Qwen3-235B模型,识别并替换掉所有可能泄露个人身份的信息,比如姓名、电话号码、地址等,一律用占位符代替。涉及仇恨言论、暴力等有害内容的记录也被自动标记并剔除,最后经过人工核验确保合规。

    最终形成的数据集包含了200名用户三个月的完整行为轨迹,平均每位用户有8143条行为记录,折合约3.2万个token,序列最长的用户超过10万步,充分体现了真实用户行为的长时间跨度特性。

    说到底,这项研究想传递的核心信息其实很直白:当AI被要求扮演人类的时候,它扮演的并不是真实的人,而是它心目中人类"应该"是什么样子。它会把每个人都塑造得更热情、更礼貌、更像教科书里描述的理想消费者,而现实中那个会发脾气、会无聊地刷手机、会因为各种奇怪原因买东西或不买东西的真实的人,在AI的模拟中几乎消失不见了。

    这个发现对许多依赖AI用户模拟的应用场景有深远影响。如果推荐系统用AI模拟的"用户"来测试算法,它可能会发现算法效果很好,但在真实用户身上却表现平平,因为那些被忽视的负面反馈和非典型行为才是最有价值的信号。如果社会科学家用AI模拟的参与者来做实验,结论可能充满了"人人向善"的乐观偏差。

    研究团队为这个领域提供了一张清晰的路线图:未来的AI用户模拟需要更好地处理跨场景的因果依赖,需要真正能理解超长行为历史的记忆机制,更重要的是,需要一种能够抑制"正向偏差"、主动学习长尾和负面行为的训练方法。

    这项研究本身的数据和代码承诺在完成数据审查后公开发布,感兴趣的读者可以通过论文编号arXiv:2604.08362在arXiv平台上找到完整原文,深入了解所有实验细节和技术方法。

    Q&A

    Q1:OmniBehavior测试基准和之前的AI行为测试有什么根本区别?

    A:此前的测试基准大多只覆盖单一场景(比如只测电商购物或只测视频浏览),而且很多使用人工合成的假数据。OmniBehavior是第一个完全基于真实用户数据、同时跨越五个场景(视频、直播、电商、广告、搜索)、记录三个月完整行为轨迹的评测体系。研究发现,单一场景数据会遗漏约20%到30%的用户真实兴趣,而超过80%的重要决策(比如购买行为)都跨越了多个场景。

    Q2:AI模拟用户时的"正向平均人偏差"具体会导致什么实际问题?

    A:这种偏差会导致三方面的实际危害。第一,AI模拟的用户互动率比真实用户高40%到60%,意味着依赖AI模拟来测试推荐算法的企业会看到虚假的高互动率,无法识别用户流失信号。第二,AI无法模拟出愤怒、抱怨的用户,导致客服系统训练数据失真。第三,AI把所有不同类型的用户都模拟成相似的"平均人",无法反映真实用户群体中存在的个体差异,研究结论缺乏代表性。

    Q3:给AI提供更长的历史记录,为什么反而不能帮它更好地预测用户行为?

    A:研究发现,将上下文从16K token扩展到128K token并不能稳定提升预测准确率,有时甚至会让表现变差。这是因为现有AI在处理超长文本时会"迷失在中间"——只有开头和结尾的内容能被较好记住,中段信息容易被忽视。同时,用户行为之间的关联往往是因果性的而非语义上相似的,简单增加信息量并不能帮助AI理解这些隐性的因果关系,需要专门设计的记忆管理机制才能解决。

    【纠错】【责任编辑:可可西里2】