中科院软件所等揭示：大模型模拟人类存在完美主义幻觉偏差突破

这项由中国科学院软件研究所、中国科学院大学与快手科技联合开展的研究，于2026年4月以预印本形式发布在arXiv平台，论文编号为arXiv:2604.08362。研究围绕一个核心问题展开：当今最强大的AI大语言模型，究竟能不能像真实人类一样行动？

每个人每天都在数字世界里留下无数痕迹。早上醒来刷短视频，中午在直播间抢购商品，傍晚搜索一条感兴趣的新闻，晚上在电商平台咨询客服。这些行为零散却又紧密相连，共同构成了一个人真实的数字画像。现在，研究人员想知道，如果把这些行为序列交给大型AI模型，它能预测出下一步你会做什么吗？它能模拟出一个"像你一样"的人吗？

这个问题的意义远不止于技术好奇心。推荐系统需要预测用户下一秒想看什么；企业需要模拟用户行为来测试新产品；社会科学家希望用AI代替真人参与实验。如果AI真能扮演好"人类替身"，这将极大降低研究成本，加速各行各业的创新。

然而，研究团队发现，现有的测试基准（也就是用来评估AI能力的"考卷"）都存在一个严重缺陷：它们只测试AI在单一场景下的表现，比如只测购物行为，或者只测视频浏览，而且大量使用人工合成的假数据。这就像只通过一道数学题来判断一个学生的综合素质——考卷本身就是错的。

正因如此，研究团队构建了一个名为OmniBehavior的全新测试基准，这是目前第一个完全基于真实用户数据、同时覆盖多场景、长时间跨度的人类行为模拟评估体系。数据来源于拥有超过4亿日活用户的快手平台，囊括了200名真实用户长达三个月的完整行为轨迹，涵盖短视频浏览、直播间互动、电商购物、广告点击和搜索行为五大场景，共记录了22种不同类型的用户动作。

研究团队用这张"真实世界考卷"对包括Claude-4.5-Opus、GPT-5.2、Gemini-3-Flash、DeepSeek-V3、Qwen3-235B在内的一系列顶尖AI模型进行了全面评测，结果令人深思：即便是表现最好的模型，整体得分也只有44.55分（满分100分）。更关键的是，研究团队发现AI模型在模拟人类时存在一种系统性的结构偏差——它们倾向于把所有人都模拟成一个"积极友善的普通人"，而真实的人类世界远比这复杂和混乱。

一、为什么单一场景的数据是一张"残缺的地图"

假设你要为一位从未见过面的朋友挑选一件生日礼物。你只有两种信息可以参考：第一种，你知道这位朋友最近三个月在所有场合的消费记录、浏览历史、搜索关键词和聊天内容；第二种，你只知道他上个月在一个电商平台买过几件商品。显然，第一种信息让你能够勾勒出一个立体的人，而第二种只是一个模糊的轮廓。

这正是OmniBehavior研究团队最先想验证的问题：单一场景的数据究竟有多"残缺"？

为了回答这个问题，研究团队从用户历史中提取了他们真实点赞、收藏过的内容，并用AI分析每个内容背后对应的兴趣类别和关键词，最终为每位用户绘制出兴趣画像。当只使用视频浏览数据时，用户画像会呈现出某一种面貌；当只使用搜索数据时，又是另一种面貌。这些单场景画像往往片面而失真，就像盲人摸象，每个人摸到的只是大象的一部分，没有人能描述出完整的大象。

定量数据更加直白。研究人员发现，如果只看搜索行为，用户的兴趣类别覆盖率仅为2.4%，兴趣关键词覆盖率也只有0.4%。加入电商数据后，兴趣类别覆盖率跳升至14.4%，关键词覆盖率达到8.3%。再叠加广告数据，分别达到23.6%和14.1%。加入直播数据后，覆盖率继续攀升至57.6%和26.2%。当五个场景的数据全部汇聚在一起，才能达到100%的完整覆盖。换句话说，每引入一个新的场景，都会让我们对一个用户的了解增加约20%到30%。单独使用任何一个场景，都只是在管中窥豹。

这一发现为后续的所有研究奠定了基础：要真正理解和模拟一个人，你必须同时观察他在多个生活场景中的行为，不能只盯着某一个角落。

二、一次购买背后，隐藏着长达数周的"因果链条"

买一部手机，真的只是"看到一款手机然后下单"这么简单吗？

研究团队从数据中随机抽取了180个高价值购买行为（比如用户完成了一笔商品交易），然后像侦探一样往前追溯——这笔交易背后，究竟发生了什么？

数据给出了一个令人深思的答案。超过60%的购买决策，依赖于三天以前乃至更早时候发生的行为作为触发线索。这打破了传统分析中"用户在当次会话里做决定"的假设，就像你以为消费冲动是一时的念头，实际上它已经在脑海中积累了好几天。

更关键的是，81.8%的购买路径跨越了不止一个场景。也就是说，大部分重要的消费决策，不是在单一场景内酝酿完成的，而是在多个场景之间反复穿行后才最终落地。

研究团队在论文中呈现了一个生动的真实案例。一位用户在9月25日通过搜索"小米发布会"开始对某款手机产生兴趣。两天后，他在直播间看到了小米17 Pro Max的新品预售，随后又在视频里比较了小米17 Pro与Pro Max的差价是否值得。9月30日，他又看了一个对比三款旗舰手机的视频。10月3日，他浏览了手机钢化膜评测。10月8日，他在广告中再次看到了小米官方旗舰店，并在直播间看到了预售信息，最终在当天晚上通过电商下单购买。

这条从"搜索"到"下单"的路径整整跨越了12天，穿越了搜索、直播、视频、广告、电商五个场景。如果任何一个中间步骤被切断，都可能改变最终的购买决定。那些只记录单一场景的数据集，相当于把这条因果链条拦腰斩断，让AI看不到完整的故事，自然也就无法做出准确的预测。

三、人工合成的"假用户"，和真实用户差了多远

除了跨场景和长时序这两个维度，OmniBehavior的研究团队还想弄清楚另一件事：用AI生成的模拟用户数据，和真实用户数据之间，到底差在哪里？

研究团队将OmniBehavior中的真实用户数据，与LoCoMo这个知名的长期记忆模拟数据集进行了对比。LoCoMo的数据是通过AI生成的，模拟了用户在长期对话中的兴趣变化。

研究者用同样的方法，追踪了两组用户在80天内的兴趣主题分布，看看它们是如何随时间演变的。真实用户的兴趣变化就像一条蜿蜒的河流——不同的兴趣主题此起彼伏，相互交织，缓慢而自然地流动，某天对动漫感兴趣多一些，某周对服装话题更关注，整体呈现出一种有机的、多维度交融的动态。

而合成用户的兴趣变化，则更像是一幅机械的折线图。兴趣会突然飙升，然后立刻断崖式归零，再突然出现另一个不同主题的高峰，整个模式生硬、程序化，缺乏真实人类行为中那种自然的惯性和惰性。

研究团队用一个叫做"1减Jaccard相似度"的指标来量化这种差异——这个数字越高，说明相邻两天的兴趣变化越大。真实用户的平均值是0.6311，而合成用户只有0.1698，差距接近四倍。这说明合成数据严重低估了真实用户兴趣的动态性和复杂性，无法反映人类那种"今天对这个着迷，明天又被另一件事吸引"的真实节奏。

四、拿最强AI来"扮演"真实用户，成绩究竟如何

有了这张基于真实数据的全面考卷，研究团队接下来做了一件让人期待又略感忐忑的事：让目前最顶尖的AI模型来参加考试。

测试的设定是这样的：给AI一份用户档案、一段完整的历史行为序列，再加上当前场景的具体信息（比如正在直播的内容、正在展示的商品），然后要求AI预测这个真实用户接下来会做什么。比如，这个用户会点赞这条视频吗？会把这件商品加入购物车吗？会在客服对话中说些什么？

研究一共设计了6000个这样的预测任务，分布在视频、直播、广告、电商四大场景中，评测了11个顶尖模型，包括Claude-Opus-4.5、Claude-Sonnet-4.5、Claude-Haiku-4.5、Claude-Sonnet-4、Gemini-3-Flash、GPT-5.2、GPT-4o，以及开源的GLM-4.7、DeepSeek-V3、Kimi-K2-Instruct和Qwen3-235B。

结果怎么样？表现最好的Claude-Opus-4.5拿到了44.55的综合得分，大多数模型集中在32到41分之间。对于一项"扮演真实用户"的任务来说，这个成绩相当于不及格。

从具体数字来看，问题尤为突出。对于"点赞"这类最基础的二元行为预测（用F1分数衡量，满分100），大多数模型得分都不超过40%。在广告场景的购买预测中，Claude-Opus-4.5的F1分数为29.98，GPT-5.2为29.32，Qwen3-235B仅有19.22。这意味着AI在预测"这个人会不会买这件商品"这件事上，正确率相当有限。

有意思的是，排名第二的并非某个知名闭源模型，而是开源模型GLM-4.7，得分41.46，超过了Claude-Sonnet-4.5的40.49和GPT-5.2的39.07。同时，DeepSeek-V3在电商场景的购买行为预测中（33.31），甚至超过了Claude-Opus-4.5（29.98）。这说明在特定细分任务上，开源模型完全有能力与顶级闭源模型一较高下。

五、更长的记忆反而帮不上忙——AI的长上下文困境

既然用户的行为序列那么长，那么给AI提供更多历史信息，是不是就能帮助它做出更准确的预测？

研究团队专门针对这个问题做了实验。他们筛选出66位历史行为记录超过12.8万个token（大约是一本中等厚度小说的篇幅）的用户，然后把提供给AI的上下文长度从16K token逐步扩展到128K token，观察预测准确率的变化。

结果出乎意料地令人沮丧：增加上下文长度并不能稳定地提升预测准确率。在多个模型上，从16K扩展到32K会有一定提升，但继续扩展到48K、64K甚至128K时，性能曲线开始震荡甚至下降，并没有随着信息量的增加而持续改善。

这一发现和学术界此前观察到的"迷失在中间"现象高度吻合——AI在处理超长文本时，往往会遗忘或忽视位于文本中段的信息，只有头尾的内容能被较好地记住。换句话说，尽管现代AI模型已经能够"阅读"几十万字的文本，但它们并不真正"理解"和"记住"这些内容。

研究团队还测试了三种常见的记忆管理策略，看能否解决这个问题。第一种是"截断法"，只保留最近的一段历史；第二种是"检索增强法"（RAG），根据当前场景的相似性从历史中检索最相关的100条行为；第三种是"摘要法"，每当历史积累到4000个token就压缩总结一次。

三种方法都在Qwen3-235B上进行了测试。结果发现，摘要法的平均表现最好（24.27分），相比截断法（21.13分）提升了约14.9%，在直播场景下的提升尤为明显（从23.84分跳升至31.06分）。而检索增强法的表现反而不如截断法（20.38分，下降3.6%），在电商场景中甚至出现了明显退步。

原因在于，检索增强法依赖"语义相似性"来匹配历史行为，但用户行为之间的关联往往是因果性的，而非字面上相似的。比如，一个月前看了一个手机评测视频，和今天在直播间购买手机，语义相似度很低，但因果关联很强，检索算法无法识别这种隐性联系。摘要法虽然能保留全局趋势，但在压缩过程中不可避免地会丢失细节。总体而言，这三种方法都只是权宜之计，都无法真正解决AI面对长期、复杂用户历史时的理解瓶颈。

六、AI眼中的"理想用户"：一个永远积极、礼貌、没有个性的人

如果前面的发现还只是"AI的能力不够强"，那么接下来的发现则触及了一个更根本的问题：AI在模拟人类时存在一种系统性的认知扭曲。研究团队把这种扭曲称为"正向平均人偏差"，具体表现为三种相互关联的现象。

第一种现象叫做"超活跃偏差"。在真实世界中，用户对内容做出积极互动（比如点赞、收藏、加入购物车）的频率其实非常低，通常不超过所有浏览行为的10%。这是人类行为的自然稀疏性——大多数时候我们只是漫无目的地刷刷刷，并不会对每条内容都点赞。

然而，所有被测试的AI模型都倾向于大幅高估用户点赞和互动的频率。Qwen3-235B和Gemini-3-Flash的预测结果中，积极互动率比真实人类高出40%到60%，相当于把一个"偶尔点赞"的普通用户，错误地模拟成了一个"几乎每条都点赞"的热情粉丝。

这个问题的危害不止于数字失准。如果AI把用户模拟得过于活跃，企业就无法从中学习到"用户什么时候会停止互动"、"什么样的内容会让用户流失"这类关键信号，用户流失预警系统将完全失灵。

第二种现象叫做"乌托邦偏差"，集中体现在电商客服对话中。这个场景特别有代表性，因为用户在寻求售后帮助时往往处于不满甚至愤怒的情绪状态，这正是测试AI能否模拟"负面情绪"的绝佳场合。

研究团队让Claude-Sonnet-4.5对真实用户和AI模拟用户的客服对话进行情感评分，评分从-1（极度负面）到+1（极度正面）。结果发现，真实用户的情感分布广泛，有相当比例的表达集中在-0.5到-1的负面区间。而所有AI模型生成的对话内容，情感分布都明显向0和正值方向集中，极少出现强烈的负面情绪。

研究团队进一步从五个语言风格维度对比了真实用户和AI模拟用户的措辞：礼貌用语的使用频率、缓和语气的程度、责任归咎倾向、情绪控制程度，以及顾全对方面子的程度。AI生成的用户发言在每一个维度上都比真实用户更"礼貌"——它们使用更多"请问"、"麻烦"、"谢谢"这类词汇，措辞更委婉，几乎不会出现"骗子"、"催死我了"、"赶紧给我退款"这类真实用户在遭遇售后问题时常见的直接、激烈表达。

这不是AI"不知道"人类有时会发脾气，而是它被训练成了"永远友善"的状态。AI的对齐训练让它本能地回避冲突、回避负面情绪，即便在扮演一个愤怒的消费者时，它也会不自觉地把措辞软化成一个"理性维权者"。

第三种现象叫做"人格同质化"。这是最深层的问题。研究团队用17个维度的行为特征（比如点赞率、分享率、购买率等）来给每位用户画一幅"行为画像"，然后计算两类距离：同一用户前后两段时间内行为的相似程度（内部距离），以及不同用户之间行为画像的差异程度（外部距离）。

对于真实用户，内部距离远小于外部距离，比例约为0.29。这意味着真实用户的行为在时间上相当稳定（同一个人的行为前后差不多），但不同用户之间的差异非常显著（每个人都有自己独特的行为风格）。

而AI模拟出来的不同用户，内部距离和外部距离之间的比例普遍在0.7到0.87之间。换句话说，AI模拟的不同"用户"之间，行为差异极小，几乎像是同一个人在不同时间点的重复。无论AI被要求扮演一个20岁的男学生还是一个45岁的家庭主妇，它最终生成的行为特征都高度相似，都趋向于某种"平均用户"的模板。

这种同质化的根源，可能在于AI的预训练数据中高频出现的是"普通用户的普通行为"，而那些小众的、非典型的、长尾的行为模式，在训练中被系统性地压制和淡化了。结果就是，无论输入什么样的用户描述，AI输出的都是一个经过平均化处理的"理想用户形象"，而不是那个真实的、有自己怪癖和个性的具体的人。

七、OmniBehavior是怎么被造出来的

理解这项研究的发现之后，或许有人会好奇：这张测试AI的"真实世界考卷"究竟是如何制作出来的？

整个数据集的构建分为四个环节。第一步是数据收集。研究团队从快手平台收集了2025年9月1日到11月30日这三个月期间的真实用户交互日志。所有原始日志按照时间戳排列，形成跨越多个场景的统一时间线。每个用户行为都附带丰富的内容元数据，包括视频字幕、OCR识别出的图面文字、ASR转写的音频内容、商品描述，以及播放量、点赞数等互动统计。

第二步是数据清洗，分为行为层面和文本层面两个维度。行为层面的清洗旨在去除"噪音"行为——比如用户不小心触碰屏幕导致的误操作，或者把手机放在一边导致的无意义播放。研究团队通过统计方法确定了阈值：视频观看时长超过879秒（约14.6分钟）的记录被视为异常，直播停留超过9601秒（约2.7小时）的也被剔除，最终每位用户平均去除了91条噪音记录。文本层面的清洗则用正则表达式去掉了乱码和口吃词，并用Qwen2.5-72B模型进行语义校正，OCR文本压缩了85.9%，ASR文本压缩了5.2%，大幅提升了文本质量。

第三步是代表性用户采样。从数亿用户中最终只保留200名，这200人需要尽可能代表整个用户群体的多样性。研究团队给每位用户构建了一个多维特征向量，涵盖年龄、性别等人口统计信息，交互频率和活跃天数等活跃度指标，对不同内容类别的偏好分布，以及在五个场景中的使用频率。随后用K均值聚类算法把用户分成若干个行为相近的群体，从每个群体中选出最具代表性的那一位，最终汇聚成这200人的样本。

第四步是数据匿名化。研究团队在本地部署了Qwen3-235B模型，识别并替换掉所有可能泄露个人身份的信息，比如姓名、电话号码、地址等，一律用占位符代替。涉及仇恨言论、暴力等有害内容的记录也被自动标记并剔除，最后经过人工核验确保合规。

最终形成的数据集包含了200名用户三个月的完整行为轨迹，平均每位用户有8143条行为记录，折合约3.2万个token，序列最长的用户超过10万步，充分体现了真实用户行为的长时间跨度特性。

说到底，这项研究想传递的核心信息其实很直白：当AI被要求扮演人类的时候，它扮演的并不是真实的人，而是它心目中人类"应该"是什么样子。它会把每个人都塑造得更热情、更礼貌、更像教科书里描述的理想消费者，而现实中那个会发脾气、会无聊地刷手机、会因为各种奇怪原因买东西或不买东西的真实的人，在AI的模拟中几乎消失不见了。

这个发现对许多依赖AI用户模拟的应用场景有深远影响。如果推荐系统用AI模拟的"用户"来测试算法，它可能会发现算法效果很好，但在真实用户身上却表现平平，因为那些被忽视的负面反馈和非典型行为才是最有价值的信号。如果社会科学家用AI模拟的参与者来做实验，结论可能充满了"人人向善"的乐观偏差。

研究团队为这个领域提供了一张清晰的路线图：未来的AI用户模拟需要更好地处理跨场景的因果依赖，需要真正能理解超长行为历史的记忆机制，更重要的是，需要一种能够抑制"正向偏差"、主动学习长尾和负面行为的训练方法。

这项研究本身的数据和代码承诺在完成数据审查后公开发布，感兴趣的读者可以通过论文编号arXiv:2604.08362在arXiv平台上找到完整原文，深入了解所有实验细节和技术方法。

Q&A

Q1：OmniBehavior测试基准和之前的AI行为测试有什么根本区别？

A：此前的测试基准大多只覆盖单一场景（比如只测电商购物或只测视频浏览），而且很多使用人工合成的假数据。OmniBehavior是第一个完全基于真实用户数据、同时跨越五个场景（视频、直播、电商、广告、搜索）、记录三个月完整行为轨迹的评测体系。研究发现，单一场景数据会遗漏约20%到30%的用户真实兴趣，而超过80%的重要决策（比如购买行为）都跨越了多个场景。

Q2：AI模拟用户时的"正向平均人偏差"具体会导致什么实际问题？

A：这种偏差会导致三方面的实际危害。第一，AI模拟的用户互动率比真实用户高40%到60%，意味着依赖AI模拟来测试推荐算法的企业会看到虚假的高互动率，无法识别用户流失信号。第二，AI无法模拟出愤怒、抱怨的用户，导致客服系统训练数据失真。第三，AI把所有不同类型的用户都模拟成相似的"平均人"，无法反映真实用户群体中存在的个体差异，研究结论缺乏代表性。

Q3：给AI提供更长的历史记录，为什么反而不能帮它更好地预测用户行为？

A：研究发现，将上下文从16K token扩展到128K token并不能稳定提升预测准确率，有时甚至会让表现变差。这是因为现有AI在处理超长文本时会"迷失在中间"——只有开头和结尾的内容能被较好记住，中段信息容易被忽视。同时，用户行为之间的关联往往是因果性的而非语义上相似的，简单增加信息量并不能帮助AI理解这些隐性的因果关系，需要专门设计的记忆管理机制才能解决。

【纠错】【责任编辑:可可西里2】

深度观察

新华全媒头条丨沈阳女儿走红后，聂远 11 岁女儿也发新歌，这些星二代太迫不及待