为什么我的用户研究报告漂亮、完整、有引语,但没任何价值

2026/5/15 · 约 14分钟阅读 · 用户研究 / 方法论 / 商业咨询

过去经历过这样的循环——收到研究需求,辛辛苦苦收集一堆数据,定量定性一起上,过程一顿操作猛如虎,结果挨叼到心里犯嘀咕。报告看起来严谨、专业、很能唬人——对方应该一定看到了报告里我在不同的行间距与字体上严格把控的极致审美。但实际上落地起来对业务没任何价值,缺乏落地实操的机会。

问题不在于我写得不够细致——是方向一开始就错了。

结论:用户画像和用户人设是两类不同的东西。它们各自有八条主要的来源,每条来源都有自己最适合的研究阶段、能产生的价值、做不到的事。错配了任何一条,交付物就会“漂亮但没用”。这是我用了几年才想清楚的事,这篇文章把它铺开。

一、画像和人设——两个被混用了几十年的词

最先要清算的是两个被广泛混用的词。

用户画像(User Profile / Segmentation) 本质上是一个统计学产物。它是在已观察到的用户群体里,用某些维度做切片,得出“这群人是 X%、那群人是 Y%”的人群结构。它回答的是**“市场长什么样”**。

形态上,它是人群细分表、占比数据、漏斗转化率。颗粒度是群体级的。用途集中在定价、选品、渠道分配、市场容量估算这些需要“统计语言”的决策。

用户人设(Persona) 本质上是一个叙事建构产物。它是在画像基础上,把抽象的统计特征压缩成一个具体的、有名字、有故事、有动机、有约束的“虚构个体”。它回答的是**“我们在为谁做决策”**。

形态上,它是一页纸的人物档案,带场景、痛点、引语、决策路径。颗粒度是个体级的(虚构)。用途集中在产品决策、文案、UX、销售话术、团队对齐这些需要“人话”的决策。

这个区分听起来像教科书,但混淆它的代价是真实的。

老板说“给我用户画像”,可能真正想要的是 persona——他要的是开会拍板时能指着说“我们这次产品就是为了林女士做的”。研究公司按字面交付画像,给一堆切片数据——老板拿到说“这不能用”,但说不清为什么不能用。反过来也成立——老板要 persona,乙方交了一堆叙事饱满的“虚构人物”,但没有量化基础,无法做投流人群包,无法估算市场容量。

第一步永远是确认对方要的是统计切片还是叙事建构。这两件事的交付物形态、所需数据、研究方法,完全不同。

更难的是——一份完整的用户研究往往同时需要两者。画像告诉老板“这群人有多大”,人设告诉老板“这群人是怎么决策的”。前者支持资源分配,后者支持产品决策。两者缺一不可,但它们各自的生产路径完全不一样。

二、画像的八条来源,三种性质

基于挨叼经验,我试着把目前用户研究里所有能产出画像或人设的方法归到八条来源,按“信息从哪里来”分成三组(欢迎补充)。

数据驱动——从真实人或真实记录里来

这一组的共同特征是,信息源是真实存在的人或真实发生过的记录。成本最高,但产出的可信度也最高。

(F)一手访谈与田野观察

包括深访、焦点小组、影随观察、入户研究。它能给你的是动机层、决策路径、未被语言化的痛点、第一手情感语气。一个全屋定制场景里,为什么林女士同样的预算最后选了 A 而不是 B——这种问题问 10 个人会有 8 个不同答案,但 8 个答案里有 1-2 个共同结构,那就是金子。

它做不到的是规模化、便宜、快。一手访谈永远是小样本,不能拿它做“15% 的用户怎么想”这种统计判断,不能用它做投流人群包。

(B)已有数据:外部公开

包括社媒、论坛、竞品评论、行业报告、Trustpilot/Sitejabber/Google Reviews 这类公开评价。它能给你的是规模、零成本(相对而言)、看到从未联系到的人群——那些不在你的 CRM 里、没回过你客服的人,他们的声音在这里。

它做不到的事情有几个。第一,在公开平台留言的人是用户中最极端的两端(极满意 + 极不满意),中间 80% 的“还行”用户没声音。第二,平台偏差严重——Reddit ≠ TikTok ≠ Facebook 群组,在哪个平台抓数据,本身就在选择人群。第三,语义陷阱——用户写“quality issue”,可能指的是面料、印花、尺码、缝制四种完全不同的东西,机器抓取做词频会丢掉这个区分。

跨境电商 BI 场景里,我见过这样的情况:Trustpilot 上某品类的负评里全是“尺码不对”,但内部 CRM 的退换货数据显示主要问题是物流时效。这两份“数据”哪个对？都对——它们代表不同的人群在不同的渠道里发声。

(H)已有数据:内部存量

包括 CRM、销售记录、客服工单、退换货记录、广告后台数据。这是被极度低估的金矿——很多老板花几十万做外部研究,回来的洞察在自己的内部数据里早就躺着。

它做不到的事情核心只有一件:它只能告诉你已经成交或接触过的人,告诉不了你为什么没买的人没买。所有 H 里的数据本质上是“幸存者数据”——能进入数据库的都是已经被你的漏斗筛选过的。

给老板的一个具体建议:做外部研究之前,先把自己内部数据扒一遍。 如果不知道怎么扒,这件事本身就是一个项目——而且大概率是 ROI 最高的一个项目。

(G)定量问卷与统计建模

包括大样本结构性问卷、NPS / CSAT、聚类分析、Conjoint Analysis(选择联合分析)。它能给你的是在已知假设上的量化验证——比如你已经怀疑全屋定制场景里“环保诉求”被夸大了,问卷能告诉你它在购买决策权重里实际排第几。

它做不到的事情很关键:只能验证你已经想到的假设,不能告诉你你没想到的东西。问卷题目本身就是研究员认知的产物——你问什么题、用什么选项,已经先验地框定了答案的形状。一份在错误假设上的问卷,会用统计严谨性把错误结论包装得更可信(所以问卷非常适合用来做看起来科学的屎上雕花,当然这是我的方法论偏见)。

关键判断:问卷适合验证期,不适合探索期。 反过来用就是浪费。

经验驱动——从人脑里来

这一组的共同特征是,信息源不在数据里,在人的脑子里。成本几乎为零,但完全不可证伪——你信谁的经验,本身就是一个判断题。

(A)行业经验与逻辑推导

研究员基于品类常识、过往项目,推出“这个赛道一般有 X / Y / Z 三类人”。它能给你的是零成本、零等待——启动期最快的假设来源(可以用来测研究员的行业经验,面试起来很好用)。

它做不到的事情有四条:第一,幸存者偏差,经验来自做过的项目,但每个项目的样本都是非随机的。第二,路径依赖,经验越深越容易把新赛道往老赛道的模板上套(“定制服装跟定制礼品其实差不多”——真的吗？)。第三,不可证伪,没人能反驳“我做过 10 年这行”,但 10 年前的洞察今天可能完全失效。第四,甲方陷阱——甲方自己往往也有“行业经验”,两套经验对撞时,乙方的经验权威性永远输给甲方的内部数据。

唯一恰当的位置:启动前的假设生成(用来忽悠老板)。绝不能作为最终交付的主要依据。

(I)销售一线的隐性知识

销售见过最多客户、听过最多异议、知道哪些话术能成单。这些从来不会进入用户画像,因为销售自己说不清,研究员也不知道该问什么。

它能给你的是 CRM 里没有的部分。我过去深访的一个家居建材门店导购知道“哪种夫妻进店就别推欧式,他们会进来转一圈就走”;电话销售知道“客户说‘我再考虑一下’时,有几种不同的语气分别意味着什么”;售后客服知道“投诉里哪些是真问题,哪些是用户自己情绪没处理好”——这些判断不进任何数据库,但它是真实的。

它做不到的事情是:销售自己说不清。你直接问“你为什么觉得这单能成”,他往往回答“感觉对”。研究员需要有能力让一个不擅长表达的人,把自己都不知道自己知道的东西显性化。这种能力混合了领域专家、人类学家、翻译者三种角色。

具体建议:做用户研究之前,先安排研究员跟你的销售坐下来三场两小时的对话。 一个有经验的研究员能从这里挖出半份 persona,而成本几乎为零(但记得请他吃饭)。

推理驱动——从框架里来

这一组的共同特征是,不直接产出洞察,产出分析框架。框架空着没用,但没框架数据再多也是散的。

(C)理论模型推导

包括 JTBD(Jobs-To-Be-Done,任务理论)、Kano 模型、用户旅程图、心理学模型(自我决定理论、损失厌恶、社会认同等)。它能给你的是跨品类通用、结构化、可作为采访提纲骨架、能补足数据看不到的动机层(JTBD / Kano / 旅程图这些理论的深挖会在我的官网逐步更新)。

它做不到的事情有几个。第一,理论的不可证伪性——Kano 分类是事后归纳,同一个需求在不同人群可以同时是基本/期望/兴奋。第二,理论的本地化失效——JTBD 在 SaaS 验证得很好,在强情感+强社交+强一次性消费的品类里,“job”的定义本身就有歧义。第三,理论叠加的过拟合——同时用 JTBD + Kano + 旅程图 + 心理学,每个模型都在切数据,最后切出来的“洞察”可能只是模型自身的产物,不是用户的真实状态。

关键判断:理论是望远镜,不是望远镜里的星星。 它帮你看,但看到什么取决于真实数据。

(D)人群与场景拆解

包括消费者 / 决策者 / 使用者三角分离 + 场景拆解(What / When / Where / With Whom)。它能给你的是 B2B 和复杂决策品类里唯一能解释“为什么明明用户喜欢、决策者还是没买”的方法。

全屋定制场景里,决策三角通常是:决策者(妻子主导)/ 付款人(可能是双方父母帮付一部分)/ 使用者(包括没参与决策的小孩和老人)。三者痛点完全不同,甚至冲突——决策者要省心和品质,付款人要透明和分摊,使用者(小孩)要好玩好看。一个 persona 如果没分清这三个角色,产品决策就会经常做错——做了让“使用者爱”的设计,但“决策者”觉得乱,“付款人”嫌贵。

它做不到的事情是:拆解粒度的主观性——是把“夫妻”当一类还是分两类？没有客观标准。拆得越细验证越贵,3 类人 × 4 个场景 = 12 个细分,每个都要访谈就是 60+ 次访谈,远超大多数项目预算。

关键判断:探索期做粗拆(3-5 类即可),验证期才细化。 给老板的最终交付物里,人群最多 4-5 个 persona,再多就失去决策价值。

三、八条来源 × 四个研究阶段——它该去哪儿

每条来源都有它该出现的研究阶段。错位的代价不是“做得不好”,是“花了钱但没产出能用的东西”。

我把研究阶段拆成四段:

H0 假设生成(启动前 1-2 天,列出待证伪的假设池)
Sprint 0 探索期(2-4 周,验证赛道是否值得做、画粗轮廓)
Phase 1 主流程数据采集(4-8 周,一手数据 + 量化结构)
Phase 2-3 深度验证与人设成形(4-6 周,persona 成形 + 业务建议)

这张矩阵图把八条来源在四个阶段的位置铺开。有几条匹配规律值得讲清楚——

规律一:探索期数据驱动比重低,推理驱动比重高。

Sprint 0 之前,你还不知道该问什么——这时候大量收集数据是浪费。探索期的主力是行业经验(A 经验推断)、理论模型(C 框架推导)、人群粗拆(D 决策三角)、外部数据轻扫(B 社媒论坛)。一手访谈(F 深访)、问卷(G 定量)、销售挖掘(I 隐性知识)在这一阶段是辅助,不是主力。

很多研究项目在 Sprint 0 阶段就开始大规模发问卷,这是典型错配——你都还没想清楚该问什么,问出来的只能是“用户对环保的关注度是 7.2/10”这种没法做决策的数据,开掉那些用问卷调查做探索性研究的叼毛(淋雨撕伞)。

规律二:验证期推理驱动退出,数据驱动接管。

Phase 1 开始,A(行业经验)和 C(理论模型)必须退出主导位置——再继续用经验和理论会过拟合到研究员自己的认知偏差里。这一阶段的主力变成 F(一手访谈) + H(内部数据) + G(定量问卷)三件套。D(人群拆解)从粗拆变成细拆,精细到决策三角中每一类的具体路径。

规律三:深化期是叙事建构,所有数据汇入人设。

Phase 2-3 是 persona 成形阶段。这时候所有来源都在为“塑造可信的虚构人物”服务。Persona 是叙事产物,数据是它的骨架,经验是它的血肉,理论是它的姿态——缺一不可。但要警惕一件事:这一阶段最容易出现“漂亮但没用”的报告,原因往往是后面第五节要讲的——没有从业务动作倒推。

规律四:错配的具体代价。

Sprint 0 阶段用 G(定量问卷)——典型错配,因为你还不知道该问什么,问卷只能验证你已经想到的;结果是问出来一堆没法做决策的数据。
Phase 1 阶段还在用 A(行业经验)主导——典型错配,这阶段需要一手数据,继续用经验等于在用 Sprint 0 的方法做 Phase 1 的钱的事。
Phase 2-3 阶段不做 D(决策三角拆解)——交付 persona 但没有三角分离,老板拿到说“这个 persona 长得像我们的客户,但我不知道她是付钱的那个还是用产品的那个”。

每一种错配都意味着真实的预算浪费,而且这种浪费在交付时不容易被察觉——只在三个月后老板问“上次那个研究里说的那个人群,我们到底要不要打”的时候,才会暴露出来。

四、第九条:AI 合成用户——我正在用,所以我比反对它的人更有义务说清楚它的边界

2024 年开始,一种新的“用户研究”在乙方提案里频繁出现——AI 驱动的合成用户。让 LLM 扮演 100 个目标用户,对你的产品做反馈;不用招募、不用激励、不用 IRB 审批、一周出报告。

AI 合成用户是 2024-2026 出现的新工具——它对大部分追求短期开发迭代、要快速看到投资回报的商业场景非常有价值(速度快、可快速验证、成本低),但它也不可控,使用之前必须理清它的价值边界。我自己正在用这种方法,所以我比反对它的人更有义务说清楚它能做什么、做不了什么。

4.1 它在哪些场景里真实有价值

在已经有大量真实数据(F 访谈记录、H 内部数据、I 销售对话)的基础上,把这些素材压缩成可对话的 AI persona——这种“多源数据集成后构建的有明确人格特质 + 场景 + 用户体验旅程图的 AI 画像”,这是数字孪生用户研究。

它的真实价值在这几个场景:

产品方案的快速预演——一个新功能上线前,先在数字孪生上跑 20 种用户路径,识别明显的问题路径,再去找真人验证。
营销文案的初筛——10 条文案先让数字孪生评一遍,挑出 3 条再去做真人 A/B。
决策路径的假设性测试——“如果我们把定价从 X 调到 Y,这群用户会怎么反应”——数字孪生能给一个有结构的假设,但只是假设。

适合的场景共性是:已经做过基础真实研究的项目,用 AI 做加速迭代。本质上,它是真实数据的二次封装,不是真实数据的替代品。

4.2 它做不到什么

它没有真实的“在场”——它只能给出训练数据里已经存在的反应模式。它学不到那种“被一个具体的人坐在面前说话”时所传递的、无法被语言完整描述的信号——表情犹豫、语速变化、说错又改口、看你一眼再决定要不要说真话。

更本质的是:它是把训练数据里“用户论坛发言”重新打包出来的——你拿到的是已经存在于互联网上的声音的浓缩版本,而真正有价值的用户洞察恰恰是还没进入互联网的那部分。

对全新品类、新人群、新场景几乎没用——它没有这部分训练数据。一个还没有任何用户数据的早期产品,用 AI 合成用户跑出来的反馈本质上是研究员自己的认知镜像,因为 AI 只能基于研究员的输入和它学到的通用语料生成回应(顺便说一句,这种“研究员自己照镜子的研究”用来水顶刊贼简单——但用来做商业决策,是给自己挖坑)。

4.3 我自己的具体用法

我不用 AI 合成用户做发现,我用它做加速迭代。具体顺序是:

先用 F(深访) + H(内部数据) + I(销售挖掘) + B(外部数据) + G(问卷) 把真实数据做扎实——主线工作不省。
然后把这些数据喂给 AI,构建有明确人格 + 场景 + 旅程图的数字孪生——通常是 3-5 个,每个对应一个核心人群。
之后所有产品 / 营销 / 服务方案先在数字孪生上跑一遍——快速过滤掉明显有问题的方案。
留下的方案再去找真人验证——真人验证的数量因此从 30 减到 10,但每一次的质量更高,因为问题已经被预筛过。

这套方法不是“省钱省时间”——它的价值在于把研究员的判断力延伸到更多的决策点。一个研究员一周能见 5 个真人,但数字孪生能让他在同一周里跑 50 次方案预演。

4.4 给老板的具体警告

如果有乙方告诉你“我们用 AI 合成用户,不需要做一手研究”——这是错的,远离这种乙方。
如果有乙方告诉你“我们在真实数据基础上用 AI 加速决策预演”——这是值得考虑的,继续看他们的具体方法。
判断方式:让对方展示数字孪生背后的真实数据基础。如果他们说不清“这个 AI persona 是基于多少场访谈、多少条内部数据、多少次销售对话训练出来的”——那它就是空心的,不要买。

五、从业务动作倒推——决定你买什么的不是研究方法

这一节是文章的真正决策点。

研究方法的对错不在方法本身,在它能不能接上你下一步的业务动作。同一个用户研究项目,如果甲方的下一步是 A 动作,该用一套方法;如果是 B 动作,该用完全不同的另一套。

5.1 几种典型业务动作对画像的不同要求

投流买量 → 需要人群标签 + 渠道偏好(画像层,主要靠 B 外部数据 + H 内部数据 + G 定量问卷)
选品 / SKU 规划 → 需要场景 + 任务(场景拆解层,主要靠 D 决策三角 + F 深访 + I 销售挖掘)
销售话术与培训 → 需要决策路径 + 异议点(人群三角层,主要靠 I 销售挖掘 + F 深访)
长期品牌定位 → 需要叙事原型 + 情感诉求(人设层,需要全套来源汇入,F / I / D / C 都不可少)
融资 / 估值故事 → 需要赛道画像 + 增量空间(画像层 + 市场容量估算,主要靠 B 外部数据 + 行业报告 + G 大样本问卷)

这五种动作需要的研究方法、交付物形态、所需数据,完全不同。 一份用“投流买量”方法做出来的研究,交付给一个要做“长期品牌定位”的老板,他拿到的就是“漂亮但没用”。

5.2 真正的判断顺序

正确的顺序是反过来的——

先问甲方(或问自己):未来 6-12 个月最重要的 3 个业务动作是什么？
每个业务动作需要什么颗粒度的用户认知？
据此决定研究的来源组合、阶段重点、交付物形态。

很多研究项目的失败,是因为这个顺序反了——先决定研究方法,再去找业务动作能不能接上。 这样交付出来的东西必然是“全能型 persona”,看起来什么都能用,实际上什么都用不上。

5.3 两个对照案例

全屋定制赛道的甲方 如果未来要做的是“从经销商网络转向直营高端店”——主战场应该是 D(决策三角:夫妻里谁主导、设计师是不是利益相关方) + F(深访) + I(销售一线知识)。预算应该重点放在线下访谈和门店一线的隐性知识挖掘上。

跨境电商 BI 项目的甲方 如果未来要做的是“在 Trustpilot 评分提升 0.3 分,带动转化率”——主战场应该是 B(外部公开数据:Trustpilot 评论的语义拆解) + H(内部退换货 + 客服工单交叉) + G(NPS 问卷验证)。预算应该重点放在数据集成和定量验证上,F(深访)和 I(销售挖掘)反而不是主菜。

这两套组合的预算、时长、人员构成完全不同。把跨境电商 BI 那套方法搬到全屋定制上,等于花钱买错东西。

六、回到开头那份报告

回到文章开头那份让我挨叼的报告——它问题在哪。

它有引语——说明做了 F(用户声音引用)。
它有 persona——说明做了 D(人群拆解)的一部分。
它有数据——说明做了 B(外部数据)或 G(定量问卷)。
它漂亮、完整、行间距字体都讲究——说明研究员投入了心力。

但它没价值的真正原因,事后看,是这几条叠加:

第一,没有从业务动作倒推。研究员(包括过去的我自己)不知道甲方拿到之后要做什么决定,所以交付的是“全能型 persona”——每个 persona 都长得很饱满,但没有一个能直接接上具体的业务动作。

第二,阶段错配。可能是在 Sprint 0 阶段交付了 Phase 2-3 的产物(过早细化),也可能是在 Phase 2-3 阶段还停留在 A(行业经验)+ C(理论模型)的推理(过晚还在用经验)——两种错配看起来不同,后果一样。

第三,来源单一。只用了 F(深访)和 D(粗略人群拆解),缺了 H(内部数据)和 I(销售一线知识)——这两个本来可以让 persona 长得完全不一样的来源,被研究员当作“非正式”忽略了。一份只靠外部访谈撑起来的 persona,跟甲方自己内部数据交叉时往往对不上,这种对不上会让老板对整份报告失去信任。

第四,没有数字孪生延伸。交付方有研究员的判断力,但这份判断力被锁在一份 80 页 PDF 里——甲方拿回去之后,90 天里每一次具体决策都需要再次召唤研究员,但研究员已经撤了。研究员的判断力没办法延伸到甲方的每一个具体决策点。

那份报告的命运是:老板读完觉得很好,但没法用;三个月后还放在抽屉里;一年后做新一轮研究,新乙方进来,这份报告作为“上一轮研究”被简短回顾,然后归档。

这是我自己交付过的报告的真实命运,也是我用了几年才想清楚的事。

收尾

行笔至此,收到了 L 小姐的意外生日祝福。

四月之后,我结束了自己桌面研究推动下的闭门造车,又开始出国做用户访谈、做产品的体验测试。这些一手的、需要在场的工作,对我过去方法论上的偏科是巨大的补足——桌面研究和 AI 加速能给我大量结构,但给不了我那种“被一个具体的人坐在面前说话”时所传递的、无法被语言完整描述的信号。

过去我花了很多时间补足我在量化方面的不足,但 AI 的时代下,定性的深访能力越来越成为稀缺物,我又回到了我的舒适圈,编程使我变成 I 人,但用户触达需要重新激活我的 E 属性。

回国后我跟许多人聊过这件事——从初创公司的老板、到上市公司事业部的负责人。大家的反馈和对用户研究的看法,在很多问题上已经能达成共识:画像和人设的混淆要清,业务动作要倒推,内部数据要先扒,AI 加速不能替代一手研究。

共识在,但真正的价值落地,道阻且艰。

因为共识停留在认知层,而落地需要的是每一个项目里——研究员和老板共同把“漂亮完整”换成“敢做决定”的耐心。这件事不能靠一篇文章解决,只能靠一次一次具体的项目慢慢累积。

这段时间跟很多老板和大牛们聊我对品牌建设的定义——品牌是用户心智。我用这个唬住了很多人,包括我自己,并践行这件事,而用户研究的核心价值是将品牌价值从功能实现上提升到心智层,这是一个过程(用研本身),这是一个过程(组织行动),这是一个过程(品牌建设)。

用户研究的真正产出不是报告,是甲方下个 90 天敢于做出的决策。