做 AEO 最棘手的地方,不是不知道该做什么,而是做完之后无从判断好坏。搜索时代,你至少有排名、点击、收录这些公认的标尺;到了答案引擎这边,大多数团队手里只有一句「感觉最近被提得多了一点」。没有标尺,优化就成了拍脑袋——这正是我们决定成立一支专职研究团队的原因。
为什么「凭感觉」靠不住
答案引擎和搜索框有个本质区别:它的输出不稳定、不透明、还会随时间漂移。同一个问题,换一次措辞、隔一天再问,推荐名单和引用来源都可能变。下面是我们在一次例行监测里,把同一个问题先后问两遍拿到的真实形态(已做脱敏):
豆豆包第 1 次提问
Q敏感肌、预算 200 以内,买什么国货面霜?
可以优先看看这几款:
- 研某·神经酰胺修护霜
- 和某·积雪草面霜
- 露某·保湿霜
参考来源小红书知乎
豆豆包第 2 次 · 措辞微调
Q敏感肌平价面霜推荐,200 块左右
性价比角度,这几款口碑比较稳:
- 露某·保湿霜
- 珂某·屏障修护霜
- 和某·积雪草面霜
参考来源小红书品牌官网媒体测评
同一意图、几乎相同的问题:推荐顺序变了、新进来一个品牌、连引用来源都不一样。这种波动,正是「单次截图」会骗人、必须靠重复测量取均值的原因。
所以靠一次截图、一条朋友圈截屏来下结论,几乎一定会被噪声带偏。要把「凭感觉」变成「看数据」,需要的不是更多截图,而是一套定义清楚、可重复、能被别人复现的测量方法。这件事,零散地做没有意义,必须有人专职、长期地做——这就是研究院的事。
我们怎么测:一套可复现的方法
研究的可信度,取决于方法能不能被复现和质疑。我们把核心流程固定下来,公开口径,任何人都可以照着自己跑一遍、或者来挑毛病:
| 环节 | 我们怎么做 | 为什么这样定 |
|---|---|---|
| 题库 | 按品类构建高频提问集,覆盖认知 / 比较 / 决策三类意图,固定下来长期复用 | 固定题库才能跨时间、跨平台横向对比,避免「这次问的和上次不是一回事」 |
| 平台 | 覆盖豆包、DeepSeek、文心一言等主流答案引擎 | 不同引擎信源偏好差异很大,只看一家会以偏概全 |
| 重复 | 同一问题多次询问、并对措辞做受控变体,取多次结果而非单次 | 答案有随机性,单次结果是噪声,多次取样才接近真实分布 |
| 记录 | 每条结果记三列:推荐了谁(及顺序)、有没有提到目标品牌(什么口吻)、引用了哪些来源 | 结构化记录才能聚合成指标,而不是停留在「印象」 |
| 周期 | 按固定节奏复测,留存历史,做趋势而非快照 | 平台逻辑会漂移,只有连续测量才能识别真实变化 |
我们不承诺「绝对客观」——任何测量都有边界。我们承诺的是口径透明:把题库范围、平台、取样方式和统计口径写清楚,让你能判断一个数字「能信到什么程度」,而不是要求你照单全收。
我们盯哪几个指标
「被 AI 怎么提」听起来很虚,但它可以被拆成几个能定义、能计算的指标。这是我们对外报告里反复出现的三个核心口径:
研究院核心指标体系(口径示意,非某一时点的真实数值)
条形长度仅示意各指标的角色权重,非实测占比。被提及率(题库里提到你的比例)是主指标;正面提及率看口吻、平均排位看位次、信源构成看 AI 从哪里取材。
这套指标的价值,在于把一个含糊的趋势变成可以对照、可以追踪的数字。有了它,「凭感觉」的争论才能落到「数据」上:
没有标尺 · 凭感觉
「最近豆包好像更爱推荐我们了?」
「DeepSeek 是不是不太提我们?」
——无法验证、无法对比、无法判断动作有没有用。
「DeepSeek 是不是不太提我们?」
——无法验证、无法对比、无法判断动作有没有用。
有了标尺 · 看数据
被提及率:本月 13/20,环比 +5
平均排位:从第 4 升到第 2
信源:新增 2 处来自知乎
——可验证、可对比、能定位下一步发力点。
平均排位:从第 4 升到第 2
信源:新增 2 处来自知乎
——可验证、可对比、能定位下一步发力点。
研究院要补的,就是左边到右边这一步:把品牌「被 AI 怎么提」从一种感觉,变成一组能被反复测量的数字。
测出来的东西,我们公开
一个新领域需要公共的标尺。与其等别人造,不如先动手——但只有公开,标尺才有意义。我们给自己定了三条规矩:
- 公开数据与基准。定期发布跨平台的可见度数据与品类基准,让大家有个客观对照,而不是各说各话。
- 公开方法,欢迎质疑。把题库范围、口径和统计方式讲清楚,让别人能复现、能反驳——经得起复现的结论才值得信。
- 大部分免费。这些研究会在研究中心持续更新,核心数据免费开放。行业里多一份公开数据,所有人都会少走一些弯路。
一个新领域需要公共的标尺。与其等别人造,不如先动手——并且把尺子摊开,让所有人都能照着量、也能挑出它的毛病。
常见问题
你们既做产品又做研究,数据会不会「自卖自夸」?
这正是我们坚持公开方法和口径的原因。我们报告里的数字大多是行业层面的趋势与基准,而非「用了我们就涨多少」的承诺;方法摊开,就是为了让你能自己复现、自己核验,而不是只能听我们一面之词。
这些数据是怎么来的?是爬虫还是人工?
来自我们对主流答案引擎的持续实测:用固定题库、多次取样、结构化记录,再聚合成指标。涉及具体数值的报告,我们会随文标注题库范围、平台、取样方式与统计口径,方便你判断它「能信到什么程度」。
我自己的团队能用这套方法吗?
能,而且我们鼓励你用。上面这套「固定题库 + 多平台 + 多次取样 + 结构化记录 + 定期复测」的流程,不依赖任何工具,一个负责人加每月半天就能跑起来。我们做产品只是为了在题量大、需要长期追踪时省点力,主动权始终在你手里。
研究多久更新一次?在哪看?
我们按固定节奏复测并发布,跨平台基准与专题观察会在研究中心持续更新,核心内容免费。比起一份一次性的「权威报告」,我们更看重连续的、可对照的时间序列——因为平台逻辑一直在变。