我们成立了一个 AEO 研究院:为还没有标尺的新领域,先把尺子造出来

做 AEO 最棘手的地方,不是不知道该做什么,而是做完之后无从判断好坏。搜索时代,你至少有排名、点击、收录这些公认的标尺;到了答案引擎这边,大多数团队手里只有一句「感觉最近被提得多了一点」。没有标尺,优化就成了拍脑袋——这正是我们决定成立一支专职研究团队的原因。

为什么「凭感觉」靠不住

答案引擎和搜索框有个本质区别:它的输出不稳定、不透明、还会随时间漂移。同一个问题,换一次措辞、隔一天再问,推荐名单和引用来源都可能变。下面是我们在一次例行监测里,把同一个问题先后问两遍拿到的真实形态(已做脱敏):

豆豆包第 1 次提问

Q敏感肌、预算 200 以内,买什么国货面霜?

可以优先看看这几款:

研某·神经酰胺修护霜
和某·积雪草面霜
露某·保湿霜

参考来源小红书知乎

豆豆包第 2 次 · 措辞微调

Q敏感肌平价面霜推荐,200 块左右

性价比角度,这几款口碑比较稳:

露某·保湿霜
珂某·屏障修护霜
和某·积雪草面霜

参考来源小红书品牌官网媒体测评

同一意图、几乎相同的问题:推荐顺序变了、新进来一个品牌、连引用来源都不一样。这种波动,正是「单次截图」会骗人、必须靠重复测量取均值的原因。

所以靠一次截图、一条朋友圈截屏来下结论,几乎一定会被噪声带偏。要把「凭感觉」变成「看数据」,需要的不是更多截图,而是一套定义清楚、可重复、能被别人复现的测量方法。这件事,零散地做没有意义,必须有人专职、长期地做——这就是研究院的事。

我们怎么测:一套可复现的方法

研究的可信度,取决于方法能不能被复现和质疑。我们把核心流程固定下来,公开口径,任何人都可以照着自己跑一遍、或者来挑毛病:

环节	我们怎么做	为什么这样定
题库	按品类构建高频提问集,覆盖认知 / 比较 / 决策三类意图,固定下来长期复用	固定题库才能跨时间、跨平台横向对比,避免「这次问的和上次不是一回事」
平台	覆盖豆包、DeepSeek、文心一言等主流答案引擎	不同引擎信源偏好差异很大,只看一家会以偏概全
重复	同一问题多次询问、并对措辞做受控变体,取多次结果而非单次	答案有随机性,单次结果是噪声,多次取样才接近真实分布
记录	每条结果记三列:推荐了谁(及顺序)、有没有提到目标品牌(什么口吻)、引用了哪些来源	结构化记录才能聚合成指标,而不是停留在「印象」
周期	按固定节奏复测,留存历史,做趋势而非快照	平台逻辑会漂移,只有连续测量才能识别真实变化

我们不承诺「绝对客观」——任何测量都有边界。我们承诺的是口径透明:把题库范围、平台、取样方式和统计口径写清楚,让你能判断一个数字「能信到什么程度」,而不是要求你照单全收。

我们盯哪几个指标

「被 AI 怎么提」听起来很虚,但它可以被拆成几个能定义、能计算的指标。这是我们对外报告里反复出现的三个核心口径:

研究院核心指标体系(口径示意,非某一时点的真实数值)

被提及率主指标

正面提及率口吻

平均排位位次

信源构成来源

条形长度仅示意各指标的角色权重,非实测占比。被提及率(题库里提到你的比例)是主指标;正面提及率看口吻、平均排位看位次、信源构成看 AI 从哪里取材。

这套指标的价值,在于把一个含糊的趋势变成可以对照、可以追踪的数字。有了它,「凭感觉」的争论才能落到「数据」上:

没有标尺 · 凭感觉

「最近豆包好像更爱推荐我们了?」
「DeepSeek 是不是不太提我们?」
——无法验证、无法对比、无法判断动作有没有用。

有了标尺 · 看数据

被提及率:本月 13/20,环比 +5
平均排位:从第 4 升到第 2
信源:新增 2 处来自知乎
——可验证、可对比、能定位下一步发力点。

研究院要补的,就是左边到右边这一步:把品牌「被 AI 怎么提」从一种感觉,变成一组能被反复测量的数字。

测出来的东西,我们公开

一个新领域需要公共的标尺。与其等别人造,不如先动手——但只有公开,标尺才有意义。我们给自己定了三条规矩:

公开数据与基准。定期发布跨平台的可见度数据与品类基准,让大家有个客观对照,而不是各说各话。
公开方法,欢迎质疑。把题库范围、口径和统计方式讲清楚,让别人能复现、能反驳——经得起复现的结论才值得信。
大部分免费。这些研究会在研究中心持续更新,核心数据免费开放。行业里多一份公开数据,所有人都会少走一些弯路。

一个新领域需要公共的标尺。与其等别人造,不如先动手——并且把尺子摊开,让所有人都能照着量、也能挑出它的毛病。

常见问题

你们既做产品又做研究,数据会不会「自卖自夸」?

这正是我们坚持公开方法和口径的原因。我们报告里的数字大多是行业层面的趋势与基准,而非「用了我们就涨多少」的承诺;方法摊开,就是为了让你能自己复现、自己核验,而不是只能听我们一面之词。

这些数据是怎么来的?是爬虫还是人工?

来自我们对主流答案引擎的持续实测:用固定题库、多次取样、结构化记录,再聚合成指标。涉及具体数值的报告,我们会随文标注题库范围、平台、取样方式与统计口径,方便你判断它「能信到什么程度」。

我自己的团队能用这套方法吗?

能,而且我们鼓励你用。上面这套「固定题库 + 多平台 + 多次取样 + 结构化记录 + 定期复测」的流程,不依赖任何工具,一个负责人加每月半天就能跑起来。我们做产品只是为了在题量大、需要长期追踪时省点力,主动权始终在你手里。

研究多久更新一次?在哪看?

我们按固定节奏复测并发布,跨平台基准与专题观察会在研究中心持续更新,核心内容免费。比起一份一次性的「权威报告」,我们更看重连续的、可对照的时间序列——因为平台逻辑一直在变。

我们成立了一个 AEO 研究院:为还没有标尺的新领域,先把尺子造出来

为什么「凭感觉」靠不住

我们怎么测:一套可复现的方法

我们盯哪几个指标

测出来的东西,我们公开

常见问题

相关阅读

这一年我们想清楚的三件事:AI 时代,品牌靠什么被「答」出来

AI 答案引擎正在重写品牌搜索：2026 中国 AEO 现状与机会

AI 导购的「货架」长什么样?以及你怎么知道自己排第几