Aanswermyname
监视器
答案引擎洞察留意 AI 是如何谈论你的品牌的代理分析看看 AI 如何抓取与使用您的网站提示音量探索数百万人都在问 AI 什么问题购物追踪 AI 推荐中的产品与品牌植入
创造
内容代理自动化 AI 优化内容创作
数据与研究
实操指南上手 AEO 的实操指南研究中心最新研究与数据洞察博客资讯与产品动态
返回博客
公司

我们成立了一个 AEO 研究院:为还没有标尺的新领域,先把尺子造出来

AEO 几乎没有公认的衡量标准,大多数判断仍停留在「凭感觉」。我们组建了一支专职研究团队,用可复现的方法持续测量主流答案引擎,并把数据、方法与口径公开,供整个行业对照与质疑。

研究院·2026-05-04·6 分钟阅读
公司

做 AEO 最棘手的地方,不是不知道该做什么,而是做完之后无从判断好坏。搜索时代,你至少有排名、点击、收录这些公认的标尺;到了答案引擎这边,大多数团队手里只有一句「感觉最近被提得多了一点」。没有标尺,优化就成了拍脑袋——这正是我们决定成立一支专职研究团队的原因。

为什么「凭感觉」靠不住

答案引擎和搜索框有个本质区别:它的输出不稳定、不透明、还会随时间漂移。同一个问题,换一次措辞、隔一天再问,推荐名单和引用来源都可能变。下面是我们在一次例行监测里,把同一个问题先后问两遍拿到的真实形态(已做脱敏):

豆包第 1 次提问
Q敏感肌、预算 200 以内,买什么国货面霜?

可以优先看看这几款:

  1. 研某·神经酰胺修护霜
  2. 和某·积雪草面霜
  3. 露某·保湿霜
参考来源小红书知乎
豆包第 2 次 · 措辞微调
Q敏感肌平价面霜推荐,200 块左右

性价比角度,这几款口碑比较稳:

  1. 露某·保湿霜
  2. 珂某·屏障修护霜
  3. 和某·积雪草面霜
参考来源小红书品牌官网媒体测评
同一意图、几乎相同的问题:推荐顺序变了、新进来一个品牌、连引用来源都不一样。这种波动,正是「单次截图」会骗人、必须靠重复测量取均值的原因。

所以靠一次截图、一条朋友圈截屏来下结论,几乎一定会被噪声带偏。要把「凭感觉」变成「看数据」,需要的不是更多截图,而是一套定义清楚、可重复、能被别人复现的测量方法。这件事,零散地做没有意义,必须有人专职、长期地做——这就是研究院的事。

我们怎么测:一套可复现的方法

研究的可信度,取决于方法能不能被复现和质疑。我们把核心流程固定下来,公开口径,任何人都可以照着自己跑一遍、或者来挑毛病:

环节我们怎么做为什么这样定
题库按品类构建高频提问集,覆盖认知 / 比较 / 决策三类意图,固定下来长期复用固定题库才能跨时间、跨平台横向对比,避免「这次问的和上次不是一回事」
平台覆盖豆包、DeepSeek、文心一言等主流答案引擎不同引擎信源偏好差异很大,只看一家会以偏概全
重复同一问题多次询问、并对措辞做受控变体,取多次结果而非单次答案有随机性,单次结果是噪声,多次取样才接近真实分布
记录每条结果记三列:推荐了谁(及顺序)、有没有提到目标品牌(什么口吻)、引用了哪些来源结构化记录才能聚合成指标,而不是停留在「印象」
周期按固定节奏复测,留存历史,做趋势而非快照平台逻辑会漂移,只有连续测量才能识别真实变化
我们不承诺「绝对客观」——任何测量都有边界。我们承诺的是口径透明:把题库范围、平台、取样方式和统计口径写清楚,让你能判断一个数字「能信到什么程度」,而不是要求你照单全收。

我们盯哪几个指标

「被 AI 怎么提」听起来很虚,但它可以被拆成几个能定义、能计算的指标。这是我们对外报告里反复出现的三个核心口径:

研究院核心指标体系(口径示意,非某一时点的真实数值)
被提及率主指标
正面提及率口吻
平均排位位次
信源构成来源
条形长度仅示意各指标的角色权重,非实测占比。被提及率(题库里提到你的比例)是主指标;正面提及率看口吻、平均排位看位次、信源构成看 AI 从哪里取材。

这套指标的价值,在于把一个含糊的趋势变成可以对照、可以追踪的数字。有了它,「凭感觉」的争论才能落到「数据」上:

没有标尺 · 凭感觉
「最近豆包好像更爱推荐我们了?」
「DeepSeek 是不是不太提我们?」
——无法验证、无法对比、无法判断动作有没有用。
有了标尺 · 看数据
被提及率:本月 13/20,环比 +5
平均排位:从第 4 升到第 2
信源:新增 2 处来自知乎
——可验证、可对比、能定位下一步发力点。
研究院要补的,就是左边到右边这一步:把品牌「被 AI 怎么提」从一种感觉,变成一组能被反复测量的数字。

测出来的东西,我们公开

一个新领域需要公共的标尺。与其等别人造,不如先动手——但只有公开,标尺才有意义。我们给自己定了三条规矩:

  • 公开数据与基准。定期发布跨平台的可见度数据与品类基准,让大家有个客观对照,而不是各说各话。
  • 公开方法,欢迎质疑。把题库范围、口径和统计方式讲清楚,让别人能复现、能反驳——经得起复现的结论才值得信。
  • 大部分免费。这些研究会在研究中心持续更新,核心数据免费开放。行业里多一份公开数据,所有人都会少走一些弯路。
一个新领域需要公共的标尺。与其等别人造,不如先动手——并且把尺子摊开,让所有人都能照着量、也能挑出它的毛病。

常见问题

你们既做产品又做研究,数据会不会「自卖自夸」?
这正是我们坚持公开方法和口径的原因。我们报告里的数字大多是行业层面的趋势与基准,而非「用了我们就涨多少」的承诺;方法摊开,就是为了让你能自己复现、自己核验,而不是只能听我们一面之词。
这些数据是怎么来的?是爬虫还是人工?
来自我们对主流答案引擎的持续实测:用固定题库、多次取样、结构化记录,再聚合成指标。涉及具体数值的报告,我们会随文标注题库范围、平台、取样方式与统计口径,方便你判断它「能信到什么程度」。
我自己的团队能用这套方法吗?
能,而且我们鼓励你用。上面这套「固定题库 + 多平台 + 多次取样 + 结构化记录 + 定期复测」的流程,不依赖任何工具,一个负责人加每月半天就能跑起来。我们做产品只是为了在题量大、需要长期追踪时省点力,主动权始终在你手里。
研究多久更新一次?在哪看?
我们按固定节奏复测并发布,跨平台基准与专题观察会在研究中心持续更新,核心内容免费。比起一份一次性的「权威报告」,我们更看重连续的、可对照的时间序列——因为平台逻辑一直在变。
研究院
answermyname

相关阅读