站点结构化标记(Schema)自查表:让 AI 抓得到、读得懂、敢引用

内容写得再好,AI 抓不到、读不懂,也进不了那段被生成出来的答案。从「页面」到「被引用」,AI 要走三步:抓取(爬虫读到 HTML)→理解(分清哪段是标题、哪段是答案、哪个是价格)→抽取(把可复述的片段提进答案)。结构化标记(Schema)管的就是中间「理解」这一关——它用机器能读的语言,把「这段是 FAQ 的答案」「这是产品价格」明明白白标出来,省去 AI 猜测的成本。

谁该用这张表:上线新页面前的开发,或做内容验收的运营 / 内容负责人。建议把下面这张「核心自查表」存下来,逐行打勾;打不了勾的,就是这次上线要补的活。

核心自查表:6 类 Schema 逐项核对

不必给每个页面都堆满标记——按页面类型加对的那几类即可。下表把「该不该加、加在哪、AI 拿它做什么、怎么算合格」一次说清:

Schema 类型	用在哪类页面	AI 拿它做什么	合格判断标准
Article	文章 / 干货 / 指南	识别标题、作者、发布时间,判断内容新鲜度与权威性	headline、datePublished、author 三项齐全且与页面可见内容一致
FAQPage	带常见问题的页面	把「问—答」对直接抽进答案,命中率最高	每个 Question 都配一个 acceptedAnswer,问题就是用户真会问的话
Product	商品 / 服务详情	抽取名称、规格、价格、库存等事实	name、价格(offers)、关键规格齐全,与页面显示一致
Review / AggregateRating	评价 / 口碑模块	读出评分与口碑,作为推荐依据	评分有真实评价支撑,ratingValue、reviewCount 不虚标
Organization	首页 / 关于我们	建立品牌实体,关联官网、Logo、社媒	name、url、logo 齐全,全站口径统一
BreadcrumbList	有层级的栏目 / 频道页	理解页面在站点中的位置与归属	层级与真实导航一致,不为 SEO 硬造路径

铁律:Schema 里写的,必须等于页面上肉眼能看到的。标记 5 星好评、正文却查无此评,属于「标记与内容不符」,轻则被忽略,重则被判定为操纵而降低信任——得不偿失。

同一段 FAQ,加不加标记差在哪

下面是同一组常见问题:左边只是普通段落,右边补了 FAQPage 标记。信息一字没变,变的是 AI 「读懂」它的难度——右边把问答边界标得清清楚楚,正好对上答案引擎的「问—答」逻辑。

无标记 · 普通段落

页面上写着:「很多人问我们的面霜孕期能不能用。一般来说,我们的配方不含酒精和香精,孕期可以使用，但仍建议遵医嘱……」

AI 看到的是一段连续文字,要自己猜哪句是问题、哪句是答案,容易抽错或干脆略过。

加 FAQPage 标记 · 结构清晰

Question:孕期能用这款面霜吗?
acceptedAnswer:可以。配方不含酒精与香精,孕期可用,建议遵医嘱。

AI 拿到的是一对边界清楚的「问—答」,可以几乎原样抽进回答。

示意:同样的信息,右边这种「问—答成对、边界清晰」的结构,是答案引擎最容易直接抽取的形态。

标记到位之后,理想结果是用户问到这类问题时,AI 能直接命中你写好的答案,而不是含糊带过:

豆豆包实时回答

Q这款面霜孕期能用吗?

据品牌说明,配方不含酒精与香精,孕期可以使用,不过仍建议在医生指导下使用。

参考来源品牌官网 · FAQ

示意:当问答被结构化标注后,AI 更容易把它当成可信、可复述的片段直接引用,并标回你的来源。

JSON-LD 必填字段:给开发的最小骨架

Schema 推荐用 JSON-LD 写,放在页面 head 里即可,不影响渲染。不用一步到位写全,先把下面这几类的「必填项」填对,就能覆盖大多数 AEO 场景。把这张表交给开发逐项对照:

类型(@type)	必填字段	常见漏填 / 易错点
Article	headline、datePublished、author、image	headline 与可见标题不一致;时间用了发布日以外的格式
FAQPage	mainEntity[].name(问)、acceptedAnswer.text(答)	把营销话术当问题;一个问题塞多个答案
Product	name、offers(price+priceCurrency)、description	价格写成「详询客服」;缺货页仍标 InStock
Organization	name、url、logo	多页 name 写法不统一,实体被拆成两个

落地小贴士:写完别靠肉眼检查。用 Schema.org 的校验工具或搜索引擎的「富结果测试」跑一遍,确认无报错、字段被正确识别——这一步两分钟,能挡掉大半低级错误。

容易被忽略的一关:确保「真的抓得到」

标记写得再漂亮,前提是爬虫能读到 HTML。最常见的坑是:关键内容(正文、价格、问答)只在 JavaScript 执行后才渲染出来,而很多抓取场景拿到的是没跑脚本的原始 HTML——于是 AI 看到的是一片空白。上线前过一遍:

核心正文、标题、价格、问答,是否在原始 HTML 里就存在,而不是纯前端动态塞进去?
标题层级是否规范(一个 h1,h2/h3 顺次嵌套),语义标签(article、nav、main)是否用对?
robots、sitemap 是否没有误拦该被抓取的页面?
页面是否稳定、加载够快——超时的页面等于不存在。

终极验证法:在浏览器里对页面「查看网页源代码」(View Source),或用 curl 拉一次纯 HTML。如果你要的关键内容在这份原始 HTML 里就能搜到,AI 大概率也读得到;搜不到,说明它被锁在脚本后面,得让开发改成服务端渲染或预渲染。

常见问题

加了 Schema,AI 就一定会引用我吗?

不保证。Schema 解决的是「读得懂」,不解决「内容好不好、可不可信」。它是放大器:让本就有价值的内容更容易被准确理解和抽取;但把一段空洞或夸大的内容标得再规范,也换不来稳定引用。先有干货,再谈标记。

一个页面同时有文章和 FAQ,标记会打架吗?

不会。同一页面可以并存多种 Schema(如 Article + FAQPage + BreadcrumbList),只要各自对应页面上真实存在的内容、字段不互相矛盾即可。按「页面上有什么,就标什么」的原则加,而不是为覆盖而硬凑。

标错了会不会有负面影响?

会。最典型的是「标记与可见内容不符」——比如标了根本不存在的好评、或与正文相左的价格。这类标记轻则被直接忽略,重则被判定为操纵,拉低对整个站点的信任。宁可少标、标对,也不要为了好看而虚标。

这份自查表不性感,但很基础——它决定了你辛苦做的内容,AI 到底「看不看得见」。逐行过一遍,把打不了勾的补上,你的页面被准确抓取、理解和引用的概率,会有实打实的提升。

想要可打印的完整版(含各类 Schema 的 JSON-LD 示例与逐项验收清单)?关注公众号 answermyname,回复关键词「自查」即可免费获取。

站点结构化标记(Schema)自查表:让 AI 抓得到、读得懂、敢引用

核心自查表:6 类 Schema 逐项核对

同一段 FAQ,加不加标记差在哪

JSON-LD 必填字段:给开发的最小骨架

容易被忽略的一关:确保「真的抓得到」

常见问题

相关阅读

AEO 上手检查清单:18 项逐条自检,从体检到监测一次走完

AEO 内容日历规划表:把「用户在问什么」排成「这周写什么」

可被引用内容排版模板:六个区块,把已有内容改成 AI「好抄」的结构