🧭 第 01 层

基础认知层

Foundations

先理解搜索引擎的「游戏规则」

📖 约 12 分钟 🕑 更新于 2026-06-18

在动手写一行 <meta> 标签、调一个 sitemap、买一条外链之前,你需要先建立一套「世界观」:搜索引擎到底是怎么运作的?用户搜索时真正想要什么?Google 凭什么决定谁排第一?这一层不教任何具体操作,只负责把这几个最底层的概念讲透。后面所有的建站、内容、链接、技术优化,都是这套世界观的推论。

作为一个会写代码的人,你其实有天然优势:搜索引擎本质上就是一个巨大的分布式系统——有爬虫(Crawler)、有解析与渲染管线(Pipeline)、有存储(Index)、有排序算法(Ranking)。把它当成一个你要去对接的「外部系统」,很多事情就豁然开朗了。

搜索引擎工作原理:抓取 → 索引 → 排名

想象一座全世界最大的图书馆,但没有任何馆藏目录。有个不知疲倦的图书管理员(就是 Google 的爬虫),他做三件事:

  1. 满世界跑,把能找到的每一本书都翻一遍(抓取 / Crawling);
  2. 给每本书做摘要、登记关键词,写进一张巨大的卡片目录里(索引 / Indexing);
  3. 当有读者来问「我想找讲发酵面包的书」时,他从目录里挑出最相关、最靠谱的几本,按顺序递给你(排名 / Ranking)。

整个 SEO 行业,本质上就是在帮这个图书管理员更顺利地完成这三步。任何一步卡住,你的页面都到不了用户面前。

抓取(Crawling):爬虫怎么发现你

Google 的爬虫叫 Googlebot。它发现新页面主要靠两条路:

  • 顺着链接爬:它从已知页面出发,沿着页面里的 <a href="..."> 链接不断跳转,像顺着藤摸瓜。这就是为什么「内部链接」和「外部链接」对 SEO 这么重要——没有链接指向的页面,等于一座没有路通往的孤岛。
  • 读 sitemap:你可以主动提交一份 sitemap.xml,相当于直接把馆藏清单递给管理员,告诉它「我这儿有这些页面,麻烦都看看」。

你还能用 robots.txt 这个放在网站根目录的纯文本文件,告诉爬虫哪些区域不要进。注意它管的是「抓取」,不是「索引」——这是新手最常踩的坑(后面索引部分会再提):

# https://yourdomain.com/robots.txt
User-agent: *
Disallow: /admin/        # 后台不要抓
Disallow: /cart/         # 购物车这类临时页不要抓
Sitemap: https://yourdomain.com/sitemap.xml

💡 提示:Google 对每个站点有个大致的「抓取预算(Crawl Budget)」——它愿意花多少资源来爬你。小站基本无需操心;但如果你有几十万个页面、还有一堆参数化的垃圾 URL,就要主动用 robots.txt 和合理的站点结构,把预算引导到真正重要的页面上。

索引(Indexing):被抓到不等于被收录

抓取只是把页面「下载」下来。接着 Google 要**解析(Parse)并渲染(Render)**这个页面:读 HTML、提取标题和正文、跑一遍 JavaScript、理解页面到底在讲什么,然后才决定要不要把它存进索引库。

这里有个对开发者特别关键的坑:JavaScript 渲染。如果你的页面是纯客户端渲染(CSR)的单页应用,初始 HTML 几乎是空的,正文全靠 JS 在浏览器里跑出来——Googlebot 虽然能执行 JS,但渲染是「二次排队、延迟处理」的,既慢又不保证完整。结果就是:内容可能很久才被收录,甚至根本没被看见。这也是为什么 SEO 强烈推荐服务端渲染(SSR)或静态生成(SSG)——让爬虫第一眼拿到的 HTML 里就有完整内容。

页面「被抓取了却没被索引」是非常常见的现象,原因通常是:

  • 内容太薄、重复、或被判定为低质量,Google 觉得不值得收录;
  • noindex 标签挡住了(下面有例子);
  • canonical 指向了别的页面,Google 认为它只是副本;
  • 渲染失败,爬虫看到的是一片空白。

排名(Ranking):从几百个信号里挑出顺序

当用户输入一个查询,Google 会在毫秒内从索引库里捞出候选页面,再用数百个排名信号给它们打分排序。没有任何单一因素能「决定」排名——它是一个综合权衡的结果。

排名背后还有两层你看不见的处理:

  • 查询理解:Google 会分析你这句话真正想问什么,处理同义词、纠正错别字、识别你是想买东西还是想学知识(这就是下一节的「搜索意图」)。
  • 个性化:你的地理位置、语言、设备、甚至搜索历史,都会微调结果。所以「我的排名」这个说法本身就不严谨——不同人、不同地点看到的 SERP 可能完全不同。

🧑‍💻 开发者视角:想知道你的页面到底收录了没,有两个趁手的工具。

  1. 在 Google 搜索框里输入 site:yourdomain.com,能看到 Google 收录了该域名的哪些页面,数量心里就有数了。想查单个页面就 site:yourdomain.com/your-page
  2. 登录 Google Search Console,用「网址检查(URL Inspection)」工具粘贴任意 URL,它会告诉你这个页面的抓取状态、索引状态、渲染后的 HTML,以及为什么没被收录——这是排查问题的第一现场。

一段「对爬虫友好」的最小可索引 HTML 长这样——内容直接写在 HTML 里,标题语义清晰,没有把正文藏在 JS 后面:

<!DOCTYPE html>
<html lang="zh-CN">
  <head>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <title>家庭烘焙入门:第一次做酸面包</title>
    <meta name="description" content="零基础也能上手的酸面包教程,含发酵时间表与常见翻车点。" />
    <link rel="canonical" href="https://yourdomain.com/sourdough-101" />
  </head>
  <body>
    <h1>第一次做酸面包,从养酵种开始</h1>
    <p>酸面包不靠商业酵母,全靠你自己养的天然酵种……</p>
  </body>
</html>

⚠️ 注意:如果想主动阻止某个页面被索引,用 <meta name="robots" content="noindex">。但前提是这个页面不能robots.txt 屏蔽——因为爬虫得先能抓到页面,才能读到里面的 noindex 指令。两个一起用反而会让 noindex 失效。

搜索意图(Search Intent)

搜索意图,指的是用户敲下那串关键词时,脑子里真正想达成的目标。这是现代 SEO 的核心:Google 排名的不是「和关键词最匹配的页面」,而是「最能满足这个意图的页面」。你内容写得再好,如果答错了用户想问的问题,照样排不上去。

意图通常分为四类:

  • 信息型(Informational):想学东西、找答案。例:如何重置路由器什么是 httpsreact useEffect 用法
  • 导航型(Navigational):想去某个特定网站/页面。例:github 登录b站stripe dashboard
  • 商业调查型(Commercial Investigation):有购买意向,但还在对比、做功课。例:最好用的笔记软件iphone 15 vs 16notion 评测
  • 交易型(Transactional):准备马上行动(买、下载、注册)。例:buy airpods pronotion 价格下载 vscode

怎么判断一个关键词的意图?

最可靠的方法不是凭感觉,而是直接去 Google 搜一下,看真实的 SERP(搜索结果页)长什么样。Google 已经用海量数据替你验证过用户想要什么,结果页就是答案:

  • 满屏是博客文章、教程、维基百科 → 信息型,你该写一篇深度文章。
  • 出现一排商品卡片、购物广告、价格 → 交易型,你该做产品页 / 落地页。
  • 出现「最佳 X 推荐」「十大 X 对比」这种榜单 → 商业调查型,你该做对比测评。
  • 顶部是某个品牌官网 + 站内链接 → 导航型,基本只有该品牌自己能占。

💡 提示:如果一个词的 SERP 全是商品页,你却辛辛苦苦写了一篇科普长文,那基本不可能排上去——你交付的内容形态和用户想要的根本不是一回事。先看 SERP,再决定做什么页面。

意图类型典型查询应该做的页面类型
信息型 Informational什么是 SEO如何申请 https 证书教程、指南、博客长文、FAQ
导航型 Navigationalgithub 登录stripe 文档品牌官网、产品文档入口
商业调查型 Commercial最好的 CDN 服务vercel vs netlify对比测评、榜单、深度评测
交易型 Transactional购买域名notion 团队版价格产品页、定价页、注册/购买落地页

E-E-A-T(经验、专业、权威、可信)

E-E-A-T 是 Google《搜索质量评估指南》里的一套质量评估框架,四个字母分别代表:

  • Experience(经验):内容创作者是否有第一手亲身经历?写酸面包的人到底烤过没有?测评相机的人有没有真的拿在手上拍过?这是 Google 后来才加上的第一个 E,专门用来对抗那种「东抄西抄、自己根本没用过」的内容。
  • Expertise(专业):作者在这个领域是否真的懂行?医学文章最好出自医生之手,代码教程最好来自有实战的工程师。
  • Authoritativeness(权威):你(或你的网站、你的作者)在这个领域是不是被公认的权威来源?这很大程度上体现在「别人怎么看你」——比如有多少高质量网站引用、链接到你。
  • Trustworthiness(可信):整个网站是否值得信任?信息准确吗?有没有 HTTPS?有没有清楚的联系方式、退款政策、作者署名?这是四项里 Google 认为最重要的一项。

这里有两个常见误解必须澄清:

  1. E-E-A-T 不是一个能直接调的「排名因子」。你没法在代码里写一行让 E-E-A-T +10。它是 Google 用来训练算法、评估「这页内容质量到底行不行」的整体框架。它影响排名,但是通过无数个具体信号间接体现的。
  2. 它对不同主题的「严苛程度」不一样。这就要引出 YMYL(Your Money or Your Life)——「关乎你的钱或你的命」的主题,包括医疗健康、金融理财、法律、人身安全等。这类内容一旦出错会直接伤害用户,所以 Google 对它们的 E-E-A-T 要求高得多。你写个游戏攻略翻车没人受伤,但你写错了一篇用药剂量的文章可能出人命——标准自然天差地别。

🧑‍💻 落地清单(让 E-E-A-T 看得见、摸得着):

  • 作者信息:每篇文章署名,附上作者简介、头衔、相关经历,最好链到一个真实的作者页。
  • 引用来源:关键数据、结论标明出处,链到权威原始资料,而不是凭空断言。
  • HTTPS:全站强制 HTTPS,这是「可信」的及格线,浏览器和 Google 都会看。
  • 关于页 / 联系页:清楚说明「我们是谁、怎么联系」。一个连联系方式都没有的站,谈何信任。
  • 真实案例与一手素材:自己拍的截图、实测数据、真实使用照片,远胜于通用配图。
  • 内容时效:标注更新日期,定期回顾过时内容(这个站每篇文章顶部都有 updated 字段,就是在以身作则)。

核心排名因素

虽然 Google 有几百个信号,但它们大体可以归到四大支柱下。理解这四根柱子,你就有了判断「该往哪使劲」的框架:

  1. 内容相关性(Relevance):你的内容是否真正回答了用户的查询意图、覆盖了该话题该有的深度。这是地基——内容不对,其它三项再好也救不回来。
  2. 链接与权威(Authority / Backlinks):有多少高质量的外部网站链接到你。每一条来自可信网站的链接,都像是一张「投票」,告诉 Google「这家伙值得信」。
  3. 用户体验(User Experience):页面打开快不快、在手机上好不好用、会不会乱跳广告。其中一组可量化指标叫 Core Web Vitals(核心网页指标),衡量加载速度、交互响应和视觉稳定性——这部分会在第二层《建站层》里专门细讲怎么测、怎么优化。
  4. 技术健康度(Technical Health):网站能不能被顺利抓取和索引、有没有 HTTPS、移动端适配、结构化数据、没有一堆死链和重定向链。这是让前三项「能被 Google 正常看到」的前提。
支柱一句话说明
内容相关性内容是否精准命中搜索意图、足够深入——一切的地基
链接 / 权威高质量外链是其他网站给你的「信任投票」
用户体验速度、移动友好、Core Web Vitals,别让用户烦躁(第二层细讲)
技术健康度可抓取、可索引、HTTPS、无死链——让前三项被 Google 看见的前提

💡 提示:新手最爱一上来就纠结「链接」(买外链)。但顺序应该反过来:先把技术健康度和内容做扎实,否则你引来的权重浇在一片漏水的地基上,全是浪费。

小结

这一层的心法,可以浓缩成三句话:

  • 把搜索引擎当成一个你要对接的系统——能被抓取、能被索引、能被排上去,是三道依次递进的关卡。
  • 先问意图,再做页面——用户想要什么形态的答案,你就交付什么形态,别自说自话。
  • 质量不是玄学,而是可落地的信号——E-E-A-T 和四大支柱,每一条都能拆成你今天就能动手的具体动作。

✅ 离开这一层前,问问自己是否真的搞懂了:

  • 我能用自己的话讲清楚「抓取 → 索引 → 排名」三步分别在做什么
  • 我知道怎么用 site: 和 Search Console 检查一个页面有没有被收录
  • 我理解为什么纯客户端渲染(CSR)对 SEO 不友好
  • 我能区分四类搜索意图,并知道「先看真实 SERP」这个判断方法
  • 我明白 E-E-A-T 不是单一因子,也知道 YMYL 为什么要求更严
  • 我能说出核心排名的四大支柱,并知道该按什么顺序发力

有了这套世界观,接下来就该动手了。进入第二层 《建站层》,我们开始把这些原则落到一个真正能被搜索引擎正确抓取、索引、并跑出好成绩的网站上。