基础认知层

在动手写一行 <meta> 标签、调一个 sitemap、买一条外链之前，你需要先建立一套「世界观」：搜索引擎到底是怎么运作的？用户搜索时真正想要什么？Google 凭什么决定谁排第一？这一层不教任何具体操作，只负责把这几个最底层的概念讲透。后面所有的建站、内容、链接、技术优化，都是这套世界观的推论。

作为一个会写代码的人，你其实有天然优势：搜索引擎本质上就是一个巨大的分布式系统——有爬虫（Crawler）、有解析与渲染管线（Pipeline）、有存储（Index）、有排序算法（Ranking）。把它当成一个你要去对接的「外部系统」，很多事情就豁然开朗了。

搜索引擎工作原理：抓取 → 索引 → 排名

想象一座全世界最大的图书馆，但没有任何馆藏目录。有个不知疲倦的图书管理员（就是 Google 的爬虫），他做三件事：

满世界跑，把能找到的每一本书都翻一遍（抓取 / Crawling）；
给每本书做摘要、登记关键词，写进一张巨大的卡片目录里（索引 / Indexing）；
当有读者来问「我想找讲发酵面包的书」时，他从目录里挑出最相关、最靠谱的几本，按顺序递给你（排名 / Ranking）。

整个 SEO 行业，本质上就是在帮这个图书管理员更顺利地完成这三步。任何一步卡住，你的页面都到不了用户面前。

抓取（Crawling）：爬虫怎么发现你

Google 的爬虫叫 Googlebot。它发现新页面主要靠两条路：

顺着链接爬：它从已知页面出发，沿着页面里的 <a href="..."> 链接不断跳转，像顺着藤摸瓜。这就是为什么「内部链接」和「外部链接」对 SEO 这么重要——没有链接指向的页面，等于一座没有路通往的孤岛。
读 sitemap：你可以主动提交一份 sitemap.xml，相当于直接把馆藏清单递给管理员，告诉它「我这儿有这些页面，麻烦都看看」。

你还能用 robots.txt 这个放在网站根目录的纯文本文件，告诉爬虫哪些区域不要进。注意它管的是「抓取」，不是「索引」——这是新手最常踩的坑（后面索引部分会再提）：

# https://yourdomain.com/robots.txt
User-agent: *
Disallow: /admin/        # 后台不要抓
Disallow: /cart/         # 购物车这类临时页不要抓
Sitemap: https://yourdomain.com/sitemap.xml

💡 提示：Google 对每个站点有个大致的「抓取预算（Crawl Budget）」——它愿意花多少资源来爬你。小站基本无需操心；但如果你有几十万个页面、还有一堆参数化的垃圾 URL，就要主动用 robots.txt 和合理的站点结构，把预算引导到真正重要的页面上。

索引（Indexing）：被抓到不等于被收录

抓取只是把页面「下载」下来。接着 Google 要**解析（Parse）并渲染（Render）**这个页面：读 HTML、提取标题和正文、跑一遍 JavaScript、理解页面到底在讲什么，然后才决定要不要把它存进索引库。

这里有个对开发者特别关键的坑：JavaScript 渲染。如果你的页面是纯客户端渲染（CSR）的单页应用，初始 HTML 几乎是空的，正文全靠 JS 在浏览器里跑出来——Googlebot 虽然能执行 JS，但渲染是「二次排队、延迟处理」的，既慢又不保证完整。结果就是：内容可能很久才被收录，甚至根本没被看见。这也是为什么 SEO 强烈推荐服务端渲染（SSR）或静态生成（SSG）——让爬虫第一眼拿到的 HTML 里就有完整内容。

页面「被抓取了却没被索引」是非常常见的现象，原因通常是：

内容太薄、重复、或被判定为低质量，Google 觉得不值得收录；
被 noindex 标签挡住了（下面有例子）；
被 canonical 指向了别的页面，Google 认为它只是副本；
渲染失败，爬虫看到的是一片空白。

排名（Ranking）：从几百个信号里挑出顺序

当用户输入一个查询，Google 会在毫秒内从索引库里捞出候选页面，再用数百个排名信号给它们打分排序。没有任何单一因素能「决定」排名——它是一个综合权衡的结果。

排名背后还有两层你看不见的处理：

查询理解：Google 会分析你这句话真正想问什么，处理同义词、纠正错别字、识别你是想买东西还是想学知识（这就是下一节的「搜索意图」）。
个性化：你的地理位置、语言、设备、甚至搜索历史，都会微调结果。所以「我的排名」这个说法本身就不严谨——不同人、不同地点看到的 SERP 可能完全不同。

🧑‍💻 开发者视角：想知道你的页面到底收录了没，有两个趁手的工具。

在 Google 搜索框里输入 site:yourdomain.com，能看到 Google 收录了该域名的哪些页面，数量心里就有数了。想查单个页面就 site:yourdomain.com/your-page。

登录 Google Search Console，用「网址检查（URL Inspection）」工具粘贴任意 URL，它会告诉你这个页面的抓取状态、索引状态、渲染后的 HTML，以及为什么没被收录——这是排查问题的第一现场。

一段「对爬虫友好」的最小可索引 HTML 长这样——内容直接写在 HTML 里，标题语义清晰，没有把正文藏在 JS 后面：

<!DOCTYPE html>
<html lang="zh-CN">
  <head>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <title>家庭烘焙入门：第一次做酸面包</title>
    <meta name="description" content="零基础也能上手的酸面包教程，含发酵时间表与常见翻车点。" />
    <link rel="canonical" href="https://yourdomain.com/sourdough-101" />
  </head>
  <body>
    <h1>第一次做酸面包，从养酵种开始</h1>
    <p>酸面包不靠商业酵母，全靠你自己养的天然酵种……</p>
  </body>
</html>

⚠️ 注意：如果想主动阻止某个页面被索引，用 <meta name="robots" content="noindex">。但前提是这个页面不能被 robots.txt 屏蔽——因为爬虫得先能抓到页面，才能读到里面的 noindex 指令。两个一起用反而会让 noindex 失效。

搜索意图（Search Intent）

搜索意图，指的是用户敲下那串关键词时，脑子里真正想达成的目标。这是现代 SEO 的核心：Google 排名的不是「和关键词最匹配的页面」，而是「最能满足这个意图的页面」。你内容写得再好，如果答错了用户想问的问题，照样排不上去。

意图通常分为四类：

信息型（Informational）：想学东西、找答案。例：如何重置路由器、什么是 https、react useEffect 用法。
导航型（Navigational）：想去某个特定网站/页面。例：github 登录、b站、stripe dashboard。
商业调查型（Commercial Investigation）：有购买意向，但还在对比、做功课。例：最好用的笔记软件、iphone 15 vs 16、notion 评测。
交易型（Transactional）：准备马上行动（买、下载、注册）。例：buy airpods pro、notion 价格、下载 vscode。

怎么判断一个关键词的意图？

最可靠的方法不是凭感觉，而是直接去 Google 搜一下，看真实的 SERP（搜索结果页）长什么样。Google 已经用海量数据替你验证过用户想要什么，结果页就是答案：

满屏是博客文章、教程、维基百科 → 信息型，你该写一篇深度文章。
出现一排商品卡片、购物广告、价格 → 交易型，你该做产品页 / 落地页。
出现「最佳 X 推荐」「十大 X 对比」这种榜单 → 商业调查型，你该做对比测评。
顶部是某个品牌官网 + 站内链接 → 导航型，基本只有该品牌自己能占。

💡 提示：如果一个词的 SERP 全是商品页，你却辛辛苦苦写了一篇科普长文，那基本不可能排上去——你交付的内容形态和用户想要的根本不是一回事。先看 SERP，再决定做什么页面。

意图类型	典型查询	应该做的页面类型
信息型 Informational	`什么是 SEO`、`如何申请 https 证书`	教程、指南、博客长文、FAQ
导航型 Navigational	`github 登录`、`stripe 文档`	品牌官网、产品文档入口
商业调查型 Commercial	`最好的 CDN 服务`、`vercel vs netlify`	对比测评、榜单、深度评测
交易型 Transactional	`购买域名`、`notion 团队版价格`	产品页、定价页、注册/购买落地页

E-E-A-T（经验、专业、权威、可信）

E-E-A-T 是 Google《搜索质量评估指南》里的一套质量评估框架，四个字母分别代表：

Experience（经验）：内容创作者是否有第一手亲身经历？写酸面包的人到底烤过没有？测评相机的人有没有真的拿在手上拍过？这是 Google 后来才加上的第一个 E，专门用来对抗那种「东抄西抄、自己根本没用过」的内容。
Expertise（专业）：作者在这个领域是否真的懂行?医学文章最好出自医生之手，代码教程最好来自有实战的工程师。
Authoritativeness（权威）：你（或你的网站、你的作者）在这个领域是不是被公认的权威来源？这很大程度上体现在「别人怎么看你」——比如有多少高质量网站引用、链接到你。
Trustworthiness（可信）：整个网站是否值得信任？信息准确吗？有没有 HTTPS？有没有清楚的联系方式、退款政策、作者署名？这是四项里 Google 认为最重要的一项。

这里有两个常见误解必须澄清：

E-E-A-T 不是一个能直接调的「排名因子」。你没法在代码里写一行让 E-E-A-T +10。它是 Google 用来训练算法、评估「这页内容质量到底行不行」的整体框架。它影响排名，但是通过无数个具体信号间接体现的。
它对不同主题的「严苛程度」不一样。这就要引出 YMYL（Your Money or Your Life）——「关乎你的钱或你的命」的主题，包括医疗健康、金融理财、法律、人身安全等。这类内容一旦出错会直接伤害用户，所以 Google 对它们的 E-E-A-T 要求高得多。你写个游戏攻略翻车没人受伤，但你写错了一篇用药剂量的文章可能出人命——标准自然天差地别。

🧑‍💻 落地清单（让 E-E-A-T 看得见、摸得着）：

作者信息：每篇文章署名，附上作者简介、头衔、相关经历，最好链到一个真实的作者页。

引用来源：关键数据、结论标明出处，链到权威原始资料，而不是凭空断言。

HTTPS：全站强制 HTTPS，这是「可信」的及格线，浏览器和 Google 都会看。

关于页 / 联系页：清楚说明「我们是谁、怎么联系」。一个连联系方式都没有的站，谈何信任。

真实案例与一手素材：自己拍的截图、实测数据、真实使用照片，远胜于通用配图。

内容时效：标注更新日期，定期回顾过时内容（这个站每篇文章顶部都有 updated 字段，就是在以身作则）。

核心排名因素

虽然 Google 有几百个信号，但它们大体可以归到四大支柱下。理解这四根柱子，你就有了判断「该往哪使劲」的框架：

内容相关性（Relevance）：你的内容是否真正回答了用户的查询意图、覆盖了该话题该有的深度。这是地基——内容不对，其它三项再好也救不回来。
链接与权威（Authority / Backlinks）：有多少高质量的外部网站链接到你。每一条来自可信网站的链接，都像是一张「投票」，告诉 Google「这家伙值得信」。
用户体验（User Experience）：页面打开快不快、在手机上好不好用、会不会乱跳广告。其中一组可量化指标叫 Core Web Vitals（核心网页指标），衡量加载速度、交互响应和视觉稳定性——这部分会在第二层《建站层》里专门细讲怎么测、怎么优化。
技术健康度（Technical Health）：网站能不能被顺利抓取和索引、有没有 HTTPS、移动端适配、结构化数据、没有一堆死链和重定向链。这是让前三项「能被 Google 正常看到」的前提。

支柱	一句话说明
内容相关性	内容是否精准命中搜索意图、足够深入——一切的地基
链接 / 权威	高质量外链是其他网站给你的「信任投票」
用户体验	速度、移动友好、Core Web Vitals，别让用户烦躁（第二层细讲）
技术健康度	可抓取、可索引、HTTPS、无死链——让前三项被 Google 看见的前提

💡 提示：新手最爱一上来就纠结「链接」（买外链）。但顺序应该反过来：先把技术健康度和内容做扎实，否则你引来的权重浇在一片漏水的地基上，全是浪费。

小结

这一层的心法，可以浓缩成三句话：

把搜索引擎当成一个你要对接的系统——能被抓取、能被索引、能被排上去，是三道依次递进的关卡。
先问意图，再做页面——用户想要什么形态的答案，你就交付什么形态，别自说自话。
质量不是玄学，而是可落地的信号——E-E-A-T 和四大支柱，每一条都能拆成你今天就能动手的具体动作。

✅ 离开这一层前，问问自己是否真的搞懂了：

我能用自己的话讲清楚「抓取 → 索引 → 排名」三步分别在做什么
我知道怎么用 site: 和 Search Console 检查一个页面有没有被收录
我理解为什么纯客户端渲染（CSR）对 SEO 不友好
我能区分四类搜索意图，并知道「先看真实 SERP」这个判断方法
我明白 E-E-A-T 不是单一因子，也知道 YMYL 为什么要求更严
我能说出核心排名的四大支柱，并知道该按什么顺序发力

有了这套世界观，接下来就该动手了。进入第二层《建站层》，我们开始把这些原则落到一个真正能被搜索引擎正确抓取、索引、并跑出好成绩的网站上。