基础认知层
Foundations
先理解搜索引擎的「游戏规则」
在动手写一行 <meta> 标签、调一个 sitemap、买一条外链之前,你需要先建立一套「世界观」:搜索引擎到底是怎么运作的?用户搜索时真正想要什么?Google 凭什么决定谁排第一?这一层不教任何具体操作,只负责把这几个最底层的概念讲透。后面所有的建站、内容、链接、技术优化,都是这套世界观的推论。
作为一个会写代码的人,你其实有天然优势:搜索引擎本质上就是一个巨大的分布式系统——有爬虫(Crawler)、有解析与渲染管线(Pipeline)、有存储(Index)、有排序算法(Ranking)。把它当成一个你要去对接的「外部系统」,很多事情就豁然开朗了。
搜索引擎工作原理:抓取 → 索引 → 排名
想象一座全世界最大的图书馆,但没有任何馆藏目录。有个不知疲倦的图书管理员(就是 Google 的爬虫),他做三件事:
- 满世界跑,把能找到的每一本书都翻一遍(抓取 / Crawling);
- 给每本书做摘要、登记关键词,写进一张巨大的卡片目录里(索引 / Indexing);
- 当有读者来问「我想找讲发酵面包的书」时,他从目录里挑出最相关、最靠谱的几本,按顺序递给你(排名 / Ranking)。
整个 SEO 行业,本质上就是在帮这个图书管理员更顺利地完成这三步。任何一步卡住,你的页面都到不了用户面前。
抓取(Crawling):爬虫怎么发现你
Google 的爬虫叫 Googlebot。它发现新页面主要靠两条路:
- 顺着链接爬:它从已知页面出发,沿着页面里的
<a href="...">链接不断跳转,像顺着藤摸瓜。这就是为什么「内部链接」和「外部链接」对 SEO 这么重要——没有链接指向的页面,等于一座没有路通往的孤岛。 - 读 sitemap:你可以主动提交一份
sitemap.xml,相当于直接把馆藏清单递给管理员,告诉它「我这儿有这些页面,麻烦都看看」。
你还能用 robots.txt 这个放在网站根目录的纯文本文件,告诉爬虫哪些区域不要进。注意它管的是「抓取」,不是「索引」——这是新手最常踩的坑(后面索引部分会再提):
# https://yourdomain.com/robots.txt
User-agent: *
Disallow: /admin/ # 后台不要抓
Disallow: /cart/ # 购物车这类临时页不要抓
Sitemap: https://yourdomain.com/sitemap.xml
💡 提示:Google 对每个站点有个大致的「抓取预算(Crawl Budget)」——它愿意花多少资源来爬你。小站基本无需操心;但如果你有几十万个页面、还有一堆参数化的垃圾 URL,就要主动用
robots.txt和合理的站点结构,把预算引导到真正重要的页面上。
索引(Indexing):被抓到不等于被收录
抓取只是把页面「下载」下来。接着 Google 要**解析(Parse)并渲染(Render)**这个页面:读 HTML、提取标题和正文、跑一遍 JavaScript、理解页面到底在讲什么,然后才决定要不要把它存进索引库。
这里有个对开发者特别关键的坑:JavaScript 渲染。如果你的页面是纯客户端渲染(CSR)的单页应用,初始 HTML 几乎是空的,正文全靠 JS 在浏览器里跑出来——Googlebot 虽然能执行 JS,但渲染是「二次排队、延迟处理」的,既慢又不保证完整。结果就是:内容可能很久才被收录,甚至根本没被看见。这也是为什么 SEO 强烈推荐服务端渲染(SSR)或静态生成(SSG)——让爬虫第一眼拿到的 HTML 里就有完整内容。
页面「被抓取了却没被索引」是非常常见的现象,原因通常是:
- 内容太薄、重复、或被判定为低质量,Google 觉得不值得收录;
- 被
noindex标签挡住了(下面有例子); - 被
canonical指向了别的页面,Google 认为它只是副本; - 渲染失败,爬虫看到的是一片空白。
排名(Ranking):从几百个信号里挑出顺序
当用户输入一个查询,Google 会在毫秒内从索引库里捞出候选页面,再用数百个排名信号给它们打分排序。没有任何单一因素能「决定」排名——它是一个综合权衡的结果。
排名背后还有两层你看不见的处理:
- 查询理解:Google 会分析你这句话真正想问什么,处理同义词、纠正错别字、识别你是想买东西还是想学知识(这就是下一节的「搜索意图」)。
- 个性化:你的地理位置、语言、设备、甚至搜索历史,都会微调结果。所以「我的排名」这个说法本身就不严谨——不同人、不同地点看到的 SERP 可能完全不同。
🧑💻 开发者视角:想知道你的页面到底收录了没,有两个趁手的工具。
- 在 Google 搜索框里输入
site:yourdomain.com,能看到 Google 收录了该域名的哪些页面,数量心里就有数了。想查单个页面就site:yourdomain.com/your-page。- 登录 Google Search Console,用「网址检查(URL Inspection)」工具粘贴任意 URL,它会告诉你这个页面的抓取状态、索引状态、渲染后的 HTML,以及为什么没被收录——这是排查问题的第一现场。
一段「对爬虫友好」的最小可索引 HTML 长这样——内容直接写在 HTML 里,标题语义清晰,没有把正文藏在 JS 后面:
<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1" />
<title>家庭烘焙入门:第一次做酸面包</title>
<meta name="description" content="零基础也能上手的酸面包教程,含发酵时间表与常见翻车点。" />
<link rel="canonical" href="https://yourdomain.com/sourdough-101" />
</head>
<body>
<h1>第一次做酸面包,从养酵种开始</h1>
<p>酸面包不靠商业酵母,全靠你自己养的天然酵种……</p>
</body>
</html>
⚠️ 注意:如果想主动阻止某个页面被索引,用
<meta name="robots" content="noindex">。但前提是这个页面不能被robots.txt屏蔽——因为爬虫得先能抓到页面,才能读到里面的noindex指令。两个一起用反而会让noindex失效。
搜索意图(Search Intent)
搜索意图,指的是用户敲下那串关键词时,脑子里真正想达成的目标。这是现代 SEO 的核心:Google 排名的不是「和关键词最匹配的页面」,而是「最能满足这个意图的页面」。你内容写得再好,如果答错了用户想问的问题,照样排不上去。
意图通常分为四类:
- 信息型(Informational):想学东西、找答案。例:
如何重置路由器、什么是 https、react useEffect 用法。 - 导航型(Navigational):想去某个特定网站/页面。例:
github 登录、b站、stripe dashboard。 - 商业调查型(Commercial Investigation):有购买意向,但还在对比、做功课。例:
最好用的笔记软件、iphone 15 vs 16、notion 评测。 - 交易型(Transactional):准备马上行动(买、下载、注册)。例:
buy airpods pro、notion 价格、下载 vscode。
怎么判断一个关键词的意图?
最可靠的方法不是凭感觉,而是直接去 Google 搜一下,看真实的 SERP(搜索结果页)长什么样。Google 已经用海量数据替你验证过用户想要什么,结果页就是答案:
- 满屏是博客文章、教程、维基百科 → 信息型,你该写一篇深度文章。
- 出现一排商品卡片、购物广告、价格 → 交易型,你该做产品页 / 落地页。
- 出现「最佳 X 推荐」「十大 X 对比」这种榜单 → 商业调查型,你该做对比测评。
- 顶部是某个品牌官网 + 站内链接 → 导航型,基本只有该品牌自己能占。
💡 提示:如果一个词的 SERP 全是商品页,你却辛辛苦苦写了一篇科普长文,那基本不可能排上去——你交付的内容形态和用户想要的根本不是一回事。先看 SERP,再决定做什么页面。
| 意图类型 | 典型查询 | 应该做的页面类型 |
|---|---|---|
| 信息型 Informational | 什么是 SEO、如何申请 https 证书 | 教程、指南、博客长文、FAQ |
| 导航型 Navigational | github 登录、stripe 文档 | 品牌官网、产品文档入口 |
| 商业调查型 Commercial | 最好的 CDN 服务、vercel vs netlify | 对比测评、榜单、深度评测 |
| 交易型 Transactional | 购买域名、notion 团队版价格 | 产品页、定价页、注册/购买落地页 |
E-E-A-T(经验、专业、权威、可信)
E-E-A-T 是 Google《搜索质量评估指南》里的一套质量评估框架,四个字母分别代表:
- Experience(经验):内容创作者是否有第一手亲身经历?写酸面包的人到底烤过没有?测评相机的人有没有真的拿在手上拍过?这是 Google 后来才加上的第一个 E,专门用来对抗那种「东抄西抄、自己根本没用过」的内容。
- Expertise(专业):作者在这个领域是否真的懂行?医学文章最好出自医生之手,代码教程最好来自有实战的工程师。
- Authoritativeness(权威):你(或你的网站、你的作者)在这个领域是不是被公认的权威来源?这很大程度上体现在「别人怎么看你」——比如有多少高质量网站引用、链接到你。
- Trustworthiness(可信):整个网站是否值得信任?信息准确吗?有没有 HTTPS?有没有清楚的联系方式、退款政策、作者署名?这是四项里 Google 认为最重要的一项。
这里有两个常见误解必须澄清:
- E-E-A-T 不是一个能直接调的「排名因子」。你没法在代码里写一行让 E-E-A-T
+10。它是 Google 用来训练算法、评估「这页内容质量到底行不行」的整体框架。它影响排名,但是通过无数个具体信号间接体现的。 - 它对不同主题的「严苛程度」不一样。这就要引出 YMYL(Your Money or Your Life)——「关乎你的钱或你的命」的主题,包括医疗健康、金融理财、法律、人身安全等。这类内容一旦出错会直接伤害用户,所以 Google 对它们的 E-E-A-T 要求高得多。你写个游戏攻略翻车没人受伤,但你写错了一篇用药剂量的文章可能出人命——标准自然天差地别。
🧑💻 落地清单(让 E-E-A-T 看得见、摸得着):
- 作者信息:每篇文章署名,附上作者简介、头衔、相关经历,最好链到一个真实的作者页。
- 引用来源:关键数据、结论标明出处,链到权威原始资料,而不是凭空断言。
- HTTPS:全站强制 HTTPS,这是「可信」的及格线,浏览器和 Google 都会看。
- 关于页 / 联系页:清楚说明「我们是谁、怎么联系」。一个连联系方式都没有的站,谈何信任。
- 真实案例与一手素材:自己拍的截图、实测数据、真实使用照片,远胜于通用配图。
- 内容时效:标注更新日期,定期回顾过时内容(这个站每篇文章顶部都有
updated字段,就是在以身作则)。
核心排名因素
虽然 Google 有几百个信号,但它们大体可以归到四大支柱下。理解这四根柱子,你就有了判断「该往哪使劲」的框架:
- 内容相关性(Relevance):你的内容是否真正回答了用户的查询意图、覆盖了该话题该有的深度。这是地基——内容不对,其它三项再好也救不回来。
- 链接与权威(Authority / Backlinks):有多少高质量的外部网站链接到你。每一条来自可信网站的链接,都像是一张「投票」,告诉 Google「这家伙值得信」。
- 用户体验(User Experience):页面打开快不快、在手机上好不好用、会不会乱跳广告。其中一组可量化指标叫 Core Web Vitals(核心网页指标),衡量加载速度、交互响应和视觉稳定性——这部分会在第二层《建站层》里专门细讲怎么测、怎么优化。
- 技术健康度(Technical Health):网站能不能被顺利抓取和索引、有没有 HTTPS、移动端适配、结构化数据、没有一堆死链和重定向链。这是让前三项「能被 Google 正常看到」的前提。
| 支柱 | 一句话说明 |
|---|---|
| 内容相关性 | 内容是否精准命中搜索意图、足够深入——一切的地基 |
| 链接 / 权威 | 高质量外链是其他网站给你的「信任投票」 |
| 用户体验 | 速度、移动友好、Core Web Vitals,别让用户烦躁(第二层细讲) |
| 技术健康度 | 可抓取、可索引、HTTPS、无死链——让前三项被 Google 看见的前提 |
💡 提示:新手最爱一上来就纠结「链接」(买外链)。但顺序应该反过来:先把技术健康度和内容做扎实,否则你引来的权重浇在一片漏水的地基上,全是浪费。
小结
这一层的心法,可以浓缩成三句话:
- 把搜索引擎当成一个你要对接的系统——能被抓取、能被索引、能被排上去,是三道依次递进的关卡。
- 先问意图,再做页面——用户想要什么形态的答案,你就交付什么形态,别自说自话。
- 质量不是玄学,而是可落地的信号——E-E-A-T 和四大支柱,每一条都能拆成你今天就能动手的具体动作。
✅ 离开这一层前,问问自己是否真的搞懂了:
- 我能用自己的话讲清楚「抓取 → 索引 → 排名」三步分别在做什么
- 我知道怎么用
site:和 Search Console 检查一个页面有没有被收录 - 我理解为什么纯客户端渲染(CSR)对 SEO 不友好
- 我能区分四类搜索意图,并知道「先看真实 SERP」这个判断方法
- 我明白 E-E-A-T 不是单一因子,也知道 YMYL 为什么要求更严
- 我能说出核心排名的四大支柱,并知道该按什么顺序发力
有了这套世界观,接下来就该动手了。进入第二层 《建站层》,我们开始把这些原则落到一个真正能被搜索引擎正确抓取、索引、并跑出好成绩的网站上。