GEO 峰会 2026 · 北京 · 报名中查看详情
博客 · AEO

Citation Diversity Index (CDI) 详解:为什么单点依赖知乎可能毁掉你的 AEO

Profound 没做、Otterly 没做的指标 · 我们独家 · 一篇讲清楚 CDI 的工程化定义和怎么从 30 推到 70+

2026年5月4日·17 分钟阅读·南瓜 GEO 团队· Research × 数据科学
📊 TL;DR · 3 分钟看完
  • 1.CDI(Citation Diversity Index)= Shannon 熵的工程化 · 衡量你的引用源是分散在多个域、还是单点依赖某一个平台
  • 2.极端例子:80 cite 全在知乎 → CDI 0;80 cite 分散在 8 个来源 → CDI 78。CDI 78 比 CDI 95 更现实
  • 3.单点依赖 3 大风险:平台政策变化(知乎封号)/ AI 公司限流(Bytespider 屏蔽)/ 突发热点单点失声
  • 4.CDI < 50 的 5 个症状:Top source 占比 > 60% / 7+ source type 中只用了 2-3 个 / Long-tail 集中同一域
  • 5.从 CDI 30 推到 70+ 的 3 层路径:identify dominant → 找 fuel domains → 每月 ship 8-12 篇 owned + earned
#AEO#CDI#Citation#数据科学#教育

一、CDI 是什么 · Shannon 熵的工程化

Citation Diversity Index(CDI · 引用多样性指数)是南瓜 GEO 自研的核心健康度指标。它衡量的不是「你被引用多少次」(这是 Citation Count)· 而是「你的引用来源分布在多少个独立来源 · 分布得多均匀」。

为什么 Citation Count 不够?因为 80 次引用全部来自同一个公众号矩阵 · 跟 80 次引用分散在 8 个独立来源 · 是两件事。前者是单点风险 · 后者是健康分布 · LLM 在评估你的「行业地位」时也会内部做这个判断。

CDI 的数学基底是 Shannon entropy(信息论里的熵)。简化公式:先把所有引用按来源域聚合 · 算每个域占总引用的比例 p_i · 然后 H = -Σ(p_i × log₂(p_i))。我们再把 H 归一化到 0-100 区间 —— 这就是 CDI。

直观例子:你被引用 100 次 · 全部来自知乎 · p_知乎 = 1 · H = 0 · CDI = 0。你被引用 100 次 · 平均分布在 4 个域(每个 25%)· H = 2 · CDI ≈ 67。你被引用 100 次 · 平均分布在 16 个域(每个 6.25%)· H = 4 · CDI ≈ 100(理论上限)。

ℹ 提示
为什么 Profound / Otterly 没做这个指标?因为它们诞生在英文场景 · 英文 LLM 的引用源天然分散(Reddit / Quora / Wikipedia / Medium / 各类垂直社区)· 单点依赖问题不严重。中文场景里知乎一家独大 · 单点依赖才是 80% 中文 GEO 客户的真实风险。

二、80 cite 全在知乎 CDI 0 · 80 cite 8 来源 CDI 78

把上面公式翻译成两个真实可视化场景。

场景 A · 单点极端:某新消费品牌 80 次 LLM 引用 · 78 次来自知乎专栏 + 2 次来自小红书。p_知乎 = 0.975 · p_小红书 = 0.025 · H ≈ 0.17 · CDI ≈ 4。这个品牌当前 LLM 可见度可能很高 —— 但只要知乎政策变一下 · 整个 AEO 体系一夜归零。

场景 B · 健康分布:另一品牌同样 80 次引用 · 分布在 8 个来源(知乎 18 / 小红书 14 / 公众号 12 / 行业垂直媒体 10 / 百家号 8 / 微博 7 / 官网 6 / 抖音图文 5)。p 分布更均匀 · H ≈ 2.93 · CDI ≈ 78。这个品牌即使知乎一夜消失 · 还有 7 条腿支撑。

为什么我们说 CDI 78 比 CDI 95 更现实?因为 CDI 95+ 意味着引用近乎完美均匀分布 —— 现实里几乎不可能。任何一个行业都会有「天然偏好的内容平台」(餐饮偏小红书 / 科技偏知乎 / 美妆偏小红书 + 抖音)。把 CDI 推到 70-85 区间是可达的 · 推到 95+ 是过度优化。

⚠ 注意
实战经验:CDI 70-85 是健康区间 · CDI > 90 通常意味着你在某些品类核心源上反而 underweight · 是另一种失衡。

三、单点依赖的 3 大风险

把单点依赖(CDI < 30)拆成 3 个具体风险场景 · 都是过去 12 个月里我们看到客户真实踩过的坑。

  1. 风险 1 · 平台政策变化 —— 知乎在过去一年里至少做过 3 次内容政策调整(专栏审核收紧 / 营销内容判定 / 商业账号限流)· 每次都会让一批品牌的「知乎专栏 cite 库」短期内被降权。完全押注知乎的品牌在每次政策变化里都会经历 1-2 周可见度断崖
  2. 风险 2 · AI 公司限流 / 屏蔽 —— Bytespider(字节)/ ClaudeBot / GPTBot 等 LLM 爬虫已经多次被部分大平台限流甚至封禁。如果你的 80% 引用源所在平台某天屏蔽了某个 LLM 爬虫 · 那你在那家 LLM 上就直接消失
  3. 风险 3 · 突发热点单点失声 —— 节假日 / 行业黑天鹅 / 突发负面事件期间 · 单一平台的内容热度结构会被瞬间冲乱。如果你只有一条腿 · 这种时候你就是最先掉队的那个
⚠ 注意
我们至少见过 3 个 CDI < 20 的客户 · 在一次平台政策调整后整体 LLM 可见度从 60% 一周内掉到 12% · 完全没有缓冲。

四、CDI < 50 的 5 个症状

怎么不打开工具就大致判断自己 CDI 是否健康?5 个症状自查表 —— 命中 2 个以上基本可以确认 CDI < 50。

  1. Top source 占比 > 60% —— 把所有 LLM 答案里引用你的源域名汇总 · 排名第一的那个域占比超过 60% · 直接判定单点依赖
  2. 7+ source type 中只用了 2-3 个 —— 标准 source type 池有 7-8 类(专栏社区 / 内容社交 / 公众号 / 行业垂直媒体 / 百科 / 官网 / 政府 / 学术)· 你只有 2-3 类有引用 · 多样性结构不健康
  3. Long-tail 引用集中在同一域 —— 不只是 top 源 · 连长尾引用都来自同一个域名下的不同 URL · 这是「整个 SEO + GEO 战略全部押注一个平台」的典型症状
  4. 新发内容只在一个平台火 —— 你 ship 的内容只有在 X 平台被 LLM 抓 · 其他平台 0 引用 · 说明内容分发只覆盖了一条 channel
  5. TTFC(首引用速度)异常依赖某平台 —— 7 日内拿到首引用的内容全部来自同一个域 · 说明你的「快速通路」只剩这一条

五、怎么从 CDI 30 推到 70+

诊断完了 · 给行动方案。从 CDI 30 推到 70+ 的标准 3 层路径 —— 我们给所有 CDI 低分客户用的就是这个工作流。

  1. Layer 1 · Identify 你已 dominant 的 source —— 先看清楚你目前 80% 引用来自哪一个域。这是「单点」的位置。常见情况:餐饮 / 美妆类客户 dominant 在小红书;科技 / 知识类客户 dominant 在知乎;本地生活 dominant 在大众点评 + 百度地图。先承认这个事实 · 别假装它不存在
  2. Layer 2 · 找 fuel domains —— 用 Citation Heist Map 看你的 top 5 竞品引用源里、你还没有覆盖的域名。这些就是你的「燃料域」。典型 fuel:行业垂直媒体(健康时报 / 36氪 / 中国汽车报)/ 政府或协会站(行业协会官网)/ 同行播客转写 / 行业百科(百度百科 / 维基百科 / 知识图谱)
  3. Layer 3 · 每月 ship 8-12 篇 owned + earned —— 强制多元 channel · 不能再全押 dominant 平台。建议比例:4 篇 owned(官网 + 公众号)+ 4 篇 earned(投稿到行业垂直媒体)+ 2-3 篇 PR(行业奖项 / 媒体报道)+ 1 篇知识图谱(百科词条 / Wikidata QID)。这套节奏跑 3 个月 · CDI 通常能从 30 推到 65-75
💡 要点
实测案例:某连锁餐饮客户起始 CDI 28(dominant 在小红书 71%)· 跑完 3 个月 12 篇 / 月节奏后 CDI 提升到 73 · 同期整体 Citation Rate 也上了 1.6× —— 多元化反而比深耕单点拉得更快。

六、Princeton 论文实证

CDI 这个指标不是凭空发明的 · Princeton 团队 2024 年那篇 KDD GEO Paper(Aggarwal et al.)里就已经验证了「来源多样性」是 citation lift 的关键变量之一。

论文核心数据:在所有内容杠杆里 · quotation(直接引语)单一杠杆贡献 +41% citation lift —— 这是 CDI 视角里被反复引用的那个 41% 数字的来源。论文同时观察到 · 多元 source 比单点深耕的收益曲线更稳定 —— 单点深耕在前 2 个月增长更快 · 但第 3-6 个月急剧放缓;多元布局前 2 个月偏慢 · 但 6 个月后总收益反超 1.4-1.8×。

我们用过去 12 个月 50+ 客户的真实数据复现了这个趋势 —— 多元 CDI 70+ 的客户 · 6 个月 cumulative citation 比单点 CDI < 30 的客户高 1.6× 平均。多元布局的 ROI 不是更高 · 是更稳。

七、下一步

看完这篇 · 如果你想动手 · 3 个递进动作:

  1. 0 成本 · 30 秒免费体检 —— 去 nanguageo.com/check · 输入品牌名 · 现场扫一次 12 LLM · 拿到你当前 CR / CDI / TTFC 三档基线分(不要钱、不用手机号、不用登录)
  2. 5 分钟 · 看 Citation Heatmap widget —— 注册 Trial 账号 · 看 cockpit 里 Citation Heatmap widget · 它会告诉你「你的 top 3 source 占比」+「7 类 source type 你覆盖了几类」+「fuel domains 候选清单」
  3. 30 分钟 · 申请 1:1 demo —— 去 nanguageo.com/request-demo · 创始团队 + Customer Success 一起进会 · 现场给你拉一个 3 个月 CDI 强化路线图
作者
南瓜 GEO 团队
Research × 数据科学

准备好让 AI 主动推荐你了吗?

30 秒免费体检 · 无需登录 · 真实 3 家 AI 扫描