- 1.CDI(Citation Diversity Index)= Shannon 熵的工程化 · 衡量你的引用源是分散在多个域、还是单点依赖某一个平台
- 2.极端例子:80 cite 全在知乎 → CDI 0;80 cite 分散在 8 个来源 → CDI 78。CDI 78 比 CDI 95 更现实
- 3.单点依赖 3 大风险:平台政策变化(知乎封号)/ AI 公司限流(Bytespider 屏蔽)/ 突发热点单点失声
- 4.CDI < 50 的 5 个症状:Top source 占比 > 60% / 7+ source type 中只用了 2-3 个 / Long-tail 集中同一域
- 5.从 CDI 30 推到 70+ 的 3 层路径:identify dominant → 找 fuel domains → 每月 ship 8-12 篇 owned + earned
一、CDI 是什么 · Shannon 熵的工程化
Citation Diversity Index(CDI · 引用多样性指数)是南瓜 GEO 自研的核心健康度指标。它衡量的不是「你被引用多少次」(这是 Citation Count)· 而是「你的引用来源分布在多少个独立来源 · 分布得多均匀」。
为什么 Citation Count 不够?因为 80 次引用全部来自同一个公众号矩阵 · 跟 80 次引用分散在 8 个独立来源 · 是两件事。前者是单点风险 · 后者是健康分布 · LLM 在评估你的「行业地位」时也会内部做这个判断。
CDI 的数学基底是 Shannon entropy(信息论里的熵)。简化公式:先把所有引用按来源域聚合 · 算每个域占总引用的比例 p_i · 然后 H = -Σ(p_i × log₂(p_i))。我们再把 H 归一化到 0-100 区间 —— 这就是 CDI。
直观例子:你被引用 100 次 · 全部来自知乎 · p_知乎 = 1 · H = 0 · CDI = 0。你被引用 100 次 · 平均分布在 4 个域(每个 25%)· H = 2 · CDI ≈ 67。你被引用 100 次 · 平均分布在 16 个域(每个 6.25%)· H = 4 · CDI ≈ 100(理论上限)。
二、80 cite 全在知乎 CDI 0 · 80 cite 8 来源 CDI 78
把上面公式翻译成两个真实可视化场景。
场景 A · 单点极端:某新消费品牌 80 次 LLM 引用 · 78 次来自知乎专栏 + 2 次来自小红书。p_知乎 = 0.975 · p_小红书 = 0.025 · H ≈ 0.17 · CDI ≈ 4。这个品牌当前 LLM 可见度可能很高 —— 但只要知乎政策变一下 · 整个 AEO 体系一夜归零。
场景 B · 健康分布:另一品牌同样 80 次引用 · 分布在 8 个来源(知乎 18 / 小红书 14 / 公众号 12 / 行业垂直媒体 10 / 百家号 8 / 微博 7 / 官网 6 / 抖音图文 5)。p 分布更均匀 · H ≈ 2.93 · CDI ≈ 78。这个品牌即使知乎一夜消失 · 还有 7 条腿支撑。
为什么我们说 CDI 78 比 CDI 95 更现实?因为 CDI 95+ 意味着引用近乎完美均匀分布 —— 现实里几乎不可能。任何一个行业都会有「天然偏好的内容平台」(餐饮偏小红书 / 科技偏知乎 / 美妆偏小红书 + 抖音)。把 CDI 推到 70-85 区间是可达的 · 推到 95+ 是过度优化。
三、单点依赖的 3 大风险
把单点依赖(CDI < 30)拆成 3 个具体风险场景 · 都是过去 12 个月里我们看到客户真实踩过的坑。
- 风险 1 · 平台政策变化 —— 知乎在过去一年里至少做过 3 次内容政策调整(专栏审核收紧 / 营销内容判定 / 商业账号限流)· 每次都会让一批品牌的「知乎专栏 cite 库」短期内被降权。完全押注知乎的品牌在每次政策变化里都会经历 1-2 周可见度断崖
- 风险 2 · AI 公司限流 / 屏蔽 —— Bytespider(字节)/ ClaudeBot / GPTBot 等 LLM 爬虫已经多次被部分大平台限流甚至封禁。如果你的 80% 引用源所在平台某天屏蔽了某个 LLM 爬虫 · 那你在那家 LLM 上就直接消失
- 风险 3 · 突发热点单点失声 —— 节假日 / 行业黑天鹅 / 突发负面事件期间 · 单一平台的内容热度结构会被瞬间冲乱。如果你只有一条腿 · 这种时候你就是最先掉队的那个
四、CDI < 50 的 5 个症状
怎么不打开工具就大致判断自己 CDI 是否健康?5 个症状自查表 —— 命中 2 个以上基本可以确认 CDI < 50。
- Top source 占比 > 60% —— 把所有 LLM 答案里引用你的源域名汇总 · 排名第一的那个域占比超过 60% · 直接判定单点依赖
- 7+ source type 中只用了 2-3 个 —— 标准 source type 池有 7-8 类(专栏社区 / 内容社交 / 公众号 / 行业垂直媒体 / 百科 / 官网 / 政府 / 学术)· 你只有 2-3 类有引用 · 多样性结构不健康
- Long-tail 引用集中在同一域 —— 不只是 top 源 · 连长尾引用都来自同一个域名下的不同 URL · 这是「整个 SEO + GEO 战略全部押注一个平台」的典型症状
- 新发内容只在一个平台火 —— 你 ship 的内容只有在 X 平台被 LLM 抓 · 其他平台 0 引用 · 说明内容分发只覆盖了一条 channel
- TTFC(首引用速度)异常依赖某平台 —— 7 日内拿到首引用的内容全部来自同一个域 · 说明你的「快速通路」只剩这一条
五、怎么从 CDI 30 推到 70+
诊断完了 · 给行动方案。从 CDI 30 推到 70+ 的标准 3 层路径 —— 我们给所有 CDI 低分客户用的就是这个工作流。
- Layer 1 · Identify 你已 dominant 的 source —— 先看清楚你目前 80% 引用来自哪一个域。这是「单点」的位置。常见情况:餐饮 / 美妆类客户 dominant 在小红书;科技 / 知识类客户 dominant 在知乎;本地生活 dominant 在大众点评 + 百度地图。先承认这个事实 · 别假装它不存在
- Layer 2 · 找 fuel domains —— 用 Citation Heist Map 看你的 top 5 竞品引用源里、你还没有覆盖的域名。这些就是你的「燃料域」。典型 fuel:行业垂直媒体(健康时报 / 36氪 / 中国汽车报)/ 政府或协会站(行业协会官网)/ 同行播客转写 / 行业百科(百度百科 / 维基百科 / 知识图谱)
- Layer 3 · 每月 ship 8-12 篇 owned + earned —— 强制多元 channel · 不能再全押 dominant 平台。建议比例:4 篇 owned(官网 + 公众号)+ 4 篇 earned(投稿到行业垂直媒体)+ 2-3 篇 PR(行业奖项 / 媒体报道)+ 1 篇知识图谱(百科词条 / Wikidata QID)。这套节奏跑 3 个月 · CDI 通常能从 30 推到 65-75
六、Princeton 论文实证
CDI 这个指标不是凭空发明的 · Princeton 团队 2024 年那篇 KDD GEO Paper(Aggarwal et al.)里就已经验证了「来源多样性」是 citation lift 的关键变量之一。
论文核心数据:在所有内容杠杆里 · quotation(直接引语)单一杠杆贡献 +41% citation lift —— 这是 CDI 视角里被反复引用的那个 41% 数字的来源。论文同时观察到 · 多元 source 比单点深耕的收益曲线更稳定 —— 单点深耕在前 2 个月增长更快 · 但第 3-6 个月急剧放缓;多元布局前 2 个月偏慢 · 但 6 个月后总收益反超 1.4-1.8×。
我们用过去 12 个月 50+ 客户的真实数据复现了这个趋势 —— 多元 CDI 70+ 的客户 · 6 个月 cumulative citation 比单点 CDI < 30 的客户高 1.6× 平均。多元布局的 ROI 不是更高 · 是更稳。
七、下一步
看完这篇 · 如果你想动手 · 3 个递进动作:
- 0 成本 · 30 秒免费体检 —— 去 nanguageo.com/check · 输入品牌名 · 现场扫一次 12 LLM · 拿到你当前 CR / CDI / TTFC 三档基线分(不要钱、不用手机号、不用登录)
- 5 分钟 · 看 Citation Heatmap widget —— 注册 Trial 账号 · 看 cockpit 里 Citation Heatmap widget · 它会告诉你「你的 top 3 source 占比」+「7 类 source type 你覆盖了几类」+「fuel domains 候选清单」
- 30 分钟 · 申请 1:1 demo —— 去 nanguageo.com/request-demo · 创始团队 + Customer Success 一起进会 · 现场给你拉一个 3 个月 CDI 强化路线图