MaxEnt在物种分布建模的三部曲(一)-开山之作
分为前言,文献信息,以及部分内容:前言为文献介绍;文献信息就是包含了标题,作者,发表时间,DOI,以及近五年的引用趋势;部分内容就是笔者个人感兴趣或者读完比较有收获的章节的概括或拆解(有些内容较复杂或者太硬核,所以只整理了一部分),其中括号且标~的文字是个人的进一步注解,与原意进行区分。
前言
这篇文献引用2w+,是MaxEnt在生态学的开山之作,首次将Maxent方法系统应用于仅含存在数据的物种地理分布建模,填补了没有物种未出现数据的建模方法的空白;也详细论述了Maxent的理论方法,及其在预测准确性等方面的优势。
文献信息
1.具体信息
标题:Maximum entropy modeling of species geographic distributions 物种地理分布的最大熵建模
一作:Steven J. Phillips
论文发表年份:2006
DOI:https://doi.org/10.1016/j.ecolmodel.2005.03.026
信息查询日期:2026.01.26
2.引用趋势(谷歌学术)
部分内容
1.1. Niche-based models from presence-only data 基于仅有物种出现数据的生态位模型
这小节核心是讲怎么用仅有的物种出现记录和环境数据,构建能预测物种适宜生存区域的生态位模型,专门解决没有物种 “未出现数据” 的难题。
核心概念:物种的基础生态位是它能长期存活的所有环境条件集合,现实生态位是它实际占有的部分 —— 因为人类活动、物种间竞争、地理屏障这些因素,现实生态位通常比基础生态位小。
建模假设:默认收集到的物种出现位点,都来自 “源生境”(就是能自己维持种群,不用靠其他地方的个体迁入补充的栖息地);如果物种迁徙能力强,这个假设就没那么靠谱。
模型应用逻辑:先在 “生态空间”(比如温度、降水这些环境维度)里描述哪些条件适合物种,再把这些条件映射到实际的地理空间,得到物种可能分布的区域。预测的潜在分布往往比实际分布广,后续可以通过排除没殖民的区域、不适宜的生境来优化。
变量选择:一是环境变量和物种出现记录的时间要匹配(比如不能用现在的植被数据配几十年前的标本记录);二是尺度要合适(气候变量适合大尺度,地形变量适合中小尺度)。
建模常见坑:出现位点可能有采样偏差(比如多在道路、河流附近)、存在空间自相关或记录误差;位点数量太少可能导致模型参数不准;环境变量不够全面,或者变量本身有数据误差,都会影响建模效果。(~在之后的其他文献中对Maxent模型改进,有些问题有所缓解,但是最好还是自行保证数据质量)
1.2. Maxent 最大熵模型
Maxent 是一种机器学习方法,专门针对只有物种出现数据的情况设计,核心是在已知环境变量的约束下,找一个 “熵最大” 的概率分布,既能贴合已知信息,又不加额外假设,预测精度很高。
核心原理:熵最大意味着概率分布最接近均匀,不会随便限制物种的可能分布。约束条件很简单:模型里每个环境变量(叫 “特征”)的平均值,要和物种出现记录里的观测平均值一致。
建模适配方式:把研究区域分成一个个像素,物种出现的像素当样本点,气候、海拔这些环境变量当 “特征”,最后给每个像素输出一个生存适宜性概率。
核心优势:仅需出现数据和整个研究区域的环境信息;支持连续型变量(比如温度)和分类型变量(比如植被类型),还能考虑变量间的相互作用;用 L1 正则化能避免 “过拟合”(只贴合训练数据,换个数据集就不准了);输出是连续值,后续选阈值划分 “适宜 / 不适宜” 区域时很灵活;小样本数据下表现更稳,因为它是 “生成式模型”,先建模物种出现的概率分布,再推导适宜性。
主要不足:没有 GLM、GAM 这些方法成熟,缺乏统一的使用指南(~现在已经很成熟了);外推到极端环境时需要斟酌一下,因为它的概率模型没有上限;得用专门的软件,不能在常规统计软件里直接用(~除了专门的软件,现在R包也很多)。
1.3. Existing approaches for presence-only modeling 现有的基于仅有物种出现数据的建模方法
这小节把现有方法分成两大类(~当时的现有方法):一类只靠物种出现数据就能建模(~现代大部分情况是使用Maxent),另一类需要结合背景数据,也就是 “伪物种未出现数据”,相当于给Maxent找了对比参考,方便看Maxent的优势。
仅依赖出现数据的方法
BIOCLIM:画一个 “生物气候包络”,比如某个物种出现的温度范围是10-30℃、降水范围是 800-2000mm,就把这个范围内的区域当成适宜生境,原理很直接。
DOMAIN:算目标区域和所有物种出现点在环境空间里的最小距离,距离越近,说明环境越相似,适宜性就越高。
结合背景数据(伪未出现数据)的方法
GLM/GAM:原本是给 “有出现 + 有未出现” 数据用的,现在处理仅有出现数据时,就随机选一些研究区域的像素当 “伪未出现点”,结果只能当成 “相对适宜性指数” 看,不能直接当出现概率(~这个伪未出现数据不一定随机,可以根据经验辅助生成)。
贝叶斯方法:和 GLM/GAM 类似,也是用随机样本当背景,核心是通过贝叶斯定理建模物种出现的概率。
GARP:用遗传算法生成一堆 “规则”(比如 “温度 > 20℃且降水 > 1000mm 则适宜”),靠出现点和背景点验证这些规则好不好用,最后输出 “适宜 / 不适宜” 的二元结果。
ENFA:不用把背景点当伪未出现点,先把环境空间做线性变换,分成 “边缘性”(物种偏好的环境和整体环境的差异)和 “特化性”(物种对环境的专一程度)两个维度,再用曼哈顿距离判断适宜性。
2.1.4. Relationships to other modeling approaches 与其他建模方法的关系
Maxent和GLM、GAM、贝叶斯方法这些有相似之处,但在数据需求、建模逻辑上差别很大,最大的优势就是不用未出现数据,小样本下表现更稳。
与 GLM/GAM 的异同
相似点:都能处理线性、二次项、变量交互(比如温度×降水)这些特征;Maxent的“阈值特征”和GAM的“平滑函数” 功能像,都是为了贴合物种对环境的响应曲线;Maxent的正则化和GAM的平滑控制,都是为了避免过拟合。
核心差异:GLM/GAM 必须要未出现数据(或伪未出现数据),直接判断 “这个像素有没有物种”;Maxent不用未出现数据,先建模 “物种出现的像素是什么样的”,再推导适宜性,小样本数据下泛化能力更强。
与贝叶斯方法的差异:两者都重视概率推理,但传统的贝叶斯物种建模(比如朴素贝叶斯)会假设环境变量之间相互独立,这在实际中很少成立,而Maxent没有这个假设,更贴合真实数据。
与 ENFA 的相似性:数据需求完全一样,都只需要出现数据加上整个研究区域的环境数据,不用伪未出现数据;核心都是从环境特征里提取物种的生态位信息,不用强行把背景当缺失。
写在最后
这篇文献高被引的原因在于首次将Maxent引入物种分布预测,近几年生物多样性研究逐渐成为热门,五年的引用量也占了总引用近一半。原文中上述部分的论述也相对详细,适合新手入门。原文还有很大的篇幅描述了Maxent的原理和计算过程,十分硬核,有能力的朋友也可以去看看。
接下来会进一步推送Maxent的另外两部经典之作。
(经典文献系列,主要是为了探索这些经典文献除了在当时提出新方法或得出新结论之外,是否有其他可供论文撰写或方法学习的参考的论述或观点。经典文献之中亦有引用其他经典文献,篇幅所限不能穷尽,建议阅读原文。以下均为个人观点,仅供参考。)