MaxEnt在物种分布建模的三部曲(二)-调优与改进

zbhgis 浩瀚地学310016 分钟
创建于 更新于

点击上方“浩瀚地学”关注并设为星标,可及时获取最新推送。若有问题也欢迎在留言区中交流与指正。

img

以下将分为前言,文献信息,部分内容:前言为文献介绍;文献信息就是包含了标题,作者,发表时间,DOI,以及近五年的引用趋势;部分内容就是笔者个人感兴趣或者读完比较有收获的章节的概括或拆解(有些内容较复杂或者太硬核,所以只整理了一部分),其中括号且标~的文字是个人的进一步注解,与原意进行区分。

前言

之前推送了开山之作,今天这篇是续作。这篇文献引用近1w,聚焦于Maxent在物种分布建模中的应用,通过对模型参数的实证调优(基于仅有物种出现数据),并引入铰链特征、逻辑输出格式、目标组背景采样等新扩展,显著提升了模型的预测准确性、可解释性和运行效率。首次提出仅用物种出现数据的参数调优方案,以及一系列优化模型性能的扩展设计,让Maxent在仅有出现数据的场景下表现更优。

文献信息

1.具体信息

标题:Modeling of species distributions with Maxent: new extensions and a comprehensive evaluation 使用 Maxent 建模物种分布:新的扩展和全面评估

一作:Steven J. Phillips

论文发表年份:2008

DOI:https://doi.org/10.1111/j.0906-7590.2008.5203.x

信息查询日期:2026.01.27

2.引用趋势(谷歌学术)

img

部分内容

摘要中的结果部分

结果显示:

1)在仅存在数据上调优的默认设置,其性能几乎与在评估数据本身上调优一样好(~就是仅靠 “物种出现数据” 调出来的模型默认参数,效果几乎和用 “出现+未出现数据” 调优的参数一样好);

2)铰链特征显著提高了模型性能(~在文中的实验效果是能有效地替代二次、乘积和阈值特征);

3)逻辑输出提高了模型校准,使得输出值的大差异能更好地对应适宜性的大差异;

4)“目标组”背景采样可以比随机背景采样给出更好的预测性能(~就是把 “用同样方法调查的同一类物种,比如同一地区的所有鸟类” 的出现记录当背景,能抵消偏差影响);

5)随机背景采样会导致运行时间大幅减少,而模型性能没有下降(~就是不用所有的位点即可保证模型性能)。

Environmental variables and feature classes in Maxent 最大熵模型中的环境变量和特征类

这一节主要介绍了 Maxent 模型中两类环境变量(连续型、分类型),以及六种特征类(线性、二次、乘积、阈值、铰链、类别指示),特征类由环境变量衍生而来,用于刻画物种对环境的响应关系,其中铰链特征是本文新引入的类型,旨在提升模型对复杂环境响应的拟合能力。

环境变量的类型

连续型变量:能取任意实数值,比如海拔、年降水量、最高温度这类可测量的量化指标;

分类型变量:只能取有限个离散值,比如土壤类型、植被类型;还有一种 “离散有序变量”,如土壤肥力等级,通常会被当作连续型变量处理。

六种特征类的定义与作用

线性特征(L):直接等于连续环境变量本身,用来约束变量的均值与实际观测值匹配,刻画物种对环境的线性响应;

二次特征(Q):是连续环境变量的平方,用来约束变量的方差与实际观测值匹配,捕捉非线性响应;

乘积特征(P):是两对连续环境变量的乘积,用来约束变量间的协方差与实际观测值匹配,刻画变量间的交互作用;

类别指示特征(C):由分类型变量衍生而来,比如某个分类变量有 k 个类别,就会生成 k 个特征,每个特征在对应类别下取 1,其他情况取 0;

阈值特征(T):基于连续变量的某个 “节点值 h” 定义,当变量值小于 h 时取 0,否则取 1,用来刻画物种对环境的分段常数响应;

铰链特征(H,本文新引入):同样基于 “节点值 h”,分为前向和反向两种 —— 前向铰链在变量值小于 h 时取 0,之后线性增长到 1;反向铰链在变量值最小处取 1,到 h 时线性降到 0,用来刻画物种对环境的分段线性响应,比阈值特征更灵活。

Maxent tuning 最大熵模型的调优

这一节核心是对 Maxent 模型的关键参数(正则化参数)和特征类组合进行调优,调优基于仅存在数据,最终确定了不同物种观测样本量对应的最优设置。(~现在的调优能够根据设置自动调优,比较方便,这篇文章是提供调优思路的详细说明,网上这部分的公开资料相对较少)

调优的核心目标

找到合适的正则化参数(β 值):避免模型 “过拟合”(太贴合训练数据,泛化能力差)或 “欠拟合”(太简单,没捕捉到关键规律);

确定最优特征类组合:根据物种观测样本量,选择最适合的特征类(比如少样本用简单特征,多样本用复杂特征),平衡模型复杂度和预测效果。

调优的具体方法

正则化参数调优:针对线性、二次、乘积等不同特征类,测试不同样本量(从 6 到 3162 个)和不同 β 值(从 0.02 到 4.6)的组合,通过 “β-曲线”(性能随β值变化的曲线)找最优β值——样本量越多,β值通常越小(模型允许更复杂);连续与分类变量组合调优:分类变量会增加特征数量,所以需要单独调整其正则化参数(βc),最终选择 “中间值” 设置,兼顾性能和稳定性;

离散有序变量处理:对比后发现,把离散有序变量当作连续型变量处理时,模型表现更好;

最优特征集选择:通过 “m-曲线”(性能随样本量变化的曲线)确定:2-9 个样本用 LC(线性 + 类别指示)特征,10-79 个样本用 LQC(线性 + 二次 + 类别指示)特征,80 个及以上样本用 LQPTC(线性 + 二次 + 乘积 + 阈值 + 类别指示)特征。(~这个仅供参考,因为只在这篇文章中是这样,其他实验还是要自行调优的)

调优结果的验证

全局“仅出现数据调优”比“出现-未出现数据调优”的平均AUC仅高 0.006,区域“出现-未出现数据”也只高 0.012-0.014,说明“仅出现数据调优”的通用性极强;

调优后的参数被用作Maxent 1.8.3 及以上版本的默认参数(仅后续对分类变量的正则化参数做了小幅调整)(~看到这就能明白软件的默认参数是怎么得出来的,之后软件更新3.0以上版本有些默认参数变了;以及要自行设定参数的话,也可以按照这个思路调优)

Possible reasons for Maxent's good performance 最大熵模型表现出色的可能原因

这一小节的核心是其正则化方式、对仅存在数据的适配性,以及生成式建模的特性,这些让它在小样本、没有未出现数据的场景下更有优势。

L1正则化

Maxent用的是L1正则化(也叫Lasso惩罚),会让很多特征的权重变成 0,相当于自动筛选关键特征,避免模型太复杂导致过拟合;

相比传统回归模型的变量选择方法,这种正则化在防止过拟合上效果更好,而且目前其他物种分布建模方法很少用这种正则化。

避免 “污染对照” 问题

传统回归类方法处理仅有出现点的数据时,会把背景数据当作 “物种未出现数据”,但这些背景数据里可能藏着未记录的物种存在点(也就是 “污染对照”),会影响模型效果;

Maxent不需要把背景数据当缺失数据,直接建模物种存在的分布规律,从根源上避免了这个问题。

生成式建模适合小样本

Maxent 是 “生成式模型”,直接建模 “物种存在时的位点分布(P (x|y=1))”;而回归类方法是 “判别式模型”,建模 “位点上物种存在的概率(P (y=1|x))”;

小样本情况下,生成式模型的预测效果通常比判别式模型好,这也契合物种分布建模中常遇到的 “观测样本少” 的场景。(~这个点在06年的那篇文献中也有提及)

Beyond the realized distribution 潜在分布

潜在分布预测的挑战

实际分布是物种当前能找到的区域(受地理屏障、竞争等限制),而潜在分布是物种适应的环境所覆盖的区域;

当前模型的调优目标是预测实际分布,若用来预测潜在分布,模型会惩罚那些 “环境合适但物种未出现” 的位点,导致预测不准;

而且很多物种的潜在分布范围未知,无法验证模型效果,可能需要调整参数(比如放宽正则化)。

跨区域/环境迁移的应用

这类应用包括预测气候变化对物种分布的影响、入侵物种在新区域的扩散等,需要把在一个区域/环境训练的模型,应用到另一个区域/环境;

不同建模方法在这类转移应用中,预测结果差异很大(比如物种分布范围变化),Maxent当前的默认参数可能不适用,需要专门研究适配的特征类和正则化参数(~所以不是特殊情况,都得调优的)。

注意事项

避免用 “间接预测变量”:比如海拔、特定月份的气候,这些变量的生态意义在不同区域可能不同(比如低海拔在A区域适合,在B区域可能不适合);(~这个点06年的那篇文献也有,但昨天忘记加了,这个点想表述的逻辑就是环境变量需要在任何区域的影响都是通用的,比如平均气温低,在哪都会限制很多物种,但是海拔低,不同区域对应的气候不一致,可能在a地区限制,在b地区气候不一致就不限制了。但其实现在很多文献都是会引入海拔作为环境变量的,这个只是原文的建议。)

合理选择背景数据:比如预测潜在分布时,要剔除已知的地理屏障区域(比如山脉、海洋),避免背景数据包含 “物种不可能到达” 的位点;(~能进一步根据经验剔除更好,不过现在很多文献都没剔除,因为这一步太主观了,且难界定)

写在最后

这一篇中涉及统计知识的篇幅相较起前一篇更多,更加硬核,进一步完善了Maxent模型,最重要的是首次系统提出了调优思路,确定了Maxent在物种分布建模的流程,因此有很多文献在使用Maxent模型时,也会引用这一篇。

(经典文献系列,主要是为了探索这些经典文献除了在当时提出新方法或得出新结论之外,是否有其他供我们论文撰写或方法学习参考的论述或观点。经典文献之中亦有引用其他经典文献,篇幅所限不能穷尽,建议阅读原文。以上均为个人观点,仅供参考。)