由数据所驱动的关键带科学:一个新的范例

1、摘要

以澳大利亚为例,介绍了一种对地球的关键带环境进行综合研究的新方法。在澳大利亚,过去25年以来通过地理信息系统软件生成的环境数据图层,同现场测量与观察资料相结合,建立了清楚的空间预测模型,以对土壤和土壤性质进行数字填图。现在有代表地貌演变的不同因子和覆盖空间范围很广的数据集以及通过机器学习和规则归纳技术所作的解释结果可以利用,有利于对照现有的知识对新兴的模式进行评估,这反过来也会催生出新的见解,有助于外推至更大的范围。因此,数据驱动法是对关键带观测中由假说所驱动的科学探索方法的一种有益补充。

2、引言

土壤位于陆地-水圈-生物圈-大气圈的交界处,因此土壤过程是生态系统正常运转的关键。自2007年以来的关键带研究,主要依赖于装备精良的观测站。自从二十世纪末澳大利亚开展第一次全国性的土地和水资源调查(National Land and Water Resources Audit)以来,在全国性数据整理方面的投入已经使懂得数据价值的自然科学家把大部分现有数据都转换成了资源,并获得了对更大范围内的关键带过程的新认识。本文利用开发关键带科学的数据驱动流程(图1)的经验以及所获得的认识为例子,来论证国际上的关键带科学应该包含“大数据”归纳方法,使通过观测所获得的研究成果能应用到更广泛的领域。

图1 专家利用其专业知识来定义研究、确定数据选择和评价结果的一般性流程

3、流程

详细介绍了图1中的具体操作步骤。1)选择覆盖区域面积大(点密度大于0.0001 km−2)的大型点数据集(大于1000个点),2)数据集成,3)基于机器学习工具的预测模型与探索性分析,4)结果可视化,5)评价/验证分析。

4、澳大利亚关键带过程的知识发现

澳大利亚由数据所驱动的相关研究,已经应用机器学习和规则归纳法对环境数据集进行了综合和集成,并获得了有关关键带过程、生物地球化学循环和植物群落聚合的新认识。其中许多这样的认识已经被其他独立的研究所证实。通过建模,已经揭露了存在于地球表面现象的空间分布和地貌演化因素之间的可以预测的关系。文章讨论了风化作用和土壤的形成、冲沟侵蚀面的脆弱性与冲沟侵蚀过程、土壤有机碳(SOC)和生物地球化学循环以及气候和土壤在控制植物分布中的相对作用。

5、讨论

关键带领域已经采用了传感器网络、通用的数据测量与存储标准以及一个能够让学术界获得北美所有关键带观测站(CZO)数据的简单入口。其它“大数据”技术的开发,即基于网络服务的数据分析和可视化在线工具——比如澳大利亚生活地图集(Atlas of Living Australia)或应用编程接口(如谷歌地球引擎,即Google Earth Engine)——都是将遥感数据、其它数据和任何感兴趣用户所做的关键带研究的成果进行快速集成的又一关键步骤。这里,我主张采用数据挖掘技术及从大数据库中发现知识的方法(DM&KDD),即从代表土壤形成因素的大量经验性数据集中总结出规律,以便开展数据分析和经验外推,检验现有理论,最终形成新的假说。

 

未经允许不得转载:地学情报 » 由数据所驱动的关键带科学:一个新的范例

赞 (0)