本文所指的回归模型为一般性的回归模型,不包含时间序列回归。时间序列回归模型一般要考虑稳定性(如Jenkins-box方法)和样本采样限制。 回归评价设定 设定n个样本,每个样本为 ,实际值为 ,预测值为 。 为 的平均值。 MAE 平均绝对误差(Mean Absolute Error),是对绝对误差损失的预期值。 MAPE 平均绝对百分比误差(Me…
GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,是一种迭代的决策树算法,它通过构造一组弱的学习器(树),并把多颗决策树的结果累加起来作为最终的预测输出。该算法将决策树与集成思想进行了有效的结合。本文对GBDT的调参思想和具体步骤进行一个整理。GBDT的超参数分为框架参数和弱学习器参数两类,以下分别讲…
Apache MXNet 是一个灵活且可扩展的深度学习框架,支持多种深度学习模型、编程语言,并且有一个开发接口,因其易用性而受到高度重视。 最近要用到gloucv+mxnet做街景图语义分割,gloucv安装的虽然慢,但是还算顺利,但是mxnet就不行了,原本可以直接: pip install mxnet 硬生生的报错:error: Microso…
马尔科夫链在城市规划领域有广泛的运用,马尔科夫链是一个随机过程,其中每个状态的出现只依赖于前一个状态。我们可以使用一系列数学公式来描述它。 定义 考虑一个离散时间、离散状态空间的随机过程{Xn},其中n是非负整数,表示时间,而Xn是在时间n的状态。如果对于所有的 n、所有的状态i,j,k,... 和所有的时间序列s1,s2,s3...sn-1,以下…
前言 这是一篇Scikit-Learn的学习笔记,主要有环境配置、基本模块和实际案例等内容。这篇文章中我会介绍一下我用机器学习做城市分析任务的基本思路。Scikit-Learn是一个用于构建机器学习模型的Python库,不仅提供了数十种基础机器学习算法,而且配备了数据预处理和模型评估工具。 Scikit-Learn介绍 安装方法 Scikit-Le…
前言 最近在做城市扩张相关的影响机制研究,要用到地理加权回归,趁此机会就顺便整理一下GWR相关的一些知识。 传统的OLS回归模型没有考虑到各样本之间的空间关系,得到的回归系数与样本的空间位置无关,回归结果是研究区域内的全局“平均值”。全局回归无法反应地理现象中的空间异质性。根据地理学第二定律(空间异质性定律):“空间的隔离,造成了地物之间的差异,即…
本文参考王劲峰老师的《地理探测器:原理与展望》,原文讲得非常详尽。本文结合自己的理解对GeoDetector的原理与功能进行了整理。 基本概念 1、空间统计学:以空间自相关为理论基础,突破了经典统计学的独立同分布假设前提。 2、空间统计学工具:空间自相关检验如Moran's I、半变异函数等;热点探测如Gi、LISA等;空间插值方法如Kriging…
本地长时期运行爬虫程序后,被检测反爬的几率大大增高。所以想到将爬虫部署到服务器,定期自动运行。但是,远程连接Linux服务器跑程序,如果本地电脑关机,linux服务器程序也会断掉,这是因为断开连接后,终端会收到SIGHUP(hang-up 挂断)信号从而关闭该会话期的子进程。 有几种方法可以解决这个问题: 1. 使用nohup命令,在命令前加上no…
Git 是最常用的版本控制系统。Git 会跟踪我们对文件所做的更改,因此我们可以记录已完成的工作,并且可以在需要时恢复到特定或以前的版本。Git 还使多人协作变得更加容易,允许将多个人的更改全部合并到一个源中。 Gitee是一家国内的代码托管平台,也是世界上最大的开源社区之一。作为一个开发者,可以通过Gitee来管理自己的代码仓库,进行代码托管、版…
本文将从“似然估计”和“最大”两个方面分别讲解。 一、似然估计 似然,likelihood,可以联想到另一个词,概率(probability)。这两个词在统计学中是完全不同的两个概念,这里我拿来进行一个对比: (1)概率 probability 所谓概率,是指某件事在指定的环境下发生的几率。 如在环境A下,事件M发生的几率为 P(M/A)。 在环境…