本文所指的回归模型为一般性的回归模型,不包含时间序列回归。时间序列回归模型一般要考虑稳定性(如Jenkins-box方法)和样本采样限制。 回归评价设定 设定n个样本,每个样本为 ,实际值为 ,预测值为 。 为 的平均值。 MAE 平均绝对误差(Mean Absolute Error),是对绝对误差损失的预期值。 MAPE 平均绝对百分比误差(Me…
GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,是一种迭代的决策树算法,它通过构造一组弱的学习器(树),并把多颗决策树的结果累加起来作为最终的预测输出。该算法将决策树与集成思想进行了有效的结合。本文对GBDT的调参思想和具体步骤进行一个整理。GBDT的超参数分为框架参数和弱学习器参数两类,以下分别讲…
前言 这是一篇Scikit-Learn的学习笔记,主要有环境配置、基本模块和实际案例等内容。这篇文章中我会介绍一下我用机器学习做城市分析任务的基本思路。Scikit-Learn是一个用于构建机器学习模型的Python库,不仅提供了数十种基础机器学习算法,而且配备了数据预处理和模型评估工具。 Scikit-Learn介绍 安装方法 Scikit-Le…
前不久正在做某平台上城市规划项目相关数据的抓取,发现此类数据不满足传统爬虫所需的格式化要求,批量爬取的难度较大。于是转换思路,先通过截取所有项目页面的图片,并保存到本地。然后利用百度的开源模型Paddlenlp对图片内容进行识别。由于数据量大,而且我的RTX2060显卡跑这种大型推理模型稍显吃力,还是把数据和代码部署到云GPU服务器慢慢跑吧。 Pa…