一些基础概念和学习资料: token:https://blog.csdn.net/weixin_43160662/article/details/136222440 prompt:https://www.quanzhan.co/archives/541 Lang-chain: 1)https://zhuanlan.zhihu.com/p/62052…
之前在Anaconda环境中配置了GPU版本的PyTorch虚拟环境,今天在将此环境加入Jupyter中的过程中遇到一些困难。以下是过程记录,搜集全网解决方案下来较为简洁的方法: 管理员身份打开Anaconda Prompt 激活虚拟环境: conda activate env_name 在虚拟环境中安装ipykernel,使用清华源能够安装成功:…
本文所指的回归模型为一般性的回归模型,不包含时间序列回归。时间序列回归模型一般要考虑稳定性(如Jenkins-box方法)和样本采样限制。 回归评价设定 设定n个样本,每个样本为 ,实际值为 ,预测值为 。 为 的平均值。 MAE 平均绝对误差(Mean Absolute Error),是对绝对误差损失的预期值。 MAPE 平均绝对百分比误差(Me…
GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,是一种迭代的决策树算法,它通过构造一组弱的学习器(树),并把多颗决策树的结果累加起来作为最终的预测输出。该算法将决策树与集成思想进行了有效的结合。本文对GBDT的调参思想和具体步骤进行一个整理。GBDT的超参数分为框架参数和弱学习器参数两类,以下分别讲…
Apache MXNet 是一个灵活且可扩展的深度学习框架,支持多种深度学习模型、编程语言,并且有一个开发接口,因其易用性而受到高度重视。 最近要用到gloucv+mxnet做街景图语义分割,gloucv安装的虽然慢,但是还算顺利,但是mxnet就不行了,原本可以直接: pip install mxnet 硬生生的报错:error: Microso…
前言 这是一篇Scikit-Learn的学习笔记,主要有环境配置、基本模块和实际案例等内容。这篇文章中我会介绍一下我用机器学习做城市分析任务的基本思路。Scikit-Learn是一个用于构建机器学习模型的Python库,不仅提供了数十种基础机器学习算法,而且配备了数据预处理和模型评估工具。 Scikit-Learn介绍 安装方法 Scikit-Le…
本地长时期运行爬虫程序后,被检测反爬的几率大大增高。所以想到将爬虫部署到服务器,定期自动运行。但是,远程连接Linux服务器跑程序,如果本地电脑关机,linux服务器程序也会断掉,这是因为断开连接后,终端会收到SIGHUP(hang-up 挂断)信号从而关闭该会话期的子进程。 有几种方法可以解决这个问题: 1. 使用nohup命令,在命令前加上no…
Git 是最常用的版本控制系统。Git 会跟踪我们对文件所做的更改,因此我们可以记录已完成的工作,并且可以在需要时恢复到特定或以前的版本。Git 还使多人协作变得更加容易,允许将多个人的更改全部合并到一个源中。 Gitee是一家国内的代码托管平台,也是世界上最大的开源社区之一。作为一个开发者,可以通过Gitee来管理自己的代码仓库,进行代码托管、版…
前不久正在做某平台上城市规划项目相关数据的抓取,发现此类数据不满足传统爬虫所需的格式化要求,批量爬取的难度较大。于是转换思路,先通过截取所有项目页面的图片,并保存到本地。然后利用百度的开源模型Paddlenlp对图片内容进行识别。由于数据量大,而且我的RTX2060显卡跑这种大型推理模型稍显吃力,还是把数据和代码部署到云GPU服务器慢慢跑吧。 Pa…
最近在利用paddle的开源模型实现对图片内容的推理。但是由于部分图片过大,导致识别精度下降。根据初步实验结果,发现图片中后部分的信息都没有用,于是想到用Pillow库对图片进行裁剪,从而降低图片大小。 导入Pillow库及其他相关库 from PIL import Imageimport osimport globfrom tqdm import…