thumbnail
Linux服务器后台运行爬虫程序
本地长时期运行爬虫程序后,被检测反爬的几率大大增高。所以想到将爬虫部署到服务器,定期自动运行。但是,远程连接Linux服务器跑程序,如果本地电脑关机,linux服务器程序也会断掉,这是因为断开连接后,终端会收到SIGHUP(hang-up 挂断)信号从而关闭该会话期的子进程。 有几种方法可以解决这个问题: 1. 使用nohup命令,在命令前加上no…
thumbnail
【Gitee版本管理】如何利用git上传代码到个人仓库
Git 是最常用的版本控制系统。Git 会跟踪我们对文件所做的更改,因此我们可以记录已完成的工作,并且可以在需要时恢复到特定或以前的版本。Git 还使多人协作变得更加容易,允许将多个人的更改全部合并到一个源中。 Gitee是一家国内的代码托管平台,也是世界上最大的开源社区之一。作为一个开发者,可以通过Gitee来管理自己的代码仓库,进行代码托管、版…
【概念】什么是最大似然估计?
本文将从“似然估计”和“最大”两个方面分别讲解。 一、似然估计 似然,likelihood,可以联想到另一个词,概率(probability)。这两个词在统计学中是完全不同的两个概念,这里我拿来进行一个对比: (1)概率 probability 所谓概率,是指某件事在指定的环境下发生的几率。 如在环境A下,事件M发生的几率为 P(M/A)。 在环境…
thumbnail
基于Paddlenlp多模态预训练模型document_intelligence的图片内容识别以及云GPU服务器部署运行
前不久正在做某平台上城市规划项目相关数据的抓取,发现此类数据不满足传统爬虫所需的格式化要求,批量爬取的难度较大。于是转换思路,先通过截取所有项目页面的图片,并保存到本地。然后利用百度的开源模型Paddlenlp对图片内容进行识别。由于数据量大,而且我的RTX2060显卡跑这种大型推理模型稍显吃力,还是把数据和代码部署到云GPU服务器慢慢跑吧。 Pa…
thumbnail
“数字孪生、图灵测试和城市模型”——Michael Batty院士讲座
前言 前段时间有幸听了一场2023全球数字经济大会“数字孪生城市与数智治理创新”专题论坛,其中对Michael Batty院士关于数字孪生城市的讲座印象较为深刻,打破了我的一些固有认知,也产生了对城市模型的新想法和新认知。写这篇博客,一是为了梳理所学的内容,二是为了重新认识数字孪生、城市模型等含义。 Michael Batty(迈克尔·巴蒂)院士,…
thumbnail
通过Pillow库实现图片按比例剪裁以及tqdm库可视化运行进程
最近在利用paddle的开源模型实现对图片内容的推理。但是由于部分图片过大,导致识别精度下降。根据初步实验结果,发现图片中后部分的信息都没有用,于是想到用Pillow库对图片进行裁剪,从而降低图片大小。 导入Pillow库及其他相关库 from PIL import Imageimport osimport globfrom tqdm import…