前不久正在做某平台上城市规划项目相关数据的抓取,发现此类数据不满足传统爬虫所需的格式化要求,批量爬取的难度较大。于是转换思路,先通过截取所有项目页面的图片,并保存到本地。然后利用百度的开源模型Paddlenlp对图片内容进行识别。由于数据量大,而且我的RTX2060显卡跑这种大型推理模型稍显吃力,还是把数据和代码部署到云GPU服务器慢慢跑吧。 Pa…
前言 前段时间有幸听了一场2023全球数字经济大会“数字孪生城市与数智治理创新”专题论坛,其中对Michael Batty院士关于数字孪生城市的讲座印象较为深刻,打破了我的一些固有认知,也产生了对城市模型的新想法和新认知。写这篇博客,一是为了梳理所学的内容,二是为了重新认识数字孪生、城市模型等含义。 Michael Batty(迈克尔·巴蒂)院士,…
最近在利用paddle的开源模型实现对图片内容的推理。但是由于部分图片过大,导致识别精度下降。根据初步实验结果,发现图片中后部分的信息都没有用,于是想到用Pillow库对图片进行裁剪,从而降低图片大小。 导入Pillow库及其他相关库 from PIL import Imageimport osimport globfrom tqdm import…