python scrapy爬虫scrapyd服务部署
2022年5月30日大约 1 分钟约 305 字
安装服务端
安装依赖scrapy:pip install scrapy
安装scrapyd: pip install scrapyd
启动scrapyd服务:>>> scrapyd
scrapyd配置文件
linux配置文件路径:/etc/scrapyd/scrapyd.confwindows配置文件路径:C:\Users\xiong\AppData\Local\Programs\Python\Python36\Lib\site-packages\scrapyd\default_scrapyd.conf
安装客户端
安装管理客户端scrapyd-client:pip install scrapyd-client
客户端并不需要scrapy环境
修改客户端脚本后缀名:C:\Users\xiong\AppData\Local\Programs\Python\Python36\Scripts\scrapyd-deploy.py
打包上传爬虫项目
检测项目
E:\svnProject\scrapyProject\ProxySpiderProject> scrapy list
修改项目配置文件
>>> vim ProxySpiderProject/scrapy.cfg
[settings]
default = ProxySpiderProject.settings
[deploy:xici]
url = http://localhost:6800/ # scrapyd服务器的URL地址
project = ProxySpiderProjectProxySpiderProject> scrapyd-deploy.py -l
# 上传项目到服务器
ProxySpiderProject> scrapyd-deploy.py xici -p ProxySpiderProject调用scrapyd API
启动服务器上面的项目
>>> cmder
# 在服务器上运行爬虫
λ curl http://localhost:6800/schedule.json -d project=ProxySpiderProject -d spider=xici其他命令
# 查看服务器状态
λ curl http://localhost:6800/daemonstatus.json
# 查看项目列表
λ curl http://localhost:6800/listprojects.json
# 查看爬虫列表
λ curl http://localhost:6800/listspiders.json?project=ProxySpiderProject
# 查看任务列表
λ curl http://localhost:6800/listjobs.json?project=ProxySpiderProject
# 取消任务
λ curl http://localhost:6800/candel.json -d project=ProxySpiderProject -d job=e2b3e36883f411e899741c1b0d65b102
# 删除scrapy项目
λ curl httpd://localhost:6800/delproject.json -d project=ProxySpiderProject