python scrapy爬虫scrapyd服务部署
2022年5月30日大约 1 分钟约 305 字
安装服务端
安装依赖scrapy
:pip install scrapy
安装scrapyd
: pip install scrapyd
启动scrapyd
服务:>>> scrapyd
scrapyd配置文件
linux
配置文件路径:/etc/scrapyd/scrapyd.conf
windows
配置文件路径:C:\Users\xiong\AppData\Local\Programs\Python\Python36\Lib\site-packages\scrapyd\default_scrapyd.conf
安装客户端
安装管理客户端scrapyd-client
:pip install scrapyd-client
客户端并不需要scrapy
环境
修改客户端脚本后缀名:C:\Users\xiong\AppData\Local\Programs\Python\Python36\Scripts\scrapyd-deploy.py
打包上传爬虫项目
检测项目
E:\svnProject\scrapyProject\ProxySpiderProject> scrapy list
修改项目配置文件
>>> vim ProxySpiderProject/scrapy.cfg
[settings]
default = ProxySpiderProject.settings
[deploy:xici]
url = http://localhost:6800/ # scrapyd服务器的URL地址
project = ProxySpiderProject
ProxySpiderProject> scrapyd-deploy.py -l
# 上传项目到服务器
ProxySpiderProject> scrapyd-deploy.py xici -p ProxySpiderProject
调用scrapyd API
启动服务器上面的项目
>>> cmder
# 在服务器上运行爬虫
λ curl http://localhost:6800/schedule.json -d project=ProxySpiderProject -d spider=xici
其他命令
# 查看服务器状态
λ curl http://localhost:6800/daemonstatus.json
# 查看项目列表
λ curl http://localhost:6800/listprojects.json
# 查看爬虫列表
λ curl http://localhost:6800/listspiders.json?project=ProxySpiderProject
# 查看任务列表
λ curl http://localhost:6800/listjobs.json?project=ProxySpiderProject
# 取消任务
λ curl http://localhost:6800/candel.json -d project=ProxySpiderProject -d job=e2b3e36883f411e899741c1b0d65b102
# 删除scrapy项目
λ curl httpd://localhost:6800/delproject.json -d project=ProxySpiderProject