关于 scrapy 分布式管理

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 3121 days ago, the information mentioned may be changed or developed.

最近在使用 scrapy-redis 做分布式爬虫，目前考虑写一个扩展，主要可以实现：

通过一个 ui 界面来提交爬虫代码。（大概类似于一些 oj 刷题网站的代码编辑页面）
然后点击运行按钮，就能够自动启动一个 scrapy 实例。

这里遇到一些问题，爬虫代码保存在哪里？然后通过什么方法来运行这份爬虫代码？目前我的方案是：

把代码文件存到一个公共的目录，所有的爬虫都从这个目录启动。
然后爬虫通过 docker 来启动，docker 可以访问那个公共目录。

不过感觉这样好麻烦啊，估计会碰到很多坑，不知道各位 v 友有没有什么更优的方式，实现我这个需求。

代码

爬虫

Scrapy

Docker

10 replies • 2018-11-14 23:58:28 +08:00

owenliang

Nov 24, 2017

自己部个 marathon 或者 k8s，然后通过 api 启动实例？

aragakiiyui

Nov 24, 2017

@owenliang = =不会啊，还没用过。

Chrics

Nov 24, 2017

> 然后点击运行按钮，就能够自动启动一个 scrapy 实例。

这个顺序反了吧，应该是启动一个 scrapy 实例，向中央服务器注册？

sunwei0325

Nov 24, 2017

试试 spiderkeeper

hcnhcn012

Nov 24, 2017 via iPhone

Heroku 把，它可以和你的 git 联动

SlipStupig

Nov 24, 2017

如果用 docker 的话，强力推荐 rancher

aragakiiyui

Nov 25, 2017

@sunwei0325 那个项目部署方式太蛋疼了，界面可以参考一下，但是调度方式还是得写一套。

sunwei0325

Nov 25, 2017

@aragakiiyui [捂脸]我还觉得挺好用的, 有 api 直接写好脚本打包 egg, 上传到 scrapyd 服务器

tikazyq

Nov 25, 2017

有一个现成的轮子，需要配置 scrapyd

https://github.com/DormyMo/SpiderKeeper

my8100

Nov 14, 2018

@aragakiiyui 如何简单高效地部署和监控分布式爬虫项目 www.sunp.eu.org/t/507933