最近在使用 scrapy-redis 做分布式爬虫,目前考虑写一个扩展,主要可以实现:
- 通过一个 ui 界面来提交爬虫代码。(大概类似于一些 oj 刷题网站的代码编辑页面)
- 然后点击运行按钮,就能够自动启动一个 scrapy 实例。
这里遇到一些问题,爬虫代码保存在哪里?然后通过什么方法来运行这份爬虫代码? 目前我的方案是:
- 把代码文件存到一个公共的目录,所有的爬虫都从这个目录启动。
- 然后爬虫通过 docker 来启动,docker 可以访问那个公共目录。
不过感觉这样好麻烦啊,估计会碰到很多坑,不知道各位 v 友有没有什么更优的方式,实现我这个需求。