xanthu
V2EX  ›  问与答

如果爬取的网站源有几百多个,如何用 Python 建立爬虫?

  •  
  •   xanthu · Jul 10, 2018 · 2267 views
    This topic created in 2875 days ago, the information mentioned may be changed or developed.
    需求有几百多个站点要爬,不可能每个站点都用 Scrapy 写一个爬虫吧?

    有没有什么有效的解决方案?
    gitopen
        1
    gitopen  
       Jul 10, 2018 via Android
    scrapy 可以写多个爬虫,自定义命令后可启动多个爬虫进行爬取。。。。
    xanthu
        2
    xanthu  
    OP
       Jul 10, 2018
    @gitopen ....有 700 多个站,每个站都不同
    yrj
        3
    yrj  
       Jul 10, 2018 via iPad
    我想楼主是需要一个可以泛解析出内容页文章主体内容的库,我记得 python 有几个这样的库,但貌似准确率都不太高,我也一直在纠结这个问题。
    cyspy
        4
    cyspy  
       Jul 10, 2018 via Android
    pocket 或者 instapaper 能不能做中转?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1278 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 58ms · UTC 17:15 · PVG 01:15 · LAX 10:15 · JFK 13:15
    ♥ Do have faith in what you're doing.