zjuster
V2EX  ›  问与答

一个要求很简单的爬虫,有没有相关的开源程序推荐?

  •  
  •   zjuster · Mar 13, 2015 · 2928 views
    This topic created in 4091 days ago, the information mentioned may be changed or developed.

    # 需求
    - 指定某一个网站host
    - 抽取该网站的网页URL,暂定抽取上限10000条(针对门户);不满足的抽取5000条;否则全量抽取
    - 只保存爬取的URL地址,不需要抽取任何内容,结果保存在txt文件中。
    - 速度越快越好

    谢谢

    Supplement 1  ·  Mar 13, 2015
    谢谢各位。
    调研和尝试了下,用requests+bs4非常适合我的需求。
    9 replies    2015-03-14 10:30:29 +08:00
    kchum
        1
    kchum  
       Mar 13, 2015 via iPhone   ❤️ 1
    不爬内容怎么爬 URL
    URL 就是内容的一部分
    binux
        2
    binux  
       Mar 13, 2015   ❤️ 1
    google site:host
    xiaogui
        3
    xiaogui  
       Mar 13, 2015   ❤️ 1
    @binux 这是个不错办法,哈哈
    v2gba
        4
    v2gba  
       Mar 13, 2015 via iPhone   ❤️ 2
    icedx
        5
    icedx  
       Mar 13, 2015 via Android   ❤️ 1
    requests+bs4
    frankzeng
        6
    frankzeng  
       Mar 13, 2015
    你就爬一下首页,把url取下来,算一下不重复的有多少,如果不够就再爬url,这不是挺简单的逻辑吗
    Battle
        7
    Battle  
       Mar 13, 2015
    有一个东西叫火车头
    bingu
        8
    bingu  
       Mar 13, 2015
    wget ?
    Tink
        9
    Tink  
    PRO
       Mar 14, 2015 via iPhone
    二楼这个办法不错,主要是ip的问题
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5819 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 49ms · UTC 06:39 · PVG 14:39 · LAX 23:39 · JFK 02:39
    ♥ Do have faith in what you're doing.