如何在段时间内容实现 1w 个网站的数据采集呢?利用传统的 scrapy 实现,每个网站创建一个 spider 这种肯定是不现实的,而且也不好维护,有其他方案可以快速实现这个庞大网站采集吗?
|      1Lockroach      226 天前 这和建立一个个人搜索引擎感觉差不多了,应该有解决方案的 | 
|      2baozaodexiaomila OP 谢谢大佬,我去找找看,这边要的是实现一个通用招投标采集系统,有点摸不着头脑,没有这么大量网站采集的经验 | 
|      3baozaodexiaomila OP @Lockroach 	  谢谢大佬,我去找找看,这边要的是实现一个通用招投标采集系统,有点摸不着头脑,没有这么大量网站采集的经验 | 
|      4jamos      225 天前 如果 1 万个网站页面规则不一致,你就需要通用的解析库, 根据我的经验,没有完美的解析方案  1. 用 BeautifulSoup 太重,效率不高 2. 用 re 是最快的,写规则也是最麻烦的 这个规模并发应该不是大问题,用 redis 手数据,mongodb 存数据 后面的去重才是真正的考验 | 
|      5ila      225 天前 主要是 xpath 规则或 css 规则. 把规则和采集分开来. 使用 scrapy 也可以,他有分布式. btw:招人吗?2019 年我对接过全国各省的招投标网站 | 
|      6iYume      225 天前 写 js 脚本采集网页数据,然后交给 llm 总结 | 
|  |      7snoopygao      225 天前 抓虫现在需要遵守哪些法律条款 | 
|      8baozaodexiaomila OP @jamos 确实是,目前有可利用的大模型吗?我用过 Crawl4ai 和 firecrawl ,觉得解析效果比较差劲,目前有什么比较好的大模型结合大批量数据采集的方案呢? 还有就是,基于我目前的经验,数据采集的流程,从网站分析,脚本开发,网站采集,数据解析,数据入库,这几个阶段,能想到大模型在数据采集流程上的利用,似乎只有在最后数据解析这里能派上用场,脚本开发是不是也可以利用?当下有什么好的结合方式吗? | 
|      9baozaodexiaomila OP @ila 理论上来说,这个就是常规的落地方案,大部分人都会采用这种方式,不过不知道有没有可以结合 AI 的新的方案呢,感觉可以拓展一下哈哈 | 
|      10baozaodexiaomila OP @iYume 有好用的 LLM 适合解析网站目标数据吗?我试过 Crawl4ai 和 firecrawl 不太行,这两个库也是对接 openai 去实现解析的,我不太了解这方面,还请指教 | 
|      11jamos      209 天前 建议直接放弃所谓的 ai ,因为爬虫的主要任务是抓取数据,和对应的存储数据, 就像是水管接水, 既要水管的吸水能力强,也要另一头的储水能力强。 如果花心思在 ai 解析,你会遭遇算力瓶颈,复杂度不会比爬虫低,提示词微调,模型本地化,控制本地模型的规模(在效果和算力之间找平衡),显卡内存等硬件采购。。。 抓取数据和处理数据,分开处理。 | 
|      12baozaodexiaomila OP @jamos 说的在理,只是实际情况爬虫需要处理网页多样化的数据提取,这部分工作目前剥离不开,既然剥不开这部分工作,那么需要采集大量网站时,网页非结构化数据解析就是最大工作量了 | 
|  |      13YJi      200 天前 | 
|  |      14YJi      199 天前 @YJi 噢我看你是要招投标信息,有个论坛 V 友做的网站 https://www.120bid.com/ 他们应该也卖 api 服务   当时发的帖子 /t/1056354   当然买我的数据也可以,就是需要自己再清洗。 |