我想要抓取http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/
上面的数据。
我用scrapy shell http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/
测试的时候,取不到包含'下一页'的a标签。
进行测试,利用如下规则来选取:
In [35]: Selector(response).xpath('span[@class="nav_go_next"]/a')
然后,我发现一个大概的原因,就是nav_go_next标签的父元素里面包含了两个script脚本
我能通过
In [35]: Selector(response).xpath('//div[@class="page"]/script')
来取得script标签,但是通过
In [35]: Selector(response).xpath('//div[@class="page"]/span')
就取不到span元素。
有谁碰到过类似的问题吗?求教!谢谢!