scrapy 如何采集分页数据？

比如这个网页
http://www.cs.com.cn/xwzx/hg/201409/t20140924_4521344.html

正文分成了好几个分页来显示，骗PV可耻啊

我想用scrapy把这个正文合并起来，看文档中没找到合并的办法

就想到一个思路，如果发现有分页，将网页内容合并起来，再用lxml和xpath提取
测试了一下，思路是可行的，我就想问一下，scrapy是否有自带的方法能更优雅的实现这一过程？

核心代码片断
from lxml import html
import HTMLParser
import requests
import re

def innerHTML(node):
buildString = ''
for child in node:
buildString += html.tostring(child)
return HTMLParser.HTMLParser().unescape(buildString)

encoding = 'gbk'

source=response.body.decode(encoding,'ignore')

p=re.search(r'countPage = (.*?)/',response.body)
if p:
for i in xrange(1,int(p.group(1))):
url='%s_%d.html' %(response.url.replace('.html',''),i)
source =source+ requests.get(url,headers=headers).content.decode(encoding,'ignore')
content=html.fromstring(source).xpath('//div[@class="Dtext z_content"]')
content=innerHTML(content)

Supplement 1 · Sep 24, 2014

这样做的好处可以将内容合并放到一个item中
如果要放到不同的item，可以用yield request来做~

Scrapy

encoding

import

7 replies • 2014-09-26 14:08:11 +08:00

aisensiy

Sep 24, 2014

我想是不可以的，需要你自己去实现

binux

Sep 24, 2014

这段代码和 scrapy 有什么关系。。

pc10201

Sep 24, 2014

@binux 我用scrapy获取到第一个网页的response，分页数据用requests来获取~

Melodic

Sep 24, 2014

scrapy不需要合并，只需要在第一页抓完之后，返回Request，参数中携带下一页的url和自己的分析函数的回调即可

def parse(self, response):
.
.
.
url = 下一页的url
yield scrapy.Request(url, callback=self.parse)

至于下一页的url是你for循环出来还是自己拼接的，就要具体分析了。

forever139

Sep 24, 2014

楼主的意思我懂，你这种做法其实也是可以的，官方是推荐都能通过自己的requests管理，如果有额外的参数，你可以通过request的meta属性来yield给下个request，然后在response中取出来，这样你就可以是一个item.不过你这种情况可能传递的内容比较多，效率比较低。

pc10201

Sep 26, 2014

@forever139 亲，能否给一段示例代码或相关网页？我就是不知道怎么将response.body合并~

forever139

Sep 26, 2014

@pc10201 http://doc.scrapy.org/en/latest/topics/request-response.html