我们用 PHP 写爬虫,需要在 guzzle 的 request options 里的 header 里,加上 cookie
现在都是手动,就是先用浏览器点开网站,F12,复制 cookie,粘贴到代码里,
这很傻逼,一方面 cookie 过一段会失效,二方面,始终无法自动获取到 cookie
Python 的 requests 包就可以,但显然我还是希望用 php 解决问题。
尝试过各种方式,均失败。
各位有什么好的建议么?
还有一个疑惑,这属于 HTTP 协议学得不好,也来请教一下:
如果首次访问网站,仍然会有 cookie,而且 cookie 里包含有 sessionID,这就很邪门,
如果要爬取的网页不是首次访问网站, 这个可以理解,因为你已经和网站建立连接了,当然会有 sessionID。
但首次访问网站,仍然会有 sessionID 包含在 cookie 里,实在理解不能,这 sessionID 哪里来的? TCP 三次握手的时候 server 发送的?
请高人赐教。
现在都是手动,就是先用浏览器点开网站,F12,复制 cookie,粘贴到代码里,
这很傻逼,一方面 cookie 过一段会失效,二方面,始终无法自动获取到 cookie
Python 的 requests 包就可以,但显然我还是希望用 php 解决问题。
尝试过各种方式,均失败。
各位有什么好的建议么?
还有一个疑惑,这属于 HTTP 协议学得不好,也来请教一下:
如果首次访问网站,仍然会有 cookie,而且 cookie 里包含有 sessionID,这就很邪门,
如果要爬取的网页不是首次访问网站, 这个可以理解,因为你已经和网站建立连接了,当然会有 sessionID。
但首次访问网站,仍然会有 sessionID 包含在 cookie 里,实在理解不能,这 sessionID 哪里来的? TCP 三次握手的时候 server 发送的?
请高人赐教。