学校项目,老板说要能实时获取数据并且实时分析,做到突发事件预警,其实现有系统已经能做到日获取 600W 数据,但是实时数据量比较少,所以设定的计算分析会有一到两个小时之间的延迟。现在老师认定要做到实时爬取,但是目前新浪微博 API 很残废(比如不能获取指定用户的微博数据,不能获取微博转发内容。)
除了网页爬虫(试过很多次,除了换 IP 其他防反爬策略都试过,但是基本一天就会被封,要实现快速和大量数据的爬取,爬虫真不是有效办法),想请问下大家有什么好的办法?(我已经给老师解释过了, API 不能用,网页爬虫不能用在系统里面作为获取数据的有效途径,但是老师不听,让自己想办法)