
网站首页 > 专利信息
本发明公开了一种基于多策略融合的微博数据获取方法,首先模拟登录,获取登录成功的Cookie;将获取的Cookie保存到Cookie队列中,获取初始任务;然后使用多账号负载均衡策略爬取用户关注列表、用户资料;提取用户ID,生成关注关系和用户信息待爬取队列,再爬取用户关注列表、用户资料,同时生成用户微博待爬取队列;构造访客Cookie,使用IP代理池加速爬取微博内容,将信息存入数据库中;提取微博ID,生成评论信息待爬取队列;爬取微博评论信息,将信息存入数据库中。本发明通过自适应算法找到适合当前网络环境和Cookie队列长度的并发请求数,在采集速度和账号安全之间取得平衡;同时实现了高可用代理IP模块以加速数据采集,为网络舆情分析提供基础数据支持。
联系电话:028-87659663 028-85404682 028-85460925 邮箱:cdjz617@126.com
办公地址:四川省成都市武侯区科华街10号四川大学国家高新技术孵化平台609
成都川大技术转移集团有限公司
蜀ICP备11025552号-1
Copyright © 2007-2011 技术支持:成都网络公司-三以网络