Python-Scrapy抓取百度数据并分析

抓取智联招聘和百度搜索的数据并进行分析,使用visual studio编写代码mongodb和sqlserver存储数据。使用scrapy框架结合 selenium爬取百度搜索数据，并进行简要的数据的分析！！

打开百度搜索页面，并查看网页源代码，问题便出现，无法查看到页面源代码，如下，只是返回一个状态说明，这时可以确定页面数据是动态生成，常规的爬取行不通。

在浏览器中进行调试分析，可以发现需要定位使用的html元素，通过这一步至少可以将以下两个元素的xpath或css selector的表达式求解出来。

既然搜索页面的内容是动态生成，常规的http请求后无法获取数据，针对这种问题的解决方法：

l 通过抓包工具，进行对http请求进行分析，找到实际数据请求的js代码后进行模拟请求获取数据，这种方法耗时耗力，且是无法适应页面更改的情况。

l 通过浏览器框架请求，并编写程序和浏览器通信获取数据分析，对于这种方法的选择有很多，如在windows上可以使用ie browser控件，其他的可以使用其他内核的浏览器，这种方法的缺点是速度较慢。

l 这里选取的方法是使用 selenium + phantomjs的方法，这个结合scrapy也算是较为经典的一种方法。并且 selenium + phantomjs 也是作为web应用程序进行自动化测试的一套方案。

l selenium : selenium 是一个用于web应用程序测试的工具，可以搭配主流浏览器进行使用，如 ie ，chrome ，firefox等

l phantomjs: 一个基于webkit内核的无头浏览器，即没有ui界面，即它就是一个浏览器，只是其内的点击、翻页等人为相关操作需要程序设计实现。

开始实际编写代码前，对爬取步骤的梳理。

 自动填写搜索关键字 – 自动触发搜索功能 – 抓取页面搜索数据（不包含广告推广项） – 分页跳转 …..

输入关键字并进行查找，对关键字“it教育”进行搜索

对第一页右边栏的“相关机构”（如下图）进行抓取（首先需要触发“展开”事件）

在开启爬虫，进行爬取数据的，爬取结果如下：

分析数据经过抓取，共抓取了76页，抓取的数据如下: json文件 [[图片上传中在sqlserver数据库中。

对抓取数据进行关键字提取，并制作对应的标签云，得到的标签云图为.分析工具为python，通过jieba分词和pycloundtag两个模块进行，得到的分析结果如下：

分析搜索“it教育”得到结果得出的初步结论，出现次数较多：

n 城市：北京深圳杭州武汉长沙等

n 机构：北大青鸟达内传智播客等

n 语言： java php html5 等

github: https://github.com/shadow-hunter-x/crawl-recruit-data