柚子快报邀请码778899分享：python - 爬虫简介

什么是爬虫？

模拟浏览器对网站服务器发送请求解析服务器返回的响应数据，并保存数据

爬虫能获取哪些数据？

原则上所有可以通过浏览器获取的数据都可以爬取爬虫也只能获取爬取浏览器可以正常获取的数据

爬虫的应用场景？

数据分析 (如电影票房、股票信息、商品销量等)舆情监控(如微博、论坛等)搜索引擎刷浏览播放量等(如各类自媒体账号)抢票投票(对购票、投票接口发送请求)网络安全(短信轰炸- 多个网站发送验证码)

为什么会有反爬?

防止有价值的数据被恶意获取封锁垃圾流量，降低服务器的压力和运行成本

爬虫与反爬的对抗？

部分数据需要登录才能获取通过验证码甄别真人与爬虫监测同一IP 地址单位时间内的请求量请求需要携带特定的数据响应数据被加密，需要特定的算法解密

学习内容

如何爬取网页数据? （如何对服务器发送请求，获取源文件）

Requests 模块（对服务器发送请求，获取数据）模拟真实浏览器状态设置 Proxy 代理IP（避免单个ip发送过快，被服务器认为是爬虫）如何提取关键数据?（如何在源文件中获取有用的数据）

正则表达式XPath 表达式如何储存提取到的数据?

MongoDB 数据库Scrapy 框架爬取海量数据

集成发送请求，数据解析，数据保存Scrapy 结合 MongoDB 储存数据Scrapy-Redis 分布式爬虫（多个机器共同爬取一个任务）

Redis 数据库Scrapy-Redis 框架模拟登陆

登陆原理: Cookie 和 SessionSelenium 浏览器自动化爬取需要登陆才能获取的数据验证码识别

OpenCV 计算机视觉OCR 文字识别引擎EasyDL 机器学习云服务反爬与反反爬

破解文字加密反爬各类加密算法:MD5，SHA256，AES，RSAcJS逆向分析:还原网站的加密流程拓展内容

数据分析: Pandas 模块高频面试题目

爬虫合法么?

作为技术本身在法律中是不被禁止的爬虫能获取的数据都是能通过浏览器正常获取的公开数据爬虫只是更快速的获取大量数据

有法律风险的情况？

结合爬虫对网站服务器进行黑客攻击通过获取的数据谋取经济利益通过爬虫进行不当的商业竞争爬取的数据侵犯了对方的版权或隐私权

如何规避法律风险？

切勿对网站服务器进行大规模的请求轰炸切勿对爬取到的数据进行公开传播或售卖切勿对涉及知识产权和用户隐私的数据进行爬取

柚子快报邀请码778899分享：python - 爬虫简介

夸智网