网站首页 > 博客 > 正文

Python爬虫实战：selenium爬取电商平台商品数据

江湖小白博客 2024-04-11 7 0

目标

先介绍下我们本篇文章的目标，如图：

本篇文章计划获取商品的一些基本信息，如名称、商店、价格、是否自营、图片路径等等。

准备

首先要确认自己本地已经安装好了 Selenium 包括 Chrome ，并已经配置好了 ChromeDriver 。如果还没安装好，可以参考前面的前置准备。

分析

接下来我们就要分析一下了。

首先，我们的搜索关键字是 iPhone ，直接先翻到最后一页看下结果，发现有好多商品并不是 iPhone ，而是 iPhone 的手机壳，这个明显不是我们想要的结果，小编这里选择了一下品牌 Apple ，再翻到最后一页，这次就全都是手机了。

先把地址栏的地址 Copy 出来看一下，里面有很多无效参数：

https://search.jd.com/search?keyword=iPhone&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&ev=exbrand_Apple%5E&page=199&s=5933&click=0

如果问小编怎么知道是无效参数还是有效参数，emmmmmmmmm

这个要么靠经验，一般大网站的参数的命名都是比较规范的，当然也不排除命名不规范的。还有一种办法就是试，小编这边试出来的结果是这样滴：

https://search.jd.com/Search?keyword=iPhone&ev=exbrand_Apple

第一个参数 keyword 就是我们需要的商品名称，第二个参数 ev 是品牌的参数。

接下来我们看如何获取商品的详细信息，我们使用 F12 打开开发者模式，使用看下具体的信息都放在哪里：

可以看到，我们想要获取的信息在这个页面的 DOM 节点中都能获取到。

接下来因为我们是使用 Selenium 来模拟浏览器访问电商网站，所以后续的接口分析也就不需要做了，直接获取浏览器显示的内容的源代码就可以轻松获取到各种信息。

获取商品列表页面

首先，我们需要构造一个获取商品列表页面的 URL ，这个上面已经得到了，接下来就是使用 Selenium 来获取这个页面了：

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

driver = webdriver.Chrome()

driver.implicitly_wait(10)

driver.set_window_size(1280,800)

def index_page(page):

“”"

抓取索引页

:param page: 页码

“”"

print(‘正在爬取第’, str(page), ‘页数据’)

try:

url = ‘https://search.jd.com/Search?keyword=iPhone&ev=exbrand_Apple’

driver.get(url)

if page > 1:

input = driver.find_element_by_xpath(‘//*[@id=“J_bottomPage”]/span[2]/input’)

button = driver.find_element_by_xpath(‘//*[@id=“J_bottomPage”]/span[2]/a’)

input.clear()

input.send_keys(page)

button.click()

get_products()

except TimeoutException:

index_page(page)

这里我们依然使用隐式等待来进行 URL 访问，这里小编通过 xpath 的方式获取到了整个页面最下面的翻页组件：

小编这里的翻页实际上是使用这里的输入框和后面的确认按钮进行的。

获取商品详细数据

这里其实有一个坑，JD 的首页上的图片是懒加载的，就是当页面的滚动条没有滚到这个图片可以显示在屏幕上的位置的时候，这个图片是不会加载出来的。这就造成了小编一开始的只能获取到前 4 个商品的图片地址。

小编后来想了个办法，使用 JavaScript 来模拟滚动条滚动，先将所有的图片加载出来，然后再进行数据的获取，代码如下：

def get_products():

“”"

提取商品数据

“”"

js = ‘’’

timer = setInterval(function(){

var scrollTop=document.documentElement.scrollTop||document.body.scrollTop;

var ispeed=Math.floor(document.body.scrollHeight / 100);

if(scrollTop > document.body.scrollHeight * 90 / 100){

clearInterval(timer);

}

console.log(‘scrollTop:’+scrollTop)

console.log(‘scrollHeight:’+document.body.scrollHeight)

window.scrollTo(0, scrollTop+ispeed)

}, 20)

‘’’

driver.execute_script(js)

time.sleep(2.5)

html = driver.page_source

doc = PyQuery(html)

items = doc(‘#J_goodsList .gl-item .gl-i-wrap’).items()

i = 0

for item in items:

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

og.csdnimg.cn/d66e3ad5592f4cdcb197de0dc0438ec5.png#pic_center)

（3）100多个练手项目

好文链接

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

本文由用户于 2024-04-11 发布在夸智网，如有疑问，请联系我们。
本文链接：https://www.kuazhi.com/post/713730515.html

夸智网

Python爬虫实战：selenium爬取电商平台商品数据

AI绘画采样方式有哪几种

AI照片绘画特效同款怎么做

发表评论取消回复

夸智网

Python爬虫实战：selenium爬取电商平台商品数据

AI绘画采样方式有哪几种

AI照片绘画特效同款怎么做

相关文章

发表评论取消回复