本项目采用 Selenium
通过调用JS方式爬取当当网商品搜索页的商品列表数据,可以实现自动滚动页面到底部(使图片加载完整)、自动翻页(可以设置总页数)。
获取到的数据字段描述如下:
url: 商品图片URL
book_name: 商品名称
publish: 出版社名称
author: 作者名称
pub_date: 出版日期
pip install selenium
pip install webdriver_manager
python main.py
程序运行时,会自动打开一个 Chrome 窗口并访问当当网的商品搜索结果页面:
开始爬取内容时,会在项目目录下创建一个 data.json
,后续每页获取到的内容都会写入该文件:
此处设置循环次数即可:
for i in range(1, 100):
关键词在 main.py
中的:
keyword = "图书"
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)