5.2 高级爬虫: 高效无忧的 Scrapy 爬虫库
Last updated
Was this helpful?
Last updated
Was this helpful?
Scrapy 是一个整合了的爬虫框架, 有着非常健全的管理系统. 也是分布
式爬虫
一定还要给这个 spider 一个名字,给定一些初始爬取的网页, 写在start_urls 里,在 scrapy 中它自动帮你去重
不需要使用 urljoin(),在 follow() 这一步会自动检测 url 的格式
-o res.json 这个 -o 就是输出的指令, 可以在那个文件夹中找到一个名字叫 res.json 的文件, 里面存有所有找到的 {title:, url:}.