Web Scraper 抓取列表详细内容
在使用 Web Scraper 的过程中,有时候会通过 Link 标签抓取二级页面,而在使用 Element scroll down 或者是 Element click 抓取时,Web Scraper 会一直抓取下去,这导致无法进入二级页面抓取内容。那么如何解决呢?
这里提供两个解决方案。
方案一:断网后重新连接。
当列表抓取到一定程度后,断网一次,Web Scraper 会停止对列表的抓取从而开始抓取二级页面。
此时重新连接网络,Web Scraper 便会依次抓取二级页面内容。
此方法要求手要快,不然部分二级页面可能依然处于断网状态无法抓取。
方案二:对 Element 使用 CSS 伪类。
在 Element 的 Selector 后面加上 :nth-of-type(-n+number),如果抓取 100 条数据,则把 number 改为 100,200 条数据则改为 200。
下面拿中青在线举例。参考模板 http://www.iwebscraper.com/scrape-news-cyol/
中青在线的 Selector 可以看到是 div.news-li。
Web Scraper 抓取列表详细内容
此时我们使用 CSS 伪类,在后面加上 :nth-of-type(-n+100) 变为 div.news-li:nth-of-type(-n+100)。那么 Web Scraper 会在抓取列表的 100 条数据后,停止对列表的抓取,开始抓取二级页面。
相关资讯
微信封杀10大分销平台主要是违反了什么规则
查看详情