有时需要对某个网站子目录下的网页进行抓取页面,但事先并不知道要爬取哪些页面,可以借助google高级搜索功能和api来提取相应的页面网址,比如:搜索特定网站中的内容:输入 site:,后跟相应网站或域名。例如 [site:youtube.com 猫视频]。
优化 Google 搜索范围
子域名搜集攻略来
最详细的GOOGLE搜索指令大全
Advanced google query parameters
HOW TO FIND WHEN GOOGLE FIRST INDEXED A WEBSITE: THE HIDDEN ‘AS_QDR’ PARAMETER TRICK