加入收藏 | 设为首页 | 会员中心 | 我要投稿 张家口站长网 (https://www.0313zz.com.cn/)- 办公协同、操作系统、混合云网络、数据湖、视觉智能!
当前位置: 首页 > 运营中心 > 搜索优化 > 正文

爬虫有哪些分类?白话说说SEO好朋友爬虫

发布时间:2022-07-21 09:05:38 所属栏目:搜索优化 来源:互联网
导读:爬虫是什么?反爬虫又是什么? 这里的爬虫不是我们生活中的爬虫,如蜘蛛。这里的爬虫更多指的是网络爬虫,即我们叫它网页蜘蛛或网络机器人。当然,在SEO里,叫网页蜘蛛更多。 网络爬虫,是一种按照一定规则,自动地抓取互联网上的信息的一种程序。他有一个英
  爬虫是什么?反爬虫又是什么?
 
  这里的爬虫不是我们生活中的爬虫,如蜘蛛。这里的爬虫更多指的是网络爬虫,即我们叫它网页蜘蛛或网络机器人。当然,在SEO里,叫网页蜘蛛更多。
 
  网络爬虫,是一种按照一定规则,自动地抓取互联网上的信息的一种程序。他有一个英文名叫spider,比如百度网页蜘蛛就叫baiduspider,那搜狗的就叫Sogou spider。
 
  这也是我们SEO人员做网站优化排名会听说的一个词。网站为啥没收录呢?原来蜘蛛没来抓取!如何看这个爬虫蜘蛛朋友来没来呢,让技术把网站日志下载给我们,我们就可以判断了,你说算不算好朋友?
 
  百度爬虫是什么?Baiduspider是啥?
 
  Baiduspider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到网站上的网页。百度还有哪些蜘蛛呢?如下图。最多是圈中这个,记得哈~
 
 
  图片
 
  反爬虫是什么?
 
  我们以门户网站举例,企业网站也同理哈。门户网站通过相应的策略和技术手段,防止爬虫程序进行网站数据的爬取,这就叫反爬虫。
 
  当然,其实还有反反爬虫,即爬虫程序通过相应的策略和技术手段,破解了门户网站的反爬虫手段,从而爬取到相应的数据,这就叫反反爬虫。
 
  再白话举例:你要来采集我的内容(爬虫),我不给你采并且我做防采集(反爬虫)。你呢,又搞了更高技术把我防采集攻破了采集(反反爬虫),这样理解了吧?
 
  爬虫有哪些分类?
 
  爬虫总共就分两类:通用爬虫与聚焦爬虫。
 
  通用爬虫:简单说就是尽可能的把网上的所有的网页下载下来,放到服务器里再对这些网页做相关处理,最后给用户搜索用,通常指的搜索引擎爬虫。比如:谷歌爬虫、百度爬虫、搜狗爬虫、360爬虫等。
 
  聚焦爬虫:它是根据指定的需求抓取网络上指定网站的数据。比如:获取知乎问答上的某一问题的浏览量和回答人数,而不是获取整个页面中所有数据。它也可以理解叫特定爬虫。
 
  上面提到的反爬虫与反反爬虫,基本上都是在反这种聚焦爬虫哈,你也可以理解为爬虫攻防战哈哈哈。
 
  爬中流程与搜索引擎工作流程
 
  爬虫一般工作流程:确定某个URL——发送请求——响应内容——提取数据——保存数据。
 
  搜索引擎蜘蛛工作流程:爬取网页——存储数据——数据预处理——提供用户搜索网页排名。
 
  是不是感觉难理解?发送请求是什么,响应内容又是什么?这个往下看HTTP协议与状态看完你就懂了。
 
  关于搜索引擎数据预处理在处理什么,怎么理解?看公众号白杨SEO两年前写过这篇《白杨SEO:大白话告诉你理解搜索引擎工作原理的意义和运用》,看完你就懂了。
 
  http/https协议与状态码
 
  HTTP协议是指Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网 WWW(World Wide Web缩写)服务器传输超文本到本地浏览器的传送协议。默认端口号:80。
 
  而HTTPS (Secure Hypertext Transfer Protocol)安全超文本传输协议指的是HTTPS是在HTTP上建立SSL加密层,并对传输数据进行加密,是HTTP协议的安全版。默认端口号:443。
 
  你是不是理解不了这个HTTP到底什么东东?简单白话来说这个就是用来传输和接收页面的,保证你的电脑能快速传输文本文档并且让你看到哈。

(编辑:张家口站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读