爬虫有哪些分类？白话说说SEO好朋友爬虫

发布时间：2022-07-21 09:05:38 所属栏目：搜索优化来源：互联网

导读：爬虫是什么？反爬虫又是什么？这里的爬虫不是我们生活中的爬虫，如蜘蛛。这里的爬虫更多指的是网络爬虫，即我们叫它网页蜘蛛或网络机器人。当然，在SEO里，叫网页蜘蛛更多。网络爬虫，是一种按照一定规则，自动地抓取互联网上的信息的一种程序。他有一个英

　　爬虫是什么？反爬虫又是什么？

　　这里的爬虫不是我们生活中的爬虫，如蜘蛛。这里的爬虫更多指的是网络爬虫，即我们叫它网页蜘蛛或网络机器人。当然，在SEO里，叫网页蜘蛛更多。

　　网络爬虫，是一种按照一定规则，自动地抓取互联网上的信息的一种程序。他有一个英文名叫spider，比如百度网页蜘蛛就叫baiduspider，那搜狗的就叫Sogou spider。

　　这也是我们SEO人员做网站优化排名会听说的一个词。网站为啥没收录呢？原来蜘蛛没来抓取！如何看这个爬虫蜘蛛朋友来没来呢，让技术把网站日志下载给我们，我们就可以判断了，你说算不算好朋友？

　　百度爬虫是什么？Baiduspider是啥？

　　Baiduspider是百度搜索引擎的一个自动程序，它的作用是访问互联网上的网页，建立索引数据库，使用户能在百度搜索引擎中搜索到网站上的网页。百度还有哪些蜘蛛呢？如下图。最多是圈中这个，记得哈~

　　图片

　　反爬虫是什么？

　　我们以门户网站举例，企业网站也同理哈。门户网站通过相应的策略和技术手段，防止爬虫程序进行网站数据的爬取，这就叫反爬虫。

　　当然，其实还有反反爬虫，即爬虫程序通过相应的策略和技术手段，破解了门户网站的反爬虫手段，从而爬取到相应的数据，这就叫反反爬虫。

　　再白话举例：你要来采集我的内容（爬虫），我不给你采并且我做防采集（反爬虫）。你呢，又搞了更高技术把我防采集攻破了采集（反反爬虫），这样理解了吧？

　　爬虫有哪些分类？

　　爬虫总共就分两类：通用爬虫与聚焦爬虫。

　　通用爬虫：简单说就是尽可能的把网上的所有的网页下载下来，放到服务器里再对这些网页做相关处理，最后给用户搜索用，通常指的搜索引擎爬虫。比如：谷歌爬虫、百度爬虫、搜狗爬虫、360爬虫等。

　　聚焦爬虫：它是根据指定的需求抓取网络上指定网站的数据。比如：获取知乎问答上的某一问题的浏览量和回答人数，而不是获取整个页面中所有数据。它也可以理解叫特定爬虫。

　　上面提到的反爬虫与反反爬虫，基本上都是在反这种聚焦爬虫哈，你也可以理解为爬虫攻防战哈哈哈。

　　爬中流程与搜索引擎工作流程

　　爬虫一般工作流程：确定某个URL——发送请求——响应内容——提取数据——保存数据。

　　搜索引擎蜘蛛工作流程：爬取网页——存储数据——数据预处理——提供用户搜索网页排名。

　　是不是感觉难理解？发送请求是什么，响应内容又是什么？这个往下看HTTP协议与状态看完你就懂了。

　　关于搜索引擎数据预处理在处理什么，怎么理解？看公众号白杨SEO两年前写过这篇《白杨SEO：大白话告诉你理解搜索引擎工作原理的意义和运用》，看完你就懂了。

　　http/https协议与状态码

　　HTTP协议是指Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网 WWW（World Wide Web缩写）服务器传输超文本到本地浏览器的传送协议。默认端口号：80。

　　而HTTPS (Secure Hypertext Transfer Protocol)安全超文本传输协议指的是HTTPS是在HTTP上建立SSL加密层，并对传输数据进行加密，是HTTP协议的安全版。默认端口号：443。

　　你是不是理解不了这个HTTP到底什么东东？简单白话来说这个就是用来传输和接收页面的，保证你的电脑能快速传输文本文档并且让你看到哈。

（编辑：张家口站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

网站做优化多少钱？有	如何取得seo优化额外流
从几个重点看seo优化公	在SEO中如何正确优化网