全国服务热线:18271592020
资讯

关于长亭空间

超值服务提供卓越产品

   
  
  
新闻公告 News
   
搜索引擎网页抓取分析
来源: | 作者:chang | 发布时间: 2018-12-25 | 38 | 分享到:

    先说说搜索引擎的原理吧.搜索引擎是把互联网上的网页内容存在自己的服务器上,当用户搜索某个词的时候,搜索引擎就会在自己的服务器上找相关的内容,这样就是说,只有保存在搜索引擎服务器上的网页才会被搜索到.哪些网页才能被保存到搜索引擎的服务器上呢?只有搜索引擎的网页抓取程序抓到的网页才会保存到搜索引擎的服务器上,这个网页抓取程序就是搜索引擎的蜘蛛.整个过程分为爬行和抓取.


    一、 蜘蛛


    搜索引擎用来爬行和访问网站页面的程序被称为蜘蛛,也可称之为机器人.蜘蛛访问浏览器,就和我们平时上网一个样子,蜘蛛同样会申请访问,得到允许后才可以浏览,可是有一点,搜索引擎为了提高质量和速度,它会放很多蜘蛛一起去爬行和抓取.


    蜘蛛访问任何一个网站时,都会先去访问网站根目录下的文件.如果文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址.


    和浏览器一样,搜索引擎蜘蛛也有表明自己身份的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辨识搜索引擎蜘蛛.


    二、 跟踪链接


    为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行一样.


    整个互联网是有相互链接的网站及页面组成的.当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上所有页面.


    简单的爬行的策略有:深度优先和广度优先.


    1、 深度链接


    深度优先指当蜘蛛发现一个链接时,它就会顺着这个链接指出的路一直向前爬行,直到前面再也没其他链接,这时就会返回个页面,然后会继续链接再一直往前爬行.


    2、 广度链接


    从seo角度讲链接广度优先的意思是讲的蜘蛛在一个页面发现多个链接的时候,不是跟着一个链接一直向前,而是把页面上所有层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面.


    从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网.在实际工作中,没有什么东西是无限的,蜘蛛的带宽资源和蜘蛛的时间也是一样都是有限的,也不可能爬完所有页面.实际上的搜索引擎也只是爬行和收录了互联网的一小部分.


    3.吸引蜘蛛


    蜘蛛式不可能抓取所有的页面的,它只会抓取重要的页面,那么哪些页面被认为比较重要呢?有以下几点:


    (1) 网站和页面权重


    (2) 页面更新度


    (3) 导入链接


    (4) 与首页点击距离


    4.地址库


    搜索引擎会建立一个地址库,这么做可以很好的避免出现过多抓取或者反复抓取的现象,记录已经被发现还没有抓取的页面,以及已经被抓取的页面.


    地址库中的URL有以下几个来源:


    (1) 人工录入的种子网站.


    (2) 蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库.


    (3) 搜索引擎自带的一种表格提供站长,方便站长提交网址.


    真正的SEO是通过采用易于搜索引擎索引的合理手段,使网站对用户和搜索引擎更友好(Search Engine Friendly),从而更容易被搜索引擎收录及优先排序.搜索引擎优化是一种搜索引擎营销指导思想,而不仅仅是对google的排名.搜索引擎优化工作贯穿网站策划、建设、维护全过程的每个细节,值得网站设计、开发和推广的每个参与人员了解其职责对于SEO效果的意义.


    如果您从事搜索引擎优化工作或者对此有所关注,对google于2005年3月26日对垃圾SEO的大规模清洗行动一定不会没有感受吧?本书希望告诉您一个基本事实:成为google排名高手不需要歪门邪道一样可以做到,而且效果更持久!如果您用规范的方法提供搜索引擎优化服务,无论您个人还是您的客户,才会感觉更踏实.


    部分:域名和主机对SEO的影响


    域名与主机是网站的基础,商业网站选择域名与主机尤其应注重形象和质量,为网络营销开展打好坚实基础.同时,选择好域名与主机也是搜索引擎优化开始的步.


    域名选择与SEO


    域名与IP:


    每一个网站的域名对应一个IP地址,IP 地址是在网络上分配给每台计算机或网络设备的数字标识.域名必须经过域名服务器(DNS)进行解析,转换成数字IP,才能让计算机理解辨认,如:


    大部分中小企业网站都存放在由一台服务器划分出来的若干虚拟主机上,由多个网站共享一台服务器和IP地址,一些WEB服务器中有成百上千个域名共享一个IP地址的情况.这样对站长来说成本较低,但对网站的搜索引擎排名带来以下潜在风险:


    1、共享主机的其他网站如果被搜索引擎惩罚,将或多或少波及你的网站.对此,AltaVista有如下忠告:"如果同一IP下有一个网站作弊,那么我们的搜索引擎会对该IP下的所有网站进行惩罚";不过幸运的是,大部分搜索引擎不会如此武断,如Google,一般是不会进行这种连带性惩罚的.


    2、如果搜索引擎对有些Spammer服务器进行了惩罚,其IP被认为是Spam,则连带该IP下 的所有网站都会受到牵连,使这些网站的排名下降或在搜索引擎中被清除.


    工具推荐: 查域名IP: IP反查: (查看某IP地址下共享哪些域名.免费注册)


    二级域名(次域名):


    二级域名形式如:,而不是.拥有自己的独立域名是网站对搜索引擎友好的基础.目前有很多网站提供免费空间,如博客(Blog)免费空间, 企 业免费空间, 免费自助建站,电子商务平台等,通常为用户分配一个二级域名,或页面存放 于网站的某一路径下.这都极不利于搜索引擎重视你的网站,二级域名除了用户访问不方便 以外,还主要有以下弊端:


    1.如果你所使用二级域名的主域名受到惩罚,那么你的网站也会受到牵连;


    2.很多搜索引擎会规定每个域名下的收录数(如:、 与),如果这一域名的收录数上限是30,而你的网站是 第31个,则你的网站被搜索引擎收录的机会就会少至又少了;


    3.当域名供应商停止营业,那么你辛苦经营的网站也随着你域名的失去而付诸东流;


    4.网站流量排名的时候,你所有的流量都会归功于所依托的域名.


    为自己的二级域名网站注册一个独立域名,然后做域名转发(免费),目前很多拍卖网 的店铺都适合采用此种方法,对顾客访问和网站管理很有用.


    域名中的字符:


    取域名的原则除了方便用户访问之外,对搜索引擎而言,涉及到域名中是否包含关键词的问 题.英文网页内容的网站如果在域名中含有关键字,或以复合关键字作域名,都应该用短横 线隔开.如: 而不是 .这是因为搜索引擎通 常会把分隔符"-"当作一个空格来看待,因而能够识别出你的关键词,为网站排名加分(尽 管影响不是很大).短横线隔开后的关键词组还可以获得更多的词组搜索结果,如 被认为只有一个词madeinchina,而made-in-china则被看作正常的 made in China词组.


    有些搜索引擎目录对网站在分类目录中的排名顺序是根据域名或网站title名称的数字顺 序或字母顺序甚至中文笔画,总体上数字又比字母靠前.Yahoo!中国称,"在同一类目中, 网站是按照拼音顺序来排列的".Google则根据其独创的"网页级别"技术"分辨出常用的 重要网站,排放在目录的前面以提升网页搜索的效率"(Google语).