引擎蜘蛛工作原理

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

关于搜索引擎蜘蛛程序的一些原理及体系结构纯技术文章一些

地方可能不会看的很明白对于SEO 行业经常和搜索引擎及其爬虫

程序打交道仔细浏览下一些不清楚而自己又很想了解的地方可

以借助搜索来需找相关解释对工作还是有帮助的个人认为值得注

意的地方已加红显示。

搜索引擎蜘蛛工作原理

1、聚焦爬虫工作原理及关键技术概述

搜索引擎蜘蛛是一个自动提取网页的程序 它为搜索引擎从Inter

网上下载网页是搜索引擎的重要组成。传统爬虫从一个或若干初始

网页的URL 开始获得初始网页上的URL在抓取网页的过程中不

断从当前页面上抽取新的URL 放入队列直到满足系统的一定停止条

件。聚焦爬虫的工作流程较为复杂需要根据一定的网页分析算法过

滤与主题无关的链接保 留 有用 的链接并 将 其放入等 待 抓取的URL 队

列。然 后 它将 根据一定的搜索策 略 从队列中选 择 下一步 要抓取的网

页 URL并 重复上述过程直到达 到系统的某 一条件时 停止另 外

所 有被 爬虫抓取的网页将 会被 系统存 贮 进 行一定的分析、过滤并

建 立 索引以便 之 后 的查 询 和检 索 对于聚焦爬虫来说 这 一过程所

得到的分析结果 还可能对以后 的抓取过程给 出 反 馈 和指 导 。

相对于通 用 搜索引擎蜘蛛聚焦爬虫还需要解决 三 个主要问 题

1.对抓取目 标 的描 述或定义

2.对网页或数 据的分析与过滤

3.对URL 的搜索策略。

抓取目标的描述和定义是决定网页分析算法与URL 搜索策略如何

制订的基础。而网页分析算法和候选URL 排序算法是决定搜索引擎所

提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法

又是紧密相关的。

2、抓取目标描述

现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于

目标数据模式和基于领域概念 3 种。

基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站

或网页。根据种子样本获取方式可分为

1.预先给定的初始抓取种子样本

2.预先给定的网页分类目录和与分类目录对应的种子样本如

Yahoo!分类结构等

3.通过用户行为确定的抓取目标样例分为用户浏览过程中显

示标注的抓取样本通过用户日志挖掘得到访问模式及相关样本。

其中网页特征可以是网页的内容特征也可以是网页的链接结

构特征等等。

基于目标数据模式的爬虫针对的是网页上的数据所抓取的数据

一般要符合一定的模式或者可以转化或映射为目标数据模式。

另一种描述方式是建立目标领域的本体或词典用于从语义角度

分析不同特征在某一主题中的重要程度。

3、网页搜索策略

网 页 的 抓 取 策 略 可 以 分 为 深 度 优 先 、 广 度 优 先 和 最 佳 优 先 三 种 。

深 度 优 先 在 很 多 情 况 下 会 导 致 爬 虫 的 陷 入 (trapped)问 题 目 前 常 见

的 是 广 度 优 先 和 最 佳 优 先 方 法 。

3.1、 广 度 优 先 搜 索 策 略

广 度 优 先 搜 索 策 略 是 指 在 抓 取 过 程 中 在 完 成 当 前 层 次 的 搜 索 后

才 进 行 下 一 层 次 的 搜 索 。 该 算 法 的 设 计 和 实 现 相 对 简 单 。 在 目 前 为 覆

盖 尽 可 能 多 的 网 页 一 般 使 用 广 度 优 先 搜 索 方 法 。 也 有 很 多 研 究 将 广

度 优 先 搜 索 策 略 应 用 于 聚 焦 爬 虫 中 。其 基 本 思 想 是 认 为 与 初 始 URL 在

一 定 链 接 距 离 内 的 网 页 具 有 主 题 相 关 性 的 概 率 很 大 。另 外 一 种 方 法 是

将 广 度 优 先 搜 索 与 网 页 过 滤 技 术 结 合 使 用 先 用 广 度 优 先 策 略 抓 取 网

页 再 将 其 中 无 关 的 网 页 过 滤 掉 。 这 些 方 法 的 缺 点 在 于 随 着 抓 取 网

页 的 增 多 大 量 的 无 关 网 页 将 被下 载并过 滤 算 法 的 效率 将 变低。

3.2 最 佳 优 先 搜 索 策 略

最 佳 优 先 搜 索 策 略 按照一 定 的 网 页 分 析算 法 预测候选URL 与 目

标网 页 的 相 似度 或与 主 题 的 相 关 性 并选取 评价最 好的 一 个或几个

URL 进 行 抓 取 。 它只访问 经过 网 页 分 析算 法 预测为 “有 用 ”的 网 页 。

存在 的 一 个问 题 是 在 爬 虫 抓 取 路径上的 很 多 相 关 网 页 可 能 被忽略

因 为 最 佳 优 先 策 略 是 一 种 局 部 最 优 搜 索 算 法 。因 此 需 要 将 最 佳 优 先 结

合 具 体 的 应 用 进 行 改 进 以 跳 出 局 部 最 优 点 。 将 在 第 4 节 中 结 合 网 页

分 析算 法 作 具 体 的 讨 论 。 研 究 表 明 这 样 的 闭 环 调 整 可 以 将 无 关 网 页

数 量 降 低30%~90%。

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6