第四课:搜索引擎原理基础之预处理。 网页预处理的大致过程: 关键词的提取(去除噪音) 切词、去除停止词 镜像网页的消除(完全相同) 转摘(额外小量编辑,称为近似镜像网页) 链接的分析(记录链接位置,相关性、锚文本) 网页 […]
第四课:搜索引擎原理基础之预处理。
网页预处理的大致过程:
关键词的提取(去除噪音)
切词、去除停止词
镜像网页的消除(完全相同)
转摘(额外小量编辑,称为近似镜像网页)
链接的分析(记录链接位置,相关性、锚文本)
网页重要度计算(被应用的多就是重要的)
建立索引
正排所以,倒排索引
当前位置:口工本子库全彩绅士教程 »
口工本子库全彩绅士视频教程 »
本文地址:https://www.xminseo.com/2990.html