Boost Searcher介绍

综述

该项目使用了BS架构,实现了用户对Boost库进行站内搜索的功能

示例

去标签化,清理数据

将爬虫和下载的boost库的文件,进行提炼,去标签化,保留里面的有效数据

  • 提取html文件
  • 将提取到的html文件进行提炼有效数据
  • 将有效数据的集合写入到一个文件中

构建索引

  • 根据将去标签化后构建的内容集合 构建正排索引,形成对应的文档结构体
  • 将形成的文档结构体进行 构建倒排索引,根据关键词找到对应的 倒排拉链(一系列和该关键字相光的文档集合)
    • 根据 Jieba分词对 titlecontent进行分词同时划定权重,构建倒排拉链

Boost查询

  • 用户输入搜索关键字后,先进行 JieBa分词
  • 通过 倒排索引获得对应的 倒排拉链
  • 倒排拉链中通过 正排索引获得对应一系列的文档内容

Boost Searcher介绍
http://example.com/2023/02/20/Boost-Searcher介绍/
作者
Zevin
发布于
2023年2月20日
许可协议