Boost Searcher介绍
综述
该项目使用了BS架构,实现了用户对Boost库进行站内搜索的功能
示例
去标签化,清理数据
将爬虫和下载的boost库的文件,进行提炼,去标签化,保留里面的有效数据
- 提取html文件
- 将提取到的html文件进行提炼有效数据
- 将有效数据的集合写入到一个文件中
构建索引
- 根据将去标签化后构建的内容集合
构建正排索引
,形成对应的文档结构体 - 将形成的文档结构体进行
构建倒排索引
,根据关键词找到对应的倒排拉链
(一系列和该关键字相光的文档集合)- 根据
Jieba
分词对title
和content
进行分词同时划定权重,构建倒排拉链
- 根据
Boost查询
- 用户输入搜索关键字后,先进行
JieBa分词
- 通过
倒排索引
获得对应的倒排拉链
- 在
倒排拉链
中通过正排索引
获得对应一系列的文档内容
Boost Searcher介绍
http://example.com/2023/02/20/Boost-Searcher介绍/