登录

大数据平台分词

1高性能

后端是采用 C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。

2简单易用

前端是使用脚本语言编写的开发工具。API简单清晰,提供全中文的示例代码、文档、辅助脚本工具等。

3全功能

除支持基础的自定义分词、字段检索、布尔搜索外,还直接支持用户急需的相关搜索、拼音搜索、搜索建议等专业功能。

数据平台技术架构图