Apache Kvrocks 实现 SQL 和 RediSearch 之路

  • llvm/clangir[17]
  • llvm/llvm-project[18]

目前,优化器的过程分为三组:

  • 表达式分析:主要优化逻辑表达式,如 AND、OR、NOT 运算符等;
  • 数值分析:通过区间分析优化数值比较,例如消除不必要的比较,或改进比较表达式来实现查询优化;
  • 查询计划生成:把 Syntatical IR 转换成 Planning IR 并通过选择最佳索引以及消除不必要排序来增强查询计划。

Kvrocks 的阶段管理器会控制上述阶段的运行顺序。每个阶段可能运行多次,但最终会收敛并交给执行器执行。

查询计划执行

KQIR 计划执行器是一个 Volcano 模型[19]的实现。

一旦 IR 优化器完成所有优化,计划执行器就可以拿到最终的 Planning IR 结果。然后,计划执行器会将 IR 转化为具体的执行算子,串接成为一个从源端拉取数据,经过层层转换后输出结果的流水线。

随后,Kvrocks 从最终结果的迭代器中轮询拉取数据,取得查询结果。

磁盘上的索引

不同于 Redis 在内存中存储索引数据,Kvrocks 需要在磁盘上构建索引。这意味着,对于任何字段类型,我们都需要设计编码来将索引转换为 RocksDB 上的键值对。

此外,我们需要在执行 JSON 或 HASH 命令前后分别递增地创建索引,以确保查询结果是实时的。

现状与限制

KQIR 功能目前已经合并到 unstable 分支上,支持 FT.CREATEFT.SEARCH 和 FT.SEARCHSQL 等命令。我们鼓励用户进行测试和发布反馈。

然而,KQIR 仍处于早期开发阶段,我们无法保证兼容性,并且,许多功能仍然不完整。因此,即将发布的版本 2.9.0 将不包括 KQIR 组件。我们将在 2.10.0 版本开始发布 KQIR 功能。

字段类型支持

目前,我们只支持两种字段类型:标记(tag)和数字(numeric)。

标记字段用多个 tag 标记了每个数据记录,以便在查询中进行筛选。

数字字段保存双精度浮点范围内的数字数据,允许按特定的数值范围进行排序和过滤。

未来,我们计划扩大支持范围,将向量搜索和全文检索功能与其他字段类型一起实现。

事务保证

目前,KQIR 的事务保证非常弱,这可能会导致使用过程中出现意外问题。

Kvrocks 社群有另一个项目[20],计划通过建立结构化框架来增强 Kvrocks 的事务保证,从而在 KQIR 实现的 ACID 支持。

『译注』

上述项目也是今年开源之夏(OSPP)的一个项目。

IR 优化器的限制

目前,KQIR 在优化排序时没有使用成本模型,而是依赖一段专门的逻辑。这点会在未来的版本里以高优先级做改进。

此外,KQIR 目前没有使用基于运行时统计数据的优化。我们未来的重点将是将运行时统计信息集成到成本模型中,以实现更精确的索引选择。

与其他功能的关系

KQIR 与命名空间功能[21]集成良好。

FT.CRAETE 创建的任何索引都限制在当前命名空间中,不能在其他命名空间中访问,这与命名空间中访问其他数据的方式一致。

目前,KQIR 无法在集群模式[22]下启用。集群模式支持目前还没有计划,但是这是我们想要实现的功能。欢迎在 Kvrocks 社群当中分享你的需求场景或设计思路。

合规问题

虽然 KQIR 实现了 RediSearch 的接口,但它不包括任何来自 RediSearch 的代码。如前所述,KQIR 采用了一个全新的框架,其查询架构(包括解析、优化、执行)均独立于 RediSearch 的实现。

这点非常重要,因为 RediSearch 并不是开源软件,而是专有许可下的扩展。Kvrocks 的实现保证用户在开源协议下使用相关功能,而无需担心额外的合规风险。这也是 Apache 软件基金会品牌的一个重要保证。

这是一次冒险!

KQIR 目前仍处于早期实验阶段。我们建议用户在生产环境中使用 KQIR 功能时要慎重考虑,因为我们不保证兼容性。但是我们非常欢迎用户试用和提供反馈,这将有助于我们尽快稳定相关功能并正式发布。

未来计划

目前,twice 和 Kvrocks 的其他成员正在快速开发 KQIR 框架。所有上文提到的内容都将继续发展。如果你对这些主题感兴趣,欢迎在 GitHub 上随时了解最新进展。我们欢迎任何期望参与这些工作的开发者加入 Apache Kvrocks 社群并共同创造出有价值的软件。

作为 Apache 软件基金会旗下的开源社群,Kvrocks 社群完全由志愿者组成。我们致力于提供一个开放、包容和供应商中立的环境。

向量搜索

支持向量搜索的设计和实现目前正在进行中。相关进展非常乐观。

Kvrocks 社群的一些成员正在讨论,并提出了在 KQIR 上实现向量搜索的编码设计。

根据计划,我们将首先在磁盘上实现 HNSW 索引,然后引入向量字段类型。

  • Vector Search HNSW Indexing Encoding[23]

全文检索

目前,Kvrocks 社群还没有全文搜索的设计方案。

不过,我们正在探索通过 CLucene[24] 或 PISA[25] 将全文索引纳入 KQIR 的可能性。

欢迎任何有兴趣参与的开发者分享想法或建议!

SQL 功能

未来,我们计划逐步支持更多 SQL 功能,可能包括子查询、JOIN操作、聚合函数和其他功能。

Kvrocks 的 SQL 能力主要关注的仍然是事务处理,而不是分析任务。

完整示例

首先,我们需要启动一个 Kvrocks 的实例。可以运行下述命令,启动一个 Kvrocks 的 Docker 容器:

docker run -it -p 6666:6666 apache/kvrocks:nightly --log-dir stdout

当然,你也可以选择克隆 unstable 分支的最新版本代码[26],并从源码构建出 Kvrocks 二进制并运行。

成功启动 Kvrocks 实例之后,我们用 redis-cli 工具连接上实例。运行一下命令:

FT.CREATE testidx ON JSON PREFIX 1 'test:' SCHEMA a TAG b NUMERIC

这个命令创建了一个名为 testidx 的索引,包括一个名为 a 的 tag 字段和名为 b numeric 字段。

然后,我们可以使用 Redis JSON 命令写入一系列的数据:

JSON.SET test:k1 $ '{"a": "x,y", "b": 11}'JSON.SET test:k2 $ '{"a": "y,z", "b": 22}'JSON.SET test:k3 $ '{"a": "x,z", "b": 33}'

写入数据也可以在 FT.CREATE 创建索引之前,执行顺序并不会影响最终效果。

最后,我们就可以用 SQL 语句来基于刚才创建的索引,在这些数据上运行查询了:

FT.SEARCHSQL 'select * from testidx where a hastag "z" and b < 30'

除了使用 SQL 查询,RediSearch 语法的查询也是支持的:

FT.SEARCH testidx '@a:{z} @b:[-inf (30]'

欢迎下载试用、探索和发表反馈。

参考资料

[1]Apache Kvrocks: https://kvrocks.apache.org/

[2]完整示例: #完整示例

[3]Apache Kvrocks 官方博客: https://kvrocks.apache.org/blog/kqir-query-engine/

[4]绝大部分 Redis 命令: https://kvrocks.apache.org/docs/supported-commands/

[5]RESP 通信协议: https://redis.io/docs/latest/develop/reference/protocol-spec/

[6]Functions: https://redis.io/docs/latest/develop/interact/programmability/functions-intro/

[7]Bloom Filter: https://redis.io/docs/latest/develop/data-types/probabilistic/bloom-filter/

[8]JSON: https://redis.io/docs/latest/develop/data-types/json/

[9]RediSearch: https://github.com/RediSearch/RediSearch

[10]对应的 Redis 命令: https://redis.io/docs/latest/operate/oss_and_stack/stack-with-enterprise/search/commands/

[11]支持各种字段类型: https://redis.io/docs/latest/develop/interact/search-and-query/basic-constructs/field-and-type-options/

[12]独特的查询语法: https://redis.io/docs/latest/develop/interact/search-and-query/advanced-concepts/query_syntax/

[13]LangChain: https://www.langchain.com/

[14]不同的方言版本: https://redis.io/docs/latest/develop/interact/search-and-query/advanced-concepts/query_syntax/#basic-syntax

[15]KQIR 框架: https://github.com/apache/kvrocks/tree/unstable/src/search

[16]LLVM 的概念和设计: https://llvm.org/docs/Passes.html

[17]llvm/clangir: https://github.com/llvm/clangir/commits?author=PragmaTwice

[18]llvm/llvm-project: https://github.com/llvm/llvm-project/commits?author=PragmaTwice

[19]Volcano 模型: https://cs-people.bu.edu/mathan/reading-groups/papers-classics/volcano.pdf

[20]另一个项目: https://github.com/apache/kvrocks/issues/2331

[21]命名空间功能: https://kvrocks.apache.org/docs/namespace/

[22]集群模式: https://kvrocks.apache.org/docs/cluster

[23]Vector Search HNSW Indexing Encoding: https://github.com/apache/kvrocks/discussions/2316

[24]CLucene: https://clucene.sourceforge.net/

[25]PISA: https://github.com/pisa-engine/pisa

[26]最新版本代码: https://github.com/apache/kvrocks/?tab=readme-ov-file#build-and-run-kvrocks

原创文章,作者:guozi,如若转载,请注明出处:https://www.sudun.com/ask/88696.html

Like (0)
guozi的头像guozi
Previous 2024年6月4日
Next 2024年6月4日

相关推荐

  • 被美国重点打击的大学,哪些大学被美国制裁

    近期,美国攻击大学网站的消息受到广泛关注。这不仅让人们更加担心网络安全问题,也开始思考为什么美国会攻击大学网站。这背后到底隐藏着怎样的故事呢?在本文中,我们将探讨什么是网络攻击、为…

    行业资讯 2024年5月16日
    0
  • 站群软件哪个好用

    随着互联网的快速发展,网站建设已成为企业和个人必不可少的一部分。而在网站建设中,站群软件起着至关重要的作用。但是市面上有众多的站群软件,如何选择最适合自己的?让我们一起来看看什么是…

    行业资讯 2024年3月22日
    0
  • 数据写入FTP服务器csv文件

    一 前言 CPI是SAP公司提供的云服务,功能类似于PI/PO,用于集成多个系统之间的调用 本文主要介绍一个通用接口设计 该接口用于实现ECC/S4把数据发到指定FTP服务器的目录…

    2024年6月4日
    0
  • 域名被墙查询工具,如何检测域名被墙

    您现在了解了114 记录的作用以及如何查询114 记录中被阻止的域名。在日常网络使用过程中,域名被屏蔽的情况并不罕见,但使用114 记录可以帮助您更顺利地浏览互联网。作为速盾网编辑…

    行业资讯 2024年5月6日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注