开源 Text-to-SQL 工具哪家强?

解放你的数据:开源 Text-to-SQL 工具 Vanna 让 SQL 变得简单

ChatGPT 引爆大模型浪潮以来,在Text-to-SQL 这个细分领域涌现出一批优秀的开源项目,为广大开发者和数据爱好者带来了福音。让我们一起回顾一下:

  • • YC孵化的Text-to-SQL未来之星:Defog开源 SQLCoder模型,打造企业级数据分析利器
  • • DB-GPT:蚂蚁开源的Text-to-SQL利器• WrenAI:开源Text-to-SQL引擎让 SQL触手可及,数据分析的“GPT”时刻来了?
  • • Dataherald 核心 Text-to-SQL 引擎全面开源!

今天,我们要介绍的 Vanna 同样是一款优秀的开源 Text-to-SQL 工具,它致力于打造更加智能、易用、高效的 AI SQL 体验,即使不懂 SQL 的“小白”也能轻松上手,玩转数据分析!

Vanna:你的 AI SQL 智能助手

Vanna 是一个基于 MIT 许可的开源 Python RAG(检索增强生成)框架,它将自然语言问题转化为可执行的 SQL 查询,即使不懂 SQL 的“小白”也能轻松上手,玩转数据分析!

Vanna 如何工作?

Vanna 的工作原理就像一位经验丰富的“数据翻译官”,它经过专业的训练,能够理解你的“语言”和数据库的“方言”。

  1. 1. 训练: 就像一位翻译需要学习语言一样,Vanna 也需要先学习数据库的“语言”。用户可以使用 DDL 语句、文档或现有 SQL 查询对 Vanna 进行训练,让它掌握数据库的结构、业务术语和查询模式。Vanna 会将训练数据转化为向量嵌入,存储在向量数据库中,并建立元数据索引,以便于后续检索。
  2. 2. 提问: 当你用自然语言提出问题时,Vanna 会像一位经验丰富的翻译官一样,先理解你的意思,然后将其翻译成数据库能够理解的 SQL 查询语言。
  3. 3. 生成 SQL: Vanna 利用强大的 LLM(例如 GPT-4),结合上下文信息,将自然语言问题转化为精准的 SQL 查询语句。
  4. 4. 执行 & 展示: 数据库收到 Vanna 翻译的 SQL 查询后,就会执行查询,并将结果返回给 Vanna。Vanna 会将查询结果整理成易于理解的格式,例如表格或图表,呈现给你。

Vanna 的技术架构:

Vanna 采用模块化设计,主要包含以下核心组件:

  • • 存储: Vanna 支持多种向量数据库作为存储后端,例如默认的 ChromaDB、Pinecone、Postgres with pgvector extension 等,用于存储训练数据和元数据索引,实现高效语义搜索。
  • • LLM: Vanna 支持集成多种 LLM,例如 GPT-4、GPT 3.5、Google Bison 等,用户可以根据需求选择最合适的模型,进行 SQL 生成和相关任务。
  • • 数据库: Vanna 支持连接任何 SQL 数据库,例如 Snowflake、BigQuery、Postgres、Redshift、SQL Server 等,用户的数据始终安全存储在本地环境中。
  • • 用户界面: Vanna 提供多种用户界面,包括 Jupyter Notebook、Streamlit 应用程序、Flask 应用程序和 Slackbot,用户可以根据需求选择最合适的交互方式。

Vanna 的优势:

  • • 高准确率: Vanna 的上下文感知 SQL 生成方法,能够显著提高 SQL 生成的准确率,尤其是在处理复杂数据库和非技术用户问题时。
    • • 一项针对不同 LLM 和上下文策略的测试表明,使用 Vanna 的上下文相关示例策略,可以将 SQL 生成准确率从 ~3% 提升至 ~80%!
  • • 高安全性: Vanna 不会将数据库内容发送到外部 LLM 或向量数据库,所有数据处理都在本地环境中进行,确保数据安全。
  • • 高效率: Vanna 的语义搜索和 LLM 加速技术,能够快速生成和执行 SQL 查询,提高数据分析效率。
  • • 可扩展性: Vanna 的模块化设计,允许用户根据自己的需求进行定制化配置,例如选择不同的 LLM 或向量数据库。
  • • 易用性: Vanna 提供友好的用户界面和丰富的文档,即使不懂 SQL 的用户也能轻松上手。
  • • 开源免费: Vanna 是一个开源项目, 你可以在 GitHub 上找到它,并根据自己的需求进行修改和定制。

上下文的力量:AI SQL 准确性的关键

AI SQL 的关键挑战在于如何生成准确的 SQL 查询。仅仅依靠 LLM 本身的能力是不够的,因为 LLM 并不知道用户数据库的具体结构和内容。

为了解决这个问题,Vanna 采用了一种新颖的上下文感知 SQL 生成方法,利用向量数据库和语义搜索技术,根据用户提出的问题,动态地从数据库模式、文档和先前执行的 SQL 查询中检索最相关的上下文信息,并将其提供给 LLM,帮助 LLM 更好地理解用户意图。

三种上下文策略:

  1. 1. 仅使用数据库模式: 就像只给翻译提供了一本字典,却没有告诉他文章的背景和内容,翻译结果可想而知。
  2. 2. 使用静态示例: 就像给翻译提供了一些例句,但例句可能与实际要翻译的句子相差甚远,翻译结果仍然不尽如人意。
  3. 3. 使用上下文相关的示例: 就像给翻译提供了与要翻译的句子相关的文章和背景信息,翻译结果自然更加准确。

Vanna 采用了第三种上下文策略,即使用上下文相关的示例,这也是它取得高准确率的关键所在。

Vanna:总有一款适合你

为了满足不同用户的需求,Vanna 提供了灵活的部署选项:

  1. 1. 本地部署: 如果你对数据安全要求极高,或者需要进行深度定制,可以选择将 Vanna 部署在本地服务器上。
  2. 2. 托管版本: 如果你希望快速上手,并且不需要进行太多配置,可以选择使用 Vanna 的托管版本。

开启 AI SQL 新时代!

还在等什么?快来体验 Vanna,解放你的数据分析潜能吧!

原创文章,作者:guozi,如若转载,请注明出处:https://www.sudun.com/ask/88771.html

(0)
guozi's avatarguozi
上一篇 2024年6月4日 上午9:38
下一篇 2024年6月4日 上午9:44

相关推荐

  • dns污染的解决方法,dns污染修复

    互联网行业一直是一个充满活力和创新的领域,但随着技术的不断发展,一些问题也随之出现。最近,关于DNS污染的讨论很多。 DNS污染到底是什么?它对我们有何影响和危害?我怎样才能清除它…

    行业资讯 2024年5月6日
    0
  • 如何拨号vps

    想要在网络行业中拥有更快、更稳定的连接?那么VPS就是你不可错过的选择!但是,什么是VPS?它又是如何拨号的呢?选择适合的VPS供应商又有哪些注意事项?在使用VPS时,会遇到哪些常…

    行业资讯 2024年4月14日
    0
  • 为什么不推荐使用windows优化大师和鲁大师?

    你是否曾经听说过Windows优化大师和鲁大师?它们被称为电脑维护的神器,可以帮助我们提升电脑性能,解决系统问题。然而,随着互联网服务器行业的发展,越来越多的人开始质疑它们的真实作…

    行业资讯 2024年4月4日
    0
  • 如何找到可靠的PHP免费空间提供商?

    在当今网络行业中,PHP免费空间的需求越来越大,因为它能够为用户提供免费的网站建设平台。但是,如何找到可靠的PHP免费空间提供商却是一个值得思考的问题。什么是PHP免费空间?它又有…

    行业资讯 2024年4月20日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注