开源 Text-to-SQL 工具哪家强？

解放你的数据：开源 Text-to-SQL 工具 Vanna 让 SQL 变得简单

ChatGPT 引爆大模型浪潮以来，在Text-to-SQL 这个细分领域涌现出一批优秀的开源项目，为广大开发者和数据爱好者带来了福音。让我们一起回顾一下：

今天，我们要介绍的 Vanna 同样是一款优秀的开源 Text-to-SQL 工具，它致力于打造更加智能、易用、高效的 AI SQL 体验，即使不懂 SQL 的“小白”也能轻松上手，玩转数据分析！

Vanna 是一个基于 MIT 许可的开源 Python RAG（检索增强生成）框架，它将自然语言问题转化为可执行的 SQL 查询，即使不懂 SQL 的“小白”也能轻松上手，玩转数据分析！

Vanna 的工作原理就像一位经验丰富的“数据翻译官”，它经过专业的训练，能够理解你的“语言”和数据库的“方言”。

1. 训练： 就像一位翻译需要学习语言一样，Vanna 也需要先学习数据库的“语言”。用户可以使用 DDL 语句、文档或现有 SQL 查询对 Vanna 进行训练，让它掌握数据库的结构、业务术语和查询模式。Vanna 会将训练数据转化为向量嵌入，存储在向量数据库中，并建立元数据索引，以便于后续检索。
2. 提问： 当你用自然语言提出问题时，Vanna 会像一位经验丰富的翻译官一样，先理解你的意思，然后将其翻译成数据库能够理解的 SQL 查询语言。
3. 生成 SQL： Vanna 利用强大的 LLM（例如 GPT-4），结合上下文信息，将自然语言问题转化为精准的 SQL 查询语句。
4. 执行 & 展示： 数据库收到 Vanna 翻译的 SQL 查询后，就会执行查询，并将结果返回给 Vanna。Vanna 会将查询结果整理成易于理解的格式，例如表格或图表，呈现给你。

Vanna 采用模块化设计，主要包含以下核心组件：

• 存储： Vanna 支持多种向量数据库作为存储后端，例如默认的 ChromaDB、Pinecone、Postgres with pgvector extension 等，用于存储训练数据和元数据索引，实现高效语义搜索。
• LLM： Vanna 支持集成多种 LLM，例如 GPT-4、GPT 3.5、Google Bison 等，用户可以根据需求选择最合适的模型，进行 SQL 生成和相关任务。
• 数据库： Vanna 支持连接任何 SQL 数据库，例如 Snowflake、BigQuery、Postgres、Redshift、SQL Server 等，用户的数据始终安全存储在本地环境中。
• 用户界面： Vanna 提供多种用户界面，包括 Jupyter Notebook、Streamlit 应用程序、Flask 应用程序和 Slackbot，用户可以根据需求选择最合适的交互方式。

• 高准确率： Vanna 的上下文感知 SQL 生成方法，能够显著提高 SQL 生成的准确率，尤其是在处理复杂数据库和非技术用户问题时。
- • 一项针对不同 LLM 和上下文策略的测试表明，使用 Vanna 的上下文相关示例策略，可以将 SQL 生成准确率从 ~3% 提升至 ~80%！
• 高安全性： Vanna 不会将数据库内容发送到外部 LLM 或向量数据库，所有数据处理都在本地环境中进行，确保数据安全。
• 高效率： Vanna 的语义搜索和 LLM 加速技术，能够快速生成和执行 SQL 查询，提高数据分析效率。
• 可扩展性： Vanna 的模块化设计，允许用户根据自己的需求进行定制化配置，例如选择不同的 LLM 或向量数据库。
• 易用性： Vanna 提供友好的用户界面和丰富的文档，即使不懂 SQL 的用户也能轻松上手。
• 开源免费： Vanna 是一个开源项目，你可以在 GitHub 上找到它，并根据自己的需求进行修改和定制。

AI SQL 的关键挑战在于如何生成准确的 SQL 查询。仅仅依靠 LLM 本身的能力是不够的，因为 LLM 并不知道用户数据库的具体结构和内容。

为了解决这个问题，Vanna 采用了一种新颖的上下文感知 SQL 生成方法，利用向量数据库和语义搜索技术，根据用户提出的问题，动态地从数据库模式、文档和先前执行的 SQL 查询中检索最相关的上下文信息，并将其提供给 LLM，帮助 LLM 更好地理解用户意图。

Vanna 采用了第三种上下文策略，即使用上下文相关的示例，这也是它取得高准确率的关键所在。

为了满足不同用户的需求，Vanna 提供了灵活的部署选项：

还在等什么？快来体验 Vanna，解放你的数据分析潜能吧！

原创文章，作者：guozi，如若转载，请注明出处：https://www.sudun.com/ask/88771.html