腾讯云论文入选数据库顶会VLDB 2025,REDSQL技术攻克NL2SQL难点

互联网
2025
09/09
15:09
分享
评论

9月9日消息,第51届数据库顶会VLDB 2025在英国伦敦落幕,腾讯云大数据团队两项研究成果被大会成功接收。其中,在自然语言转SQL(NL2SQL)领域,腾讯云与复旦大学合作提出的SQL修正框架“REDSQL”技术,可有效解决大语言模型在NL2SQL任务中易出错的问题,显著提升查询准确性和实用性,为“聊天式数据分析”的落地提供技术支撑。

(腾讯云大数据团队技术专家在VLDB2025上做主题分享)

自然语言转SQL(NL2SQL)技术让用户用日常语言直接生成数据库查询语句,如“显示销售额最高的产品”。虽然降低了数据分析门槛,但大语言模型在实际应用中容易忽略深层业务规则、生成不符合规范的SQL,或在复杂数据库和大数据量下出现上下文理解不足,影响查询准确性和效率。

针对这些问题,腾讯云大数据团队与复旦大学DASLAB实验室团队在论文《The Power of Constraints in Natural Language to SQL Translation》中提出REDSQL。该技术通过约束验证机制智能修正SQL查询,并生成精炼的数据摘要文档,帮助AI快速理解数据库结构、字段类型和数据关系,从而降低生成错误SQL的概率。

REDSQL的工作流程包括两个阶段:离线文档化和在线处理。离线阶段为数据库创建精炼的语义描述和约束信息,包括字段类型、主外键关系、数据取值范围及业务规则摘要,使AI在生成SQL时可直接利用这些结构化信息。

在线阶段针对每条用户查询,系统先生成初始SQL并捕获潜在错误,再通过约束验证机制检查数据类型匹配、连接条件和聚合逻辑,自动修正不符合规范的查询,同时扩展相关上下文信息供AI优化SQL。

在权威基准测试BIRD上,REDSQL使主流NL2SQL方法的准确率平均提升18%以上,有的原本精度较高的方法结合REDSQL后准确率提升至66.2%,刷新历史记录。实验显示,REDSQL可即插即用集成到现有AI系统,无需重新训练模型,适用于企业数据门户或BI工具,并保证查询安全和合规性。

除此之外,腾讯大数据团队还面向参数调优领域,提出“SCompression”技术,通过时间切片与聚类采样压缩数据库负载,使调优速度提升40倍以上,性能偏差低于5%。该成果可与现有调优工具兼容,帮助企业大幅降低数据库调优的时间与资源成本,加速“自动参数调优”走向商用。

目前,这些研究成果已应用在腾讯云大数据产品线中,助力各行各业客户构建高性能的数据处理与分析能力。

此外,腾讯还有7篇技术论文被本届VLDB大会接收,覆盖分布式事务调度、混合并发控制、时序图计算等多个前沿领域,多项研究已应用于微信、腾讯广告等亿级业务场景,为全球企业提供高性能数据底座支撑。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表 的观点和立场。

相关热点

相关推荐

1
3
Baidu
map