modb.pro 语出天然,妙算可得 2023年3月 中国数据库行业分析报告 墨天轮行业分析研究中心 2023-03-20 摘要 春风送来了2023年3月的墨天轮中国数据库流行度排行,本月共有260个数据库参与排名,在本月排行榜前三 中,OTO 组合已经连续四月稳健开局,TOP3 依次是 OceanBase、TiDB 和 openGauss ,且前三甲均为开源 数据库,这表明开源给数据库产品带来更多的活力,流行度也随之水涨船高。细观本月榜单前十,榜单前八的产 品地位较为稳固。排行榜第九至十名,GBase 凭借多年积淀反超 AnalyticDB 以第九名亮相。 SQL的历史可以追溯到1970年,IBM公司的Edgar Codd发表了将数据组成表格的应用原则(Codd's Relational Algebra)。20世纪70年代末,Codd系统的雏形建成,并且诞生了结构化查询语言SQL,1979年 ORACLE公司首先提供商用SQL,IBM公司在DB2和SQL/DS数据库系统中也实现了SQL,从此大家开始广泛使 用SQL与数据库进行交互。SQL编程语言的语法由ISO/IEC SC 32作为ISO/IEC 9075的一部分定义和维护。该 标准不是免费提供的。尽管存在标准,但 SQL 代码在不同的数据库系统之间不经过调整不是完全可移植的。 SQL已经在数据库中得到了广泛的应用,并取得了重大进展。然而,其也面临着许多挑战:众厂商SQL不兼容、 无法识别复杂的句子和推理、当处理大规模数据时SQL查询性能下降等。 当前,大量信息存储在结构化和半结构化知识库中,对于这类数据的分析和获取需要通过SQL等编程语言与数据 库进行交互操作,但SQL的使用难度限制了非技术用户,给数据分析和使用带来了较高的门槛。人们迫切需要技 术或工具完成自然语言与数据库的交互,因此诞生了NL2SQL任务。早在20世纪中后期,人们就已经开始尝试通 过自然语言直接访问数据库中存储数据,但受技术水平限制发展缓慢。直到2015年AI的发展和自然语言处理的 创新,人们又重新关注这一领域。NL2SQL(Natural Language to SQL)是语义解析领域的一个子任务,顾名 思义是将自然语言转为SQL语句。目前主流Text-to-SQL数据集主要有 WikiSQL(Salesforce)、Spider(耶 鲁大学 & Salesforce)、SParC(耶鲁大学 & Salesforce)。截至2023年3月,在三大公开数据集榜单前三名 中,国内模型占比50%。目前 NL2SQL 可以用在基于结构化知识的智能交互(问答)、搜索引擎的优化,但也 面临着中文数据集缺乏、查询意图转换SQL缺乏背景知识支撑、模型成熟度、私有化部署难等方面的挑战。 乐/知/乐/享 同/心/共/济 www.modb.pro 目录 content 一、数据库排行榜及前沿动态 二、SQL 发展历程回顾 三、NL2SQL 交互技术解析 四、国内外产品应用案例 乐/知/乐/享 同/心/共/济 格局稳定 - 开源OTO揽获前三 东风何时至,已绿湖上山。 春风送来了2023年3月的墨天轮中国数据库流行度排行,本月共有260个数据库参与排名,在本月排行榜前三中, OTO 组合已经连续四月稳健开局,TOP3 依次是 OceanBase、TiDB 和 openGauss ,且前三甲均为开源数据库,这表明开源给数据库产品带 来更多的活力,流行度也随之水涨船高。 2023年3月中国数据库排行榜TOP5 05 人大金仓 报 其连续两月位列排行榜第五,这 既有“国家队”特性的加持,也 是坚持不懈的结果。其积极联合 信创产业上下游企业,持续在技 术发展、生态建设、行业协作上 奋进,目前已经与6000余款国 产软硬件产品进行适配认证。 告 概 述 01 OceanBase 02 TiDB 03 openGauss 04 达 梦 连续四次夺得冠军宝座的 OceanBase 依旧保持进攻态 势,上月仍保持高频度的宣发, 各项活动也在紧锣密鼓地展开, 本月以669.26分成功摘得桂 冠。其在生态建设、技术创新、 伙伴关系等方面都走在业内前 沿。 其持续奋进本月以666.39分夺 得榜眼,新增19篇论文,与第一 名的分数差距缩小至2.87分,也 给下个月冠军得主带来了悬念。 月中免费体验云数据库 TiDB 的 活动比较火爆,参于人员规模较 大。其有望于下月夺得榜首。 其本月以509.89分位列榜单第 三,2023年其将在“四高”能 力方面持续演进,预计在2023 年Q1季度发布全新版本。 上 月,openGauss 数据库获得了 2022年度“CCF科技成果奖” 下设的“科技进步特等奖”。 拟上市的达梦以2.44分的分数劣 势排名第四。达梦二月中标捷报 频传,目前政府端招标比较注重 厂商国产化的相关资质,因此传 统老牌厂商极具优势。上月,其 连续中标湖北港口集团、中石 油,维持着高速增长的态势。 乐/知/乐/享 同/心/共/济 来源:墨天轮排行榜 行稳致远 - GaussDB、GBase 锐意进取 细观本月榜单前十,榜单前八的产品地位较为稳固。排行榜第九至第十名,GBase 凭借多年积淀反超 AnalyticDB 以第九名亮相。 2023年3月中国数据库排行榜TOP6-TOP10 10 AnalyticDB 是阿里云自 主研发的云原生数据仓 库,本月以186分排名 第十。 作为阿里云旗下 的数据库产品,其一直 围绕数据价值从实时数 仓再到湖仓一体化,支 撑了多年双11的业务, 在业内也广为人知。 6 PolarDB 本月以406.94分维持上月排名,位列第六。 其作为一款开源的云数据库,中小企业能够在短时间 内使用它,符合现在业内“降本增效”的原则。 其开 源一年多以来,经过了众多客户的检验。 7 华为云依托华为在云服务领域的多年深耕,打造了高 性能的 GaussDB 数据库,GaussDB 本月以395.05 分排名第七。 华为云 GaussDB 已经在2500+大客户 中规模化商用,历经了各种严苛场景的考验。 乐/知/乐/享 同/心/共/济 8 TDSQL 本月流行度分数为252.22分,排名较上月未 变动,位列第八。 其是腾讯自主研发的企业级分布式 数据库,已经成功应用在金融、政府、电信、医疗等 行业的核心业务系统。 9 重返榜单第九的 GBase 以227.93分得以反超。 随着 Teradata 宣布退出中国市场,众多用户纷纷考虑正在 使用的数据库的迁移问题。近几年,GBase 完成了 100+用户 Teradata 等国外数据库替换迁移。 来源:墨天轮排行榜 蓬勃发展 - ByteHouse、ArgoDB注入新动能 本月排行榜十名之后,有一些数据库产品在排名上较上月有显著的提升。以下六个数据库在3月排行榜中进步明显。 2023年3月排行榜新势力得分详情表 谷数科技自主开发的分布式 并行数据库 CDDB,本月 排名较上月上升22名至第 44。CDDB 主要应用于情 报侦查、作战指挥、高性能 计算等国防信息化重要领 域。 亚信科技旗下通用型企业级 数据库产品 AntDB 本月新 增27个专利,以102.66分 较上月排名上升一位至第 12名。其历经14年的演进 历程,从内存数据库到多模 原生的数据库。 乐/知/乐/享 同/心/共/济 其 是 火 山 引 擎 基 于 ClickHouse 研发的一款分 析型数据库产品,本月排名 较上月上升55个位次至第 27名。2021年8月份, ByteHouse 正式对外发布 并提供服务。 ArgoDB 是星环科技全新推 出的一款分布式闪存数据库 产品,本月排名较上月上升 三名,现以33.36分排名第 28。上个月,其凭借优秀 的性能、可靠的产品力获得 了诸多荣誉。 于 2 0 1 6 年 创 办 的 Kyligence ,其是基于自研 的开源技术 Apache Kylin 而开发的大数据联机分析处 理引擎OLAP技术,本月排 名较上月提升47个位次至 第32名。 其是清华大学研发的一款聚 焦工业物联网、高性能轻量 级的时序数据管理系统,现 位列第38名,较上月上升8 个位次。其在3月墨天轮时 序数据库流行度榜单上排名 第四。 来源:墨天轮排行榜 墨天轮第二届数据库掌门人论坛举行 2月10日,墨天轮2023年春季发布会暨第二届数据库掌门人论坛线上举行,各大中国数据库厂商掌门人集结,共论中国数据库生态发展新路径。 乐/知/乐/享 PingCAP 副总裁刘松:AI 与云将是未来发展的关键词。开放的技 术架构能够与新技术做融合,让数据库内核的优势性得到更多的关 注,同时开源体系能够融汇多家之长,推动数据库技术更好发展。 OceanBase CTO杨传辉:“云”作为未来的趋势,数据库与其相 融合的过程中,仍然需要不断地继承与创新。继承过去Oracle 、 SQL Server产品的精细调优,逐渐实现云数据库产品的高性价比。 华为云数据库服务产品部副部长庄乾锋:中国数据库厂商应当加强 打磨数据库根技术工程,加快生态建设的发展。新硬件技术、AI的 发展,未来不仅仅能对数据库性能、运维带来提升,甚至会颠覆现 有架构,重新定义数据库。 涛思数据创始人&CEO 陶建辉:未来的技术将会朝着两个方向发 展,对应到数据库领域则是云上与极小方向,两者皆有挑战与创新 价值。云服务有着无限的网络、算力、存储的优势资源,TDengine 也持续在云上发力。 星环科技联合创始人刘汪根:过去三年,硬件技术推动着数据库的 发展。星环始终关注用户层面的“平滑性”与开发者层面的“兼容 性”。数据库的体系化需要持续迭代才能应对高可用与持续性的挑 战。 镜舟科技CEO孙文现:易用性与稳定性是商业数据库必须要解决的 问题。在未来,数据库行业也需要极致追求降本,降低对人力、资 源以及成本的依赖。AI技术帮助我们创造了易用性的工具,但DBA 的职位却无法被替代。 亚信安慧副总裁张桦:数据库在未来需要帮助客户更好更高效地获 取数据信息,其次是让企业级与国家级信息更好的融合,消除不同 技术架构之间的壁垒。未来技术的两个发展方向,向上是技术之间 的融合,向下是追求更高的效率。 优炫软件董事长梁继良:Serverless是未来的发展方向,国内应该 继续走好国产化替代的路径,重视技术创新。各厂商应当减少内卷 与价格战,共同呵护市场的健康发展。 同/心/共/济 来源:墨天轮 习主席关于信创发展重要讲话 从2020年-2023年2月底,习主席发表的讲话内容从关键核心技术到基础软件。近期的讲话内容更是明确了“国产化替代”的概念,这表明国产 化替代将加速推进,基础软件厂商将迎来政策利好。 时间 来源 2020/9/22 教育文化卫生体育 领域专家代表座谈 会 我国高校要勇挑重担,释放高校基础研究、科技创新潜力,聚焦国家战略需要,瞄准关键核心技术特别是“卡脖子” 问题,加快技术攻关。 2021/9/26 2021年世界互联网 大会乌镇峰会致贺 信 发展数字经济意义重大,是把握新一轮科技革命和产业变革新机遇的战略选择。一是数字经济健康发展,有利于推动 构建新发展格局。二是数字经济健康发展,有利于推动建设现代化经济体系。三是数字经济健康发展,有利于推动构 筑国家竞争新优势。 2021/10/1 8 十九届中央政治局 第三十四次集体学 习 要牵住数字关键核心技术自主创新这个“牛鼻子”,发挥我国社会主义制度优势、新型举国体制优势、超大规模市场 优势,提高数字技术基础研发能力,打好关键核心技术攻坚战,尽快实现高水平自立自强,把发展数字经济自主权牢 牢掌握在自己手中。 2022/1/15 《求是》杂志 2023/2/21 中共中央政治局第 三次集体学习 要打好科技仪器设备、操作系统和基础软件国产化攻坚战,鼓励科研机构、高校同企业开展联合攻关,提升国产化替 代水平和应用规模,争取早日实现用我国自主的研究平台、仪器设备来解决重大基础研究问题。 2023/2/27 《数字中国建设整 体布局规划》 到2025年,基本形成横向打通、纵向贯通、协调有力的一体化推进格局,数字中国建设取得重要进展。数字基础设施 高效联通,数据资源规模和质量加快提升,数据要素价值有效释放,数字经济发展质量效益大幅增强,政务数字化智 能化水平明显提升,数字文化建设跃上新台阶。 乐/知/乐/享 同/心/共/济 相关内容 要加强关键核心技术攻关,加快新型基础设施建设,推动数字经济和实体经济融合发展,推进重点领域数字产业发展, 规范数字经济发展,完善数字经济治理体系,积极参与数字经济国际合作。 来源:墨天轮、党建网微平台 中国将组建国家数据局,数据管理层级将再上台阶 2023年3月7日,根据国务院关于提请审议国务院机构改革方案的议案,组建国家数据局。国家数据局负责协调推进数据基础制度建设,统 筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等,由国家发展和改革委员会管理。 将中央网络安全和信息化委员会办公室承担的研究拟订数字中国建设方案、协调推动公共服务和社会治理信息化、协调促进智慧城市建设、 协调国家重要信息资源开发利用与共享、推动信息资源跨行业跨部门互联互通等职责,国家发展和改革委员会承担的统筹推进数字经济发 展、组织实施国家大数据战略、推进数据要素基础制度建设、推进数字基础设施布局建设等职责划入国家数据局。 组 建 国 家 数 据 局 的 三 个 “有 利 于” 报 有利于职能任务的集中化 有利于权力运行的集约化 有利于资源配置的集聚化 告 概 国家数据局将强化数据管理职责 的综合性,将分散于中央网络安 全和信息化委员会办公室、国家 发展与改革委员会等多个部门的 数据管理权限进行优化归并、汇 聚整合,真正建立起标准统一、 上下协同、运行高效的政府数据 治理组织管理体系。 述 乐/知/乐/享 同/心/共/济 通过健全机构,规范分工,强化 数据权力的垂直性配置与内部制 约,实现数据开放共享、数据资 产开发、数据安全管理、平台运 营等多领域齐头并进,预计将进 一步从纵向打通数据采集、加 工、传递、再利用、存储等各环 节管理,从横向上无缝衔接数据 规划、数据质量等各业务切面, 形成首尾相连、循环通畅的数据 价值链管理闭环。 与发改、财政、人社等综合管理 部门侧重于资源分配有所不同, 数据治理中的协调需要资源集中 或再分配。充分的行政授权、相 应的行政级别和人员编制、基础 设施与数字化项目的必要投入将 赋予国家层面数据管理机构应有 的行政资源调配能力和政府影响 力。 来源:新华网 中国软件终止对易鲸捷3.89亿增资认购 2023年2月16日,中国软件(600536)在与中国电子、中国物流集团共同出资设立物流科技公司的公告中披露,对贵州易鲸捷信息技术有限公司 (以下简称易鲸捷)增资事项,按照各方签署的最后交割日2022年11月10日之协议约定,截至最后交割日公司缴付增资款1791万元,中软金投缴 付增资款4724万元,合计持股比例增至11.09%股权。其在公告中正式宣布终止了对易鲸捷3.89亿元的增资认购,明确了这起数据库领域的最高 金额增资仅仅停留在第一笔6500万的出资额度上。截至目前该笔投资尚未进行工商登记。 易 鲸 捷 事 件 盘 点 报 01 02 03 04 告 2022/4/18 2022/11/16 中国软件发布公告董事会会议通过参 中国软件公布,公司目前持有参股 贵州易鲸捷信息技术有限公司发布 中国软件在与中国电子、中国物流 股投资易鲸捷公司的议案。 公司易鲸捷7.64%的股权,公司拟 《严正声明》,称王海关于臆断易 集团共同出资设立物流科技公司的 投资完成后,中国软件持有易鲸捷 增加投资,以合计出资不超过3.89 鲸捷“盗窃”美国技术等言论不 公告中披露,对易鲸捷增资事项, 7.6438%股权(对应注册资本 亿元,合计持有不超过其25%的股 实,已委托律师事务所全权处理相 按照签署的最后交割日缴付增资款 560.6053 万元),为其参股股东。 权。易鲸捷仍为公司的参股公司。 关涉嫌诽谤及侵权言论,对诽谤侵 1791万元。其正式终止了3.89亿 该项交易构成关联交易。 权行为保留追究权利。 元的增资认购。 概 2021/4/30/ 2023/2/16 述 乐/知/乐/享 同/心/共/济 来源:墨天轮、易鲸捷官网 数仓巨头Teradata退出中国市场 2月15日,大数据分析/数仓软件巨头 Teradata 宣布基于中国未来商业环境评估,退出在中国的直接运营,后续将进入中国公司的关闭程序! Teradata 天睿公司(纽交所代码:TDC),是美国前十大上市软件公司之一。经过逾30 年的发展,Teradata天睿公司已经成为全球最大的 专注于大数据分析、数据仓库和整合营销管理解决方案的供应商。2022年,Teradata全年营收17.95亿美元,同比减少6.4%;其中亚太及日 本市场贡献营收2.92亿美元,同比减少11.5%。 Teradata天睿公司在全球拥有近两万名员工,在美洲集团,和国际集团包含欧洲、中东和非洲(EMEA)、大中华区、日本地区、亚太区, 都设有办公室。其中,大中华区是Teradata天睿公司业务增长的重要市场。Teradata在华运营实体「天睿信科(北京)有限公司」显示参保 人数为277人。 报 告 概 述 图:Teradata收入和净利润情况 乐/知/乐/享 同/心/共/济 图:欧美软件巨头退出中国时间节点 来源:墨天轮、数据猿公众号 InfluxDB 厂商完成5100万美元E轮融资 2023年2月14日消息,时序数据库 InfluxDB 厂商 InfluxData 完成 5100 万美E轮融资,融资规模扩大至 1.71 亿美元。InfluxDB一直在DBEngines时序数据库排行榜上排名第一,是一款非常受欢迎的的时序数据库,适合存储设备性能、日志、物联网传感器等带时间戳的数据。 开源时序数据库 InfluxDB 六大特性 极简架构 融资历程 2013 天使轮融资 单机版的InfluxDB只需要安装一个 binary,即可运行使用,完全没有任何的 外部依赖。 2014 810万美元A轮融资 TSM Engine 2016 1600万美元B轮融资 2013 3500万美元C轮融资 2019 6000万美元D轮融资 2023 乐/知/乐/享 底层采用自研的TSM存储引擎,TSM也是 基于LSM的思想,提供极强的写能力以及 高压缩率。 InfluxQL 5100万美元E轮融资 同/心/共/济 提供SQL-Like的查询语言,极大的方便 了使用,数据库在易用性上演进的终极目 标都是提供Query Language。 Continuous Queries 通过CQ能够支持auto-rollup和preaggregation,对常见的查询操作可以通 过CQ来预计算加速查询。 TimeSeries Index 对Tags会进行索引,提供高效的检索。这 一项功能,对比OpenTSDB和KairosDB 等,在Tags检索的效率上提升了不少。 Plugin Support 支持自定义插件,能够扩展到兼容多种协 议,如Graphite、collectd和 OpenTSDB。 来源:influxdata官网 IBM 收购 GraphQL server 开发商StepZen 2023年2月13日消息,IBM宣布已完成对 StepZen 公司的收购,这家公司开发了一个具有独特架构的GraphQL服务器,可以帮助开发人员使 用更少的代码来快速构建GraphQL API。这是IBM步入2023年的首项收购,自 Arvind Krishna 于 2020 年 4 月担任首席执行官以来,IBM 已收购了 30 家公司,以强化其混合云与人工智能 (AI)的能力。 混合云的日益普及,使得数据以各种不同类型存储在各个不同的位置上—不同类型的数据存储如数据仓库、数据湖和数据湖仓库,存储在跨不 同的云和本地环境的位置之上。API 是不同数据源和应用程序之间的重要连接器,这意味着企业比以往任何时候都要依赖和创建更多的 API 来 获取支持其应用程序和体验所需的数据。 声明式模式和解析器 StepZen 介绍 1、公司概述:成立于 2020 年的 StepZen 为开发人员提供了一种更简单的方法来 构建 GraphQL API。StepZen背后的开发团队由业内的资深专家组成,他们曾对 IBM Db2,PostgreSQL 和 Apache Derby 等数据库技术做出重要贡献,并且在 API和规模化云部署方面拥有深厚的专业知识。 2、产品概述:构建 GraphQL 。使用 StepZen 的声明式方法,开发人员可以通过 组合 GraphQL 构建块来创建 GraphQL 模式来构建 GraphQL API(和联合图)。 强大的自省能力意味着只需几行代码就可以构建和组合企业数据的 GraphQL 模 型。 3、产品优势: 快速实现价值 - 以声明的方式!GraphQL API 或联合 API 由声明性构建块组成。 查询优化引擎。构建了一个基于内存 Golang 的查询优化引擎,它不仅仅是一个路由器。 安全。能够控制对位于端点之外的 GraphQL 模式的访问 。 乐/知/乐/享 同/心/共/济 在 StepZen 中GraphQL API 是使用声明性构建块组成的。每个 构建块都连接到数据源并输出图形。共有三个构建块: @rest连接 REST、 SOAP 或 OData 后端, 甚至是 NoSQL 数据 库。 @dbquery连接 SQL 后 端。 @graphql连接GraphQL 后端,既可以连接到 Shopify 等公开。 GraphQL 接口的系统, 也可以在大型组织中构 建图的图这些构建块的 组合利用了第四条指 令:@materializer。 来源:墨天轮、StepZen官网 Uber 选择甲骨文云技术,数据库迁移至 OCI 2023年2月13日,甲骨文(Oracle)和优步科技(Uber Technologies,Inc.)宣布建立为期七年的战略云合作伙伴关系。优步科技将公司的一些最关 键的工作负载迁移到Oracle云基础设施(OCI),将能够实现基础设施的现代化,同时加快实现盈利。 OCI简介 OCI:适用于各种工作负载的完整云基础架构平台 Oracle Cloud Infrastructure (OCI) 是由 Oracle 提供的云计算服务,旨在提供高性 能、高可用性和安全性的基础架构服务和平 台服务。 它包括计算、存储、网络和安全等核心基础 设施服务,以及数据管理、分析、应用程序 开发、集成和运营等高级服务。 OCI架构组成 高可用和容错性 安全性 OCI 提供了多种安全功能和服务,如虚拟专用 云、安全边界、安全策略、密钥管理等,能够 保护用户数据和应用的安全性。 OCI 采用分布式架构,具有多可用区域、多数据中 心、多层容错机制等特性,能够确保应用的高可用 性和数据的安全性。 强大的计算和存储能力 OCI 提供高性能的计算和存储服务,包括计算实 例、块存储、文件存储、对象存储等,能够满足不 同应用的计算和存储需求。 乐/知/乐/享 同/心/共/济 OCI优势 灵活的部署和管理工具 OCI 提供了多种工具和服务,如容器引擎、自 动化工具、监控和日志服务等,支持用户在云 端快速部署和管理应用。 • • • • • • • • • • 区域(Region) 可用性域(Availability Domain) 虚拟云网络(Virtual Cloud Network, VCN) 子网(Subnet) 负载均衡器(Load Balancer) 安全列表(Security List) 安全组(Security Group) 存储服务(Storage Service) 计算服务(Compute Service) 身份和访问管理(Identity and Access Management,IAM) 来源:墨天轮、Oracle官网 一、数据库排行榜及前沿动态 二、SQL 发展历程回顾 三、NL2SQL 交互技术解析 四、国内外产品应用案例 乐/知/乐/享 同/心/共/济 SQL 概述 SQL的历史可以追溯到1970年,IBM公司的Edgar Codd发表了将数据组成表格的应用原则(Codd's Relational Algebra)。20世纪70年代 末,Codd系统的雏形建成,并且诞生了结构化查询语言SQL,1979年ORACLE公司首先提供商用SQL,IBM公司在DB2和SQL/DS数据库系统 中也实现了SQL,从此大家开始广泛使用SQL与数据库进行交互。 SQL 执行原理 SQL 的概念和分类 缓存区 报 告 SQL(Structured Query Language|结构化查询语言): SQL语言是一种特定目的编程语言,用于管理关系数据 库管 理系统(RDBMS),或在关系流数据管理系统(RDSMS)中进行流 处理。SQL包括一个数据定义语言和数据操纵语言。SQL的范 围包括数据插入、查询、更新和删除(即我们常说的增删改查), 数据库模式创建和修改,以及数据访问控制。 概 SQL是用于访问和处理数据库的标准的计算机语言,SQL语言 包含三部分:包括数据定义语言,数据操纵语言,数据控制语 言。 述 • 【数据定义语言】主要用来创建数据库中各种表,视图,或者索引,它 的操作对象是一张表或者一个视图,不直接对表中的数据进行操作。 • 【数据操作语言】主要用来实现对数据库的基本操作,包括查询,插 入,修改数据,也就是我们平时说的增删改查它的操作对象是数据表中 的某一行数据或者某几行数据。 • 【数据控制语言】是用来授权或者回收权利的,并且能控制数据库操纵 发生的时间和效果,对数据库实行监视。 乐/知/乐/享 同/心/共/济 2 第一步:应用程序把查询SQL语句发给服务器端执 行。 第二步:服务器解析请求的SQL语句。 第三步:语句执行。 3 数据文件 来源:维基百科 SQL 的演进历程 报 SQL 最初是由Donald D. Chamberlin和 Raymond F. Boyce在 20世纪70年代早期从 Edgar F. Codd 那里了 解到关系模型后在IBM 开发的。此版本最初称 为 SEQUEL,旨在操纵 和检索存储在 IBM 原始 准关系数据库管理系统 System R中的数据,该 系统是IBM 圣何塞研究 实验室的一个小组。 告 在客户测试站点对 SQL 进行测试以确定系统的 有用性和实用性后, I B M 开 始 基 于 其 System R 原型开发商 业产品,这些产品包括 System/38、SQL/DS 和IBM Db2,它们分别 于 1979 年、1981 年, 和 1983 年上市。 1973年 1979 年、1981 年、1983年 Relational Software, Inc.(现为Oracle Corporation)看到了 Codd、Chamberlin 和 Boyce 描述的概念的潜 力,并开发了他们自己 的 基 于 S Q L 的 RDBMS ,并希望将其 出售给美国海军、中央 情报局Agency和其他美 国政府机构。 • Relational Software 推出了首批商用 SQL 实现之一,即用于 VAX计算机 的Oracle V2(第 2 版) 。 • 到 1986 年,ANSI 和 ISO 标准组正式采 用了标准的“数据库 语言 SQL”语言定 义。 • 直到 1996 年,美国 国家标准与技术研究 院(NIST) 的数据管理 标准计划才证明 SQL DBMS 符合 SQL 标 准。 • 标准的“数据库语言 SQL”的新版本于 1989 年、1992 年、 1996 年、1999 年、 2003 年、2006 年、 2008 年、2011 年 2016 年以及2019年 修订发布。 1979 年 6 月—1986 年 1989年-至今 概 由于下标/上标表示法而 难以使用。在 1973 年 搬到圣何塞研究实验室 后,他们开始着手制作 SQUARE 的续集。最初 的名称 SEQUEL 被广泛 认为 是 对Q UE L 的 双 关 语,Ingres的查询语言 后来改为 SQL,因为 “SEQUEL”是英国 Hawker的商标。SQL 后来成为结构化查询语 言的首字母缩写词。 述 20世纪70年代 乐/知/乐/享 同/心/共/济 20世纪70年代后期 来源:维基百科 SQL 的语法和结构 SQL编程语言的语法由ISO/IEC SC 32作为ISO/IEC 9075的一部分定义和维护。该标准不是免费提供的。尽管存在标准,但 SQL 代码在不同的 数据库系统之间不经过调整不是完全可移植的。 SQL 运算符 报 告 概 述 子 句 是语句和查询的组 成成分。(在某些 情况下,这些都是 可选的。) 乐/知/乐/享 表达式 可以产生任何标量 值,或由列和行的 数据库表 同/心/共/济 谓 词 给需要评估的 SQL 三值逻辑(3VL)或 布尔真值指定条 件,并限制语句和 查询的效果,或改 变程序流程。 查 询 基于特定条件检索 数据。这是 SQL 的 一个重要组成部 分。 语 句 可以持久地影响纲 要和数据,也可以 控制数据库事务、 程序流程、连接、 会话或诊断。 SQL 语 法 结 构 来源:维基百科 SQL 扩展程序 SQL 是为特定目的而设计的,查询包含在关系数据库中的数据。SQL 是一种基于集合的声明式编程语言,而不是像C或BASIC这样的命令式编程 语言。但是标准 SQL 的扩展添加了过程编程语言功能,最常见的扩展程序有 PL/SQL、T-SQL等。 Abbr eviation ANSI/ISO Standard SQL/PSM Interbase / Firebird PSQL IBM Db2 SQL PL IBM Informix SPL IBM Netezza NZPLSQL Invantive PSQL 报 Sour ce SQL/Persistent Stored Modules Procedural SQL SQL Procedural Language (implements SQL/PSM) Stored Procedural Language (based on Postgres PL/pgSQL) Invantive Procedural SQL (implements SQL/PSM and PL/SQL) SQL/Persistent Stored Module (implements SQL/PSM), Procedural Language/SQL (based on Ada) SQL/PSM, PL/SQL Microsoft / Sybase T-SQL Mimer SQL SQL/PSM SQL/Persistent Stored Module (implements SQL/PSM) MySQL SQL/PSM SQL/Persistent Stored Module (implements SQL/PSM) MonetDB SQL/PSM SQL/Persistent Stored Module (implements SQL/PSM) NuoDB SSP Oracle PL/SQL PostgreSQL PL/pgSQL SAP R/3 ABAP SAP HANA SQLScript Sybase Watcom-SQL Teradata SPL 告 MariaDB 概 述 乐/知/乐/享 同/心/共/济 PL/SQL F ull name Transact-SQL Starkey Stored Procedures Procedural Language/SQL (based on Ada) Procedural Language/PostgreSQL Structured Query Language (based on reduced PL/SQL) Advanced Business Application Programming SQLScript SQL Anywhere Watcom-SQL Dialect Stored Procedural Language 其是Oracle 公司对SQL和Oracle关系数据库的过程扩展。PL/SQL 在 Oracle 数据库(从版本 6 开始——存储 PL/SQL 过程/函数/包/触发器,从版本 7 开 始)、 Times Ten 内存数据库(从版本 11.2.1 开始)和IBM Db2(从版本 9.7 开始)中可用)。Oracle Corporation 通常会在 Oracle 数据库的每个后续 版本中扩展 PL/SQL 功能。 PL/SQL 包括条件和循环等过程语言元素,可以处理异常(运行时错误)。它允 许声明常量和变量、过程、函数、包、类型和这些类型的变量,以及触发器。 Transact-SQL ( T-SQL ) 其是Microsoft和Sybase对用于与关系数据库交互的SQL (结构化查询语言) 的专有扩展。T-SQL 扩展了 SQL 标准,包括过程编程、局部变量、字符串处 理、日期处理、数学等的各种支持函数,以及对DELETE和UPDATE语句的更 改。 无论应用程序的用户界面如何,所有与 SQL Server 实例通信的应用程序都通 过向服务器发送 Transact-SQL 语句来实现。 来源:维基百科 SQL 标准化 SQL标准化是指SQL语言被制定为一种标准,以确保不同数据库厂商实现的SQL功能和语法在不同平台和应用中都可以互相兼容和交互操作。SQL 语言可以用于检索和操作关系型数据库中的数据,其简单易学、功能强大和可移植性好的特点,使得它迅速成为了数据库领域的事实标准。 SQL 标准化历史 SQL现行标准 该标准通常用以下模式表示:ISO/IEC 9075-n:yyyy 第n部分:标题,或者简称为ISO/IEC 9075。ISO / IEC 9075补充了ISO / IEC 13249:SQL多媒体和应用程序 包(SQL/MM),该程序包定义了基于SQL的接口和 包,给诸如视频,音频和空间数据之类的广泛的应用程 序。 SQL标准化存在的问题 SQL 标准因为定义过于宽泛等技术和非技术原因,不同 产品对标准的符合程度存在很大的差异。大到功能特 性,小到语法语义的细节,在不同产品之间都存在很多 差异,造成实际的应用迁移远比 C/C++ 程序的迁移要复 杂很多。因此,尽管很多产品都号称自己符合 SQL 标 准,并不意味着应用可以容易的在它们之间切换。 乐/知/乐/享 同/心/共/济 来源:墨天轮、维基百科 SQL面临的挑战 SQL已经在数据库中得到了广泛的应用,并取得了重大进展。然而,它也面临着许多挑战:众厂商SQL不兼容、无法识别复杂的句子和推理、当 处理大规模数据时SQL查询性能下降等等。 SQL兼容性 处理海量数据 SQL标准的复杂性和规模意味着大多数数 随着数据量的不断增加,SQL面临着处理 大规模数据的挑战。SQL需要更快的处理 速度和更好的扩展性来应对这一挑战。 据 库厂商 不支 持 整 个 标 准 , 都 有 特 有 的 SQL方言,数据库系统之间缺乏可移植 性。 安全性 多种数据类型的支持 SQL数据库存储着企业的重要数据,而且 面 临着恶 意 攻 击 和 黑 客 攻 击 的 威 胁 。 因 此,SQL需要更好的安全性保障,包括访 问控制、加密、备份等。 SQL面临的另一个挑战是支持各种类型的 数据,例如文本、音频、视频、地理位置 等,这需要SQL不断更新以支持新的数据 类型。 复杂的查询语句 数据一致性和完整性 SQL查询语句可能变得非常复杂,这可能 SQL需要确保数据的一致性和完整性。这 可能需要复杂的规则和约束,以防止错误 数据的插入、更新或删除。 使得SQL对于非专业人员来说难以使用, 需 要更简 单 和 易 于 理 解 的 方 式 来 查 询 数 据。 乐/知/乐/享 同/心/共/济 来源:developers.slashdot、quora SQL未来发展趋势 为了降低用户的使用成本,提高工作效率,SQL在未来将呈现自动化、智能化发展趋势,同时将更加提升在安全性方面的支持。 SQL自动化发展趋势 自动化的查询优化:随着数据量的增加,查询优化变得越来越重要。 SQL自动化工具可以使用人工智能和机器学习技术自动优化查询,从 而提高查询性能和响应时间。 自动化的数据清洗和预处理:在数据分析和建模之前,数据通常需要 进行清洗和预处理。SQL自动化工具可以通过自动化数据清洗和预处 理过程来减少手动处理的工作量,从而提高数据质量和准确性。 自动化的安全性管理:SQL自动化工具可以自动扫描数据库中的安全 漏洞,并自动应用安全补丁和更新,从而提高数据库的安全性和保护 企业数据。 自动化的备份和恢复:备份和恢复数据库是重要的管理任务。SQL自 动化工具可以通过自动化备份和恢复过程来减少手动操作的工作量, 并提供快速、可靠的数据恢复。 自动化的数据可视化和报告:SQL自动化工具可以生成自动化的数据 可视化和报告,从而帮助企业和组织更好地理解和利用其数据资源。 乐/知/乐/享 同/心/共/济 SQL智能化发展趋势 AI和机器学习:SQL将会发展更多的机器学习和AI相关的功能,例如更好 的支持机器学习模型的训练和评估,支持自动化数据分析和决策等方面。 分布式SQL:分布式SQL可以将SQL查询分散到多个节点上,以提高性 能和可伸缩性。随着云计算和大数据技术的发展,分布式SQL将变得越来 越普遍。 自然语言查询:随着自然语言处理技术的发展,未来SQL可能会支持更自 然的查询语句,使得非专业人员也能够轻松地使用SQL。 SQL安全性发展趋势 安全方面,SQL将会提供更多的安全性能和功能,包括数据加密、身份验 证、访问控制等方面,以保护数据不被未经授权的访问或窃取。SQL将会 更好地支持各种安全性标准和合规性要求。 隐私计算方面,SQL将会更好地支持数据的隐私保护和匿名化,以保护个 人数据不被滥用。SQL将会提供更好的数据脱敏、去识别化、分析隐私保 护等功能,以保证数据在分析过程中的隐私安全。此外,SQL还将会与隐 私计算相关的技术和算法进行融合,例如同态加密、多方计算等,提供更 好的数据隐私保护方案。 来源:developers.slashdot、quora 一、数据库排行榜及前沿动态 二、SQL 发展历程回顾 三、NL2SQL 交互技术解析 四、国内外产品应用案例 乐/知/乐/享 同/心/共/济 NL2SQL 概述 语义解析(Semantic Parsing)是自然语言处理技术的核心任务之一,涉及语言学、计算语言学、机器学习以及认知语言等多个学科。 NL2SQL(Natural Language to SQL)是语义解析领域的一个子任务,顾名思义是将自然语言转为SQL语句。它可以充当数据库的智能接口,让 不熟悉数据库的用户能够快速地找到自己想要的数据,改善用户与数据库的交互方式。相关技术关键字还有:Text2SQL、Natural Language Interface to/for Database (NLIDB)、Natural Language Query (NLQ)、NLP、NLG等。 Sequence-to-SQL生成器 SQL执行器 生成器的输入是给定的数 据库和针对该数据库的问 题,输出是问题对应的 SQL查询语句,如图1中 红色箭头标示 1 2 报 SQL执行器在数据库上完 成该查询语句的执行,及 给出问题的最终答案,如 下图中蓝色箭头标示。 告 概 述 NL2SQL的任务 乐/知/乐/享 同/心/共/济 上图描述了由问题到S Q L 生成模型的核心细节 , 简 单 来 说 , 就 是 将 NL2SQL分成几个子句的识别,包含Select子句、Where子句,还有 Group By、Limit等操作,每个部分会涉及到Table识别、属性识别、索 引添加等细节。上图中通过深度学习方法,基于编码器-解码器实现 NL2SQL。 NL2SQL实现简述 来源:墨天轮、中国金融电脑+公众号 NL2SQL 当前实现原理 当前 NL2SQL 主要是研发训练优化调整出一个AI模型,解决将通用自然语言转换成SQL并在数据库执行返回结果的问题,属于人工智能NLP领 域。目前模型的研发流程大致需要经过数据收集和预处理、模型设计和训练、模型评估和调整等五个步骤。国内外已经有非常多类似的专用模型如 SQLNet、TAPAS、SeaD、RASAT等,尤其在学术界非常火热。早期OpenAI发布Codex、GPT-3.5、GPT-4等通用大模型,除了编写代码,还 具备NL2SQL的功能,这也让部分厂商能直接调用OpenAI的API来实现NL2SQL的功能。 模型研发流程 自然语言解析 报 从文本中提取出语言结构和语法关系。解析可以应用于语音识 别、机器翻译、语义分析、信息检索、自动摘要等多个领域。 模型设计和训练 选择适合问题的模型类型,构建模型的 结构,包括输入层、隐藏层和输出层。 设定训练的目标函数和优化算法。 数据库结构理解 告 数据收集和预处理 通过第三方语料库和收集的数据,然后 对所收集数据进行分类或分组前所做的 审核、筛选、排序等必要的处理。 概 模型评估和调整 述 实验验证和对比 部署和应用 乐/知/乐/享 部署后对接通用请求的流程 同/心/共/济 在开发数据集上训练好模型后,使用独 立的测试数据集对模型进行评估,以确 定模型的性能,不断调整参数。 采用若干不同的方法以及研究实验,验 证模型的有效性。 将训练好的模型部署到生产环境中,供 用户使用。 给定对应的数据库模式和自然语言查询,生成对应的SQL查 询。 SQL语句生成 结合识别结果、对数据库理解以及问题包含信息,生成满足语 法的SQL查询语句。 SQL语句执行 在数据库上完成该查询语句的执行,及给出问题的最终答案。 来源:墨天轮 NL2SQL 训练数据集及排名 目前主流NL-to-SQL数据集主要有 WikiSQL(Salesforce)、Spider(耶鲁大学 & Salesforce)、SParC(耶鲁大学 & Salesforce)。截至 2023年3月,在三大公开数据集榜单前三名中,国内模型占比绝大部分席位。当前Text-to-SQL数据集大部分是英文数据集,代表性中文SQL解 析数据集有 NL2SQL(追一科技)、Cspider(西湖大学)、DuSQL(百度)。 数据集 WikiSQL Spider SParC 语句数量 数据库数量 平均单词数 平均列数 80654 10181 4298 1 200 200 12.9 48.2 24.5 6.4 4.1 4.4 平均行数 排名 模型 公司 1 SeaD + Execution-Guided Decoding 蚂蚁集团 2 SDSQL + Execution-Guided Decoding 阿里巴巴集团 3 IE-SQL + Execution-Guided Decoding 平安人寿 1 RESDSQL-3B + NatSQL 中国人民大学 2 SeaD + PQL 蚂蚁集团 3 CatSQL + GraPPa 阿里云数据库团队 1 RASAT + PICARD 上海交通大学 2 TreeSQL V2 + BERT 匿名 3 GAZP + BERT 华盛顿大学和 Facebook 人工智能研究 4.4 5.5 5.6 数据集 单/多表 语言 复杂度 数据库/表格 训练集 验证集 测试集 NL2SQL 单 中文 简单 5,291/5,291 41,522 4,396 8,141 CSpider 多 中英 复杂 166/876 6,831 954 1,906 DuSQL 多 中文 复杂 200/813 22,521 2,482 3,759 乐/知/乐/享 同/心/共/济 来源:WikiSQL、Spider、SParC数据集官网 NL2SQL 的应用和场景 目前 NL2SQL 使用最广的还是在BI报表等OLAP系统中,用户可以非常方便的通过文字统计分析数据并生成报表,另外还用于智能搜索、智能 问答、商业智能等领域。由于当前NL2SQL模型的准确性和通用性达不到大规模使用的标准,相信未来NL2SQL会成为数据库交互的新入口。 NL2SQL 在结构化知识领域的应用 保险:保费查询、客户信息查询等内部业务数据查询 企业商业智能 01 电商:商品销量、商品详情、商品筛选与推荐等电商场景问答 零售:产品信息、活动细则等新零售场景问答 生活:话费查询、缴费查询、业务查询等日常生活问答 NL2SQL 在搜索引擎上的应用 NL2SQL可以用在搜索引擎的优化上,让搜索引擎更“聪明”。 现在的信息检索技术,在检索文本时,对于文本中存在的表格内 容是无区别对待的,也当做普通的文本来处理;结合NL2SQL, 可以让检索模型结合普通文本及表格类文本进行更智能的检索。 乐/知/乐/享 同/心/共/济 问答机器人 应用 场景 证券:覆盖行情信息、行业研报报表、财务报表等结构化数据 出行:支持酒店信息、火车票与飞机票查询等出行场景问答 03 数据库管理和 维护 02 04 数据分析和数 据挖掘 企业商业智能:企业智能系统可以使用 NL2SQL 自动化生成数据库查询,从 而帮助企业更好地了解其数据并做出商业决策。 数据库管理和维护:NL2SQL 可以帮助数据库管理员更快速地创建、修改和 查询数据库,节省时间和精力。 问答机器人:NL2SQL 技术可以被用来开发智能问答机器人,使用户能够以 自然语言交互来查询数据库。 数据分析和数据挖掘:NL2SQL 可以帮助非技术人员更轻松地使用 SQL 查询 数据,从而提高数据的可访问性和可理解性。 来源:AI科技大本营 NL2SQL 面临的挑战与未来趋势 目前 NL2SQL 技术尚未成熟,面临着中文数据集缺乏、查询意图转换SQL缺乏背景知识支撑、模型成熟度、私有化部署难等四方面的挑战。未来 NL2SQL 的技术发展也朝着智能化模型、多语言扩展等方向发展。 NL2SQL 报 中文NL2SQL数据集缺口。 关于中文NL2SQL研究情况 业界信息甚少,且缺乏可以 直接使用的开源数据集,目 前已知的开源数据集仅有中 文Spider数据集。由于在前 期的数据收集和数据预处理 需要投入大量的人工和时 间,因此数据集的缺乏对中 文NL2SQL研究造成了一定 的阻碍。 面 告 概 述 查询意图转换SQL缺乏背景 知识支撑。用户自然语言表 述问题口语化,一般不包含 表格的背景知识,忽略很多 查询条件,这对生成正确的 SQL查询语句造成了困难。 因此在自然语言理解的过程 应尽量收集用户查询意图, 并为表结构知识进行知识增 强。 临 的 挑 战 模型移植性等能力存在不 足。基于规则的NL2SQL实 现往往缺乏移植性和泛化能 力 , 而 基 于 深 度 学 习 的 NL2SQL实现,构建端到端 的神经网络,则缺乏可解释 性,难以进行调试优化。如 何合理地将规则和机器学习 进行综合,是提升预测准确 率的突破口之一。 私有化部署难。私有化部署 NL2SQL可能需要大量的技 术和资源支持。如果没有经 验或资源,可能需要寻求专 业帮助或使用已有的公共 API服务。NL2SQL训练和 部署需要大量的计算资源, 例如高性能的GPU、大内存 等,这些资源在云服务提供 商那里通常更加充足和灵 活。 发展趋势 更加智能化的模型:目前的NL2SQL模型大多是基于深度学习的神经网络模型,未来可能会在此基础上进一步探索更加智能化的模型,例如使用强化学习 等技术来进一步提高模型的准确性。 面向多语言的扩展:当前的NL2SQL技术主要是面向英文的查询,未来可能会扩展到更多的语言,例如中文、法语、西班牙语等。 更加复杂的SQL查询支持:目前的NL2SQL主要支持简单的SQL查询,未来可能会在此基础上进一步扩展支持更加复杂的SQL查询,例如JOIN操作等。 乐/知/乐/享 同/心/共/济 来源:中国金融电脑+公众号 一、数据库排行榜及前沿动态 二、SQL 发展历程回顾 三、NL2SQL 交互技术解析 四、国内外产品应用案例 乐/知/乐/享 同/心/共/济 BI应用 - Power BI Q&A 自然语言提问 Power BI Q&A是一种自然语言工具,可帮助您查询数据并从中获取所需的结果。您可以通过在仪表板上输入一个对话框来执行此操作,该对话 框会立即生成类似于Power View的答案。 Q&A翻译您的问题并向您展示重新查询数据的内容 。Q&A由Server and Tools,Microsoft Research和Bing团队开发,给您一种真正探索数据的感觉。 使用Q&A工具训练Q&A Q&A的自动补全和颜色标识 当用户输入问题时,Q&A会显示相关的上下文 建议,以帮助用户快速的使用自然语言。同 时,在输入问题的同时,用户会立即获得反馈 和结果,这种体验类似于在搜索引擎中输入文 本。 • Q&A使用下划线的颜色和类型来帮助用户查看 系统理解或不识别的单词。 • Q&A 目前支持以下的可视化类型: • • • • • Line chart Bar chart Matrix Table Card 乐/知/乐/享 • • • • Area Pie chart Scatter/Bubble chart Map 同/心/共/济 1. 检查(Review)用户提出的问题 4. 管理术语 选择Review questions选项卡,可以查看数据集,用户 提出的问题。在该对话框中会显示数据集、工作区和上次 刷新日期,开发者可以选择一个数据集并查看用户提出的 问题,该对话框使用红色下划线显示了未被识别的单词。 从“Tech Q&A”和“Field synonyms”中保存的所有内 容都会显示在此处,在该窗口 中可以查看或删除术语或同义 词。 2. 训练Q&A Tech Q&A 用于训练Q&A理解和识别单词(名词和带有 条件的名词)。首先,键入一个问题,其中包含 Q&A 无 法识别的一个或多个单词,然后,Q&A 会提示您输入该 陌生术语的定义,你需要输入与该陌生单词所代表的内容 相对应的过滤器或字段名称。 3. 定义字段的同义词 选择“Field synonyms”,可以查看模型中所有的表和 列,并添加列名的同义词(替代名称),还可以选择是否 从Q&A中隐藏列或表。 5. 建议问题 Q&A不仅可以建议术语,还可 以建议问题。在不进行任何设 置的情况下,Q&A visual会提 示几个开始使用的问题,这些 问题是根据您的数据模型自动 生成的。在建议问题中,您可 以用自己的问题覆盖自动生成 的问题。 来源:Power BI 官网 BI应用 - Tableau Ask Data 自然语言交互 Tableau 全新的 Ask Data 允许用户用简单的语言提问,并快速获得正确的答案。客户可以简单地键入一个问题,Tableau 将反馈出交互式的可 视化结果,而不需要用户去学习数据维度、度量或任何数据结构。Ask Data 使用复杂的算法,这些算法的工作原理在于理解人的意图,而不是 单纯地理解关键字。这有助于 Tableau 理解用户问题,预测用户需求,并进行智能的可视化选择。Ask Data 完全集成到 Tableau Server 和 Tableau Online 等 Tableau 平台中,可以根据已发布的数据源工作,不需要额外的设置。人们可以通过简单地键入问题来探索已经发布的数 据,在不考虑本身数据技能的情况下,使更多人群能够访问数据进行分析。 Tableau Ask Data 的四大功能 表达式“一段时间内的利润是多少?”的可视化输出 简单而强大的分析功能 报 人们可以通过简单地键入问题来探索已经发布的数据,Tableau 将反馈出交互式的可视化结果。在不考虑本身数据技能的情况下, 使更多人群能够访问数据进行分析。Ask Data 语义模型可以自动 丰富数据,用户甚至可以为数据添加同义词实现更人性化的互动。 告 智能分析功能 概 Ask Data 使用复杂的算法,这些算法的工作原理在于理解人的意 图,而不是单纯地理解关键字。这有助于 Tableau 理解用户问 题,预测用户需求,并进行智能的可视化选择,让模糊或不明确的 陈述变得简单易懂。 述 结合数据可视化最佳实践 Ask Data 运用 Tableau 的 Show Me 功能和输入陈述的上下文 筛选出问题相关答案,并以最佳的可视化效果呈现。 从数据到决策 使用 Ask Data 提问后,用户可以与他人分享你的发现,以鼓励大 家进一步探索。 乐/知/乐/享 同/心/共/济 来源:Tableau 官网 BI应用 - Amazon QuickSight Q 自然语言查询 Amazon Quicksight 是一项快速且易于使用的云支持业务分析服务,企业内的所有员工能够在任何设备上随时轻松构建可视化内容、执行临时 分析并快速从数据中获得业务见解。Amazon QuickSight Q 是其自然语言查询功能,它把人工智能和业务洞察相结合,能够让使用者通过自然 语言提出问题并快速获得分析结果,并且支持预测和追问预测依据,帮助用户无需掌握数据分析技术,而是通过自然语言获得业务洞察,降低BI 技术的使用门槛。 QuickSight Q 利用机器学习(ML)自动理解语义以及业务数据之间的关 系,并以可视化的方式提供准确的答案。 QuickSight Q 会根据您的问题不断改进。作者可以看到读者提出的最多的 问题,然后可以根据这些问题来改进。 Q提供自动补全建议,执行拼写检查,并建议您可以自定义为特定于业务 的首字母缩略词和同义词。如果Q答错了,你可以反馈给Q,让他纠正错 误。此反馈被传递给BI团队,他们可以微调数据模型或添加更多数据。 QuickSight Q 新增预测和追问功能。这让读者对未来趋势以及过去趋势的 成因有更多的了解。QuickSight Q 在实际业务数据上进行了预训练,因此 它能够理解业务用语和术语。 乐/知/乐/享 同/心/共/济 来源:墨天轮、Amazon官网 BI应用 - Apache Doris 自助对话式 思必驰是一家对话式人工智能平台公司,于 2019 年首次引入 Apache Doris ,基于 Apache Doris 构建了实时与离线一体的数仓架构。相对于过 去架构,Apache Doris 凭借其灵活的查询模型、极低的运维成本、短平快的开发链路以及优秀的查询性能等诸多方面优势,如今已在实时业务运 营、自助/对话式分析等多个业务场景得到运用,满足了设备画像/用户标签、业务场景实时运营、数据分析看板、自助 BI、财务对账等多种数据分 析需求。 自助/对话式分析场景 思必驰通过自身丰富的 AI 能力沉淀结合 Apache Doris 强大的分析能力,打造了自助对话式 BI 来解决用户灵活的查询需求。无需预建模或定制开 发,用户可直接通过语音对话或输入文字来自动生成SQL语句,查询任意场景下的明细数据并实现任意字段的上卷/下钻。相较于过去依赖分析人 员,通过 NL2SQL 大大提升了用户的查询效率,在多个实际业务分析场景中均得到了正向反馈。 相比预计算 OLAP 引擎,Apache Doris 在应对 NL2SQL 需求上具有更强大的能力: 特点一:对数据仓库建模要求较低,星型、雪花、宽表模 型均可满足,可承载更灵活的分析场景和工作负载; 特点二:高度兼容MySQL协议并支持标准SQL,用户使 用更友好。 特点三:多表Join能力更突出,支持聚合计算、明细查 询。 特点四:性能优异,响应时效更高。 乐/知/乐/享 同/心/共/济 来源:墨天轮 通用大模型 - OpenAI Codex 及应用 Codex 模型是可以理解和生成代码的 GPT-3 模型的下一代。他们的训练数据包含自然语言和来自 GitHub 的数十亿行公共代码。其最擅长 Python,精通 JavaScript、Go、Perl、PHP、Ruby、Swift、TypeScript、SQL 甚至 Shell 等十几种语言。官方最新消息表示Codex模型在3 月22日将停止支持,OpenAI建议所有用户从Codex切换到ChatGPT背后的GPT-3.5 Turbo模型,表明OpenAI对通用大模型的信心,同时坚持 未来趋势就是通用AI大模型。 OpenAI目前提供的两种 Codex 模型 基于code-davinci-002的模型示例 报 告 概 OpenAI Codex 模型的应用解读: 述 收集元数据。收集元数据的一种自然方法是使用Python 的 Databricks SQL 连接器通过 DBSQL 端点连接对象收集表 模式。 使用 OpenAI SQL 转换功能。需要以 OpenAI API 规范中 描述的预期提示格式准备查询。生成提示后,只需处理接收 到的查询,然后将其发送到 DBSQL 端点执行。 乐/知/乐/享 同/心/共/济 来源:OpenAI 官网 专用模型 - 蚂蚁集团SeaD SeaD使用新的模式感知去噪目标来训练模型,可以提高文本到SQL任务S2S生成的性能。该模型在WikiSQL基准上获得了最先进的性能。它的 成功凸显了利用面向任务的去噪目标来增强S2S模型的潜力。 简介 工作原理:SeaD将文本 SeaD将基于转换器的seq2seq模型应用于强大的文本到SQL生成。使用模式感知 去噪来训练seq-to-seq模型,而不是在解码器中引入约束条件或将任务改成填 槽。包括两个去噪目标,训练模型从侵蚀和洗牌噪音中恢复输入或预测输出。这些 去噪目标作为辅助任务,在S2S生成中更好地对结构数据进行建模。 此外,SeaD改进并提出了一个对句子敏感的执行引导(EG)解码策略以克服EG 解码对遗传模型的限制。 侵蚀:作用于模式的输入, 通过随机排列、删除和添加 列到当前模式集。目标SQL 查询中的相关模式实体会根 据侵蚀的结果被共同修改。 乐/知/乐/享 同/心/共/济 到SQL视为S2S生成任 务。在推理过程中,给 定自然语言问题和相关 的数据库模式,SeaD以 自动攻击的方式直接生 成相应的SQL序列。 洗牌:通过随机重新排列 NL或SQL中提到的实体和 值与模式列的关系来实 现。 来源:https://www.modb.pro/doc/99502 专用模型 - 人民大学RESDSQL-3B RESDSQL是一个强大的文本到SQL分析器。提出排序增强编码和框架感知解码框架,将模式链接和骨架解析解耦,可以减轻文本到SQL转换的 难度。该框架具有良好的性能和稳健性。 由于SQL查询的结构属性,seq2seq模 型负责解析模式项(即表和列)和骨架 (即SQL关键字)。这种耦合的目标增 加了解析正确SQL查询的难度。 RESDSQL通过排序增强的编码以及骨 架感知解码框架,将模式链接和骨架解 析解耦。 具体来说,对于seq2seq编码器-解码模 型,其编码器由最相关的模式项而不是 整个无序的项目导入,这可以缓解SQL 解析过程中的模式链接问题,而其解码 器首先生成骨架,然后生成实际的SQL 查询,这可以隐式地约束SQL解析的进 行。 工作原理 乐/知/乐/享 同/心/共/济 RESDSQL通过训练一个交叉编码器来排列和过滤模式项,然后将其注入seq2seq模型的编码器。同时让解码器先 生成SQL骨架,这可以隐含地指导SQL生成。在某种程度上将模式链接和骨架解析解耦。 来源:https://www.modb.pro/doc/99501 专用模型 - 上海交大 RASAT 诸如模式链接(schema linking)和模式编码(schema encoding)等关系结构已被验证为将自然语言转换为SQL查询的一个关键组成部分。然而,引入这 些结构关系是有代价的:它们往往会导致专门的模型结构,这在很大程度上限制在文本到SQL中使用大型预训练模型。 为了解决这个问题,论文《RASAT: Integrating Relational Structures into Pretrained Seq2Seq Model for Text-to-SQL》提出了 RASAT:一个 Transformer seq2seq架构,并增加了关系感知的自注意力,可以利用各种关系结构,同时能够有效地继承T5模型的预训练参数。该模型能够纳入几乎所有 类型的现有关系,此外,该论文还建议为多轮场景引入共指关系。在三个广泛使用的文本到SQL数据集上的实验结果表明,RASAT可以在所有三个基准中取得 有竞争力的结果,在执行准确性方面达到了最先进的水平[图片] (Spider上80.5%的EX,SParC上53.1%的IEX,和 37.5%的CoSQL IEX)。 通过关系感知的自注意力,可以为 T5 模型继承多种类型的关系。只要关系可以被表示为三 元组,头和尾是输入序列中的 token。 给定输入序列,假设一对给定的 token 的每个方向,只存在最多一个关系。作者将 token 作为顶点,token 间关系作为边的图,称为交互图。 对于引入的关系的每种类型,赋予两个关系嵌入,分别在自注意力中表示 K 和 V。不同的 注意力头和层之间共享相同的 embedding,但作者区分了 K 和 V。 作者保留了一组通用关系,作为没有特定边的 token 对的模拟关系。在模型中,作者总共 使用了 50 种不同的关系。除了模拟的通用关系,一般有 5 种关系,分别是:模式编码、 模式链接、问题依存结构、问题之间的共指关系(用于多轮对话)和数据库内容提及。 乐/知/乐/享 同/心/共/济 作者通过在关系的头尾 token 之间建立同类型关系的稠密连接,将关 系传播到子词(sub-word)层面。例如,列amenid 是表 has_amenity 中的外键,相应的主键是表 dorm_amenity 中的列 amenid。 这样,在这两个列名之间有一个定向关系 FOREIGN-KEY。在子词层 面,amenid 由两个 token amen 和 id 组成。因此,作者将 FOREIGN-KEY 关系传播到 4 个副本中,从源 amenid 中的 token 指向目标的 token,在两边的子词 token 之间形成稠密连接。 通过关系传播,可以方便地将词或短语级别的关系适应于 RASAT 模 型,同时保持在子词级别学习的预训练权重不变。 来源:相关论文 专用模型 - 北京大学RAT-SQL-TC RAT-SQL-TC在语义分析器训练期间增加了两个辅助任务,即旋转开关预测和上下文模式预测。这两个任务分别从自然语言理解的角度和数据库 模式感知的角度对多轮对话进行建模,并将语义转换为SQL。在一个大规模的开放领域基准上证明了TC的高效性,并取得了新的最先进的结果。 简介 RAT-SQL是近年来最先进的神经语义分析器之一。 RAT-SQL 是一个统一的框架,同时对数据库模式中的关系结构和给定的 问题进行编码,以便生成SQL。 RAT-SQL使用一个基于关系感知转换器的编码器模型将自然语 言查询编码为向量,并使用一个解码器模型将编码的向量转换 为抽象语法树。这个抽象语法树再进一步转化为SQL。 旋转开关预测任务 上下文模式预测任务 转折预测任务旨在加强编码器模型对每个相邻查询之间对话流的 上下文模式预测任务旨在帮助编码器模型将每个修改操作映射到应用于表的列上的每个数 理解。这项任务要求编码器模型预测是否通过增加新一轮话语来 据库操作。使用模式tokens的表示法来进行预测。使用特殊标记</s>的编码向量作为数 对SQL进行修改。 据库模式中的一个列的表示,以及使用列表示法来预测将对其进行何种修改。 乐/知/乐/享 同/心/共/济 来源:https://www.modb.pro/doc/99499 专用模型 - 达摩院Graphix-T5 文本到SQL解析的目标是将自然语言问题转换为可执行的SQL查询语句。近年来,该任务受到越来越多的关注,因为它可以帮助终端用户在没有 技术背景的情况下有效地从数据库中提取重要信息。文本到SQL解析的一个主要挑战是领域泛化,即如何对未见过的数据库进行良好的泛化。最 近,预训练的文本到文本转换器模型,即T5,虽然不专门针对文本到SQL解析,但在针对域泛化的标准基准测试上已经达到了最先进的性能。论 文《Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for Text-to-SQL Parsing》探索了进一步增强预训练T5模 型的方式,使用专门设计的组件进行文本到SQL解析。这些组件应该向文本到SQL解析器引入结构归纳偏差,从而提高模型在(可能是多跳)推 理方面的能力,这对于生成结构丰富的SQL非常关键。为此,该论文提出了一种新的架构GRAPHIX-T5,这是一个混合模型,包括标准的预训练 转换器模型和一些特别设计的图感知层。广泛的实验和分析表明,GRAPHIX-T5在四个文本到SQL基准测试中的效果显著,包括SPIDER、 SYN、REALISTIC和DK。GRAPHIX-T5在超过其他所有基于T5的解析器的基础上,取得了新的最先进的性能。值得注意的是,GRAPHIX-T5large在精确匹配(EM)准确性上比原始的T5-large性能优越了5.7%,在执行准确性(EX)上优越了6.6%。这甚至比T5-3B的EM和EX都要优 越1.2%和1.5%。 如图所示,T5(Text-to-Text Transfer Transformer)模型将翻译、 分类、回归、摘要生成等任务都统一转成Text-to-Text任务,从而 使得这些任务在训练(pre-train和fine-tune)时能够使用相同的目标 函数,在测试时也能使用相同的解码过程。 乐/知/乐/享 同/心/共/济 从SYN随机抽样的两个示例说明,多跳推理可以帮助GRAPHIXT5在语义意义和数据库模式结构方面生成更正确的SQL。 来源:相关论文 免责申明 本报告著作权归墨天轮所有,未经书面许可,任何机构或个人不得以任何形式翻版、复刻、发表或引用。若征得墨天轮同意进行引用、 转载的,需在允许的范围内使用, 并注明出处为“墨天轮”,且不得对本报告进行任何有悖原意的引用、删节或修改。 本报告所涉及的观点或信息仅供参考,不构成任何投资建议。本报告仅在相关法律许可的情况下发放,并仅为提供信息而发放,概不构 成任何广告。在法律许可的情況下,墨天轮可能会为报告中提及的企业提供或争取提供投融资或咨询等相关服务。本报告所指的公司或 投资标的的价值、价格及投资收入可升可跌。 本报告中发布的调研数据采用样本调研方法,其数据结果受到样本的影响。由于调研方法及样本的限制,调查资料收集范围的限制,该 数据仅代表调研时间和人群的基本状况,仅服务于当前的调研目的,为市场和客户提供基本参考。受研究方法和数据获取资源的限制, 本报告只提供给用户作为市场参考资料,本公司对该报告的数据和观点不承担法律责任。 本报告的部分信息来源于公开资料,墨天轮对该等信息的准确性、完整性或可靠性不做任何保证。本文所载的资料、意见及推测仅反映 墨天轮于发布本报告当日的判断,过往报告中的描述不应作为日后的表现依据。在不同时期,墨天轮可发出与本文所载资料、意见及推 测不一致的报告和文章。墨天轮不保证本报告所含信息保持在最新状态。同时,墨天轮对本报告所含信息可在不发出通知的情形下做出 修改,读者应当自行关注相应的更新或修改。 乐/知/乐/享 同/心/共/济 www.modb.pro 往期报告免费下载 https://www.modb.pro/doc/59620 https://www.modb.pro/doc/61120 https://www.modb.pro/doc/74438 https://www.modb.pro/doc/77118 https://www.modb.pro/doc/94937 https://www.modb.pro/doc/98495 乐/知/乐/享 同/心/共/济 https://www.modb.pro/doc/65548 https://www.modb.pro/doc/78854 https://www.modb.pro/doc/71694 https://www.modb.pro/doc/90820 持续促进 数据领域的知识传播和技术创新 https://www.modb.pro