把JSON/CSV文件打造成MySQL数据库

createh53周前 (12-08)技术教程21

生活中,你我一定都看到过这种「xx元爆改出租屋」,「爆改小汽车」之类的文章,做为IT人,折腾的劲头一点也不差。

软件开发过程中,你是否有时候,会拿着业务提供的一个个CSV或者JSON的数据文件,写个解析程序,把它们存到数据库里,再在自己的程序里通过数据库读出来?

其实不用这么麻烦,还绕了一个大圈。

今天,我们一起来「爆改」JSON/CSV这类文件,把它们打造成 MySQL一样的关系型数据库,一套SQL查询走天下。:-)


第一步:代码里加入Maven依赖


   <dependency>
      <groupId>org.apache.calcite</groupId>
      <artifactId>calcite-file</artifactId>
      <version>1.21.0</version>
    </dependency>


通过这一步,你大概就看出来,咱们今天的爆改,主要依赖 Calcite,这个Apache的顶级项目。

来张官网截图感受下:


简单介绍的话,它是个数据库查询和优化的引擎,不负责具体的存储。

所以介绍里人家自己也说了,是你高性能数据库的地基。许多的开源项目是基于它做的,比如大名鼎鼎的这些:


第二步:添加配置文件


配置的JSON 文件,一般是下面这样子:

改造的配置文件,就像行军打仗的地图一样,来告诉我们往哪走,这里的配置文件,对应到关系型数据库里,就像是哪个库,哪些表一样。

{
  "version": "1.0",
  "defaultSchema": "SALES",
  "schemas": [
    {
      "name": "SALES",
      "type": "custom",
      "factory": "org.apache.calcite.adapter.file.FileSchemaFactory",
      "operand": {
        "directory": "sales"
      }
    }
  ]
}


其中schemas 表示都有哪些数据库, defaultSchema 当然是默认数据库了。factory 表示当前的数据文件,我们使用哪种Schema的形式进行解析。因为 Calcite 可以支持多种数据格式,通过这个图你也能感受到几分吧。


第三步:JDBC Style

通过 JDBC 的形式就能连接到我们自己的数据库查询了。代码和一般的JDBC类似,区别只在于连接URL的写法上,需要将配置文件的位置声明一下。

public class Demo {
    public static void main(String[] args) throws SQLException, ClassNotFoundException {
        Class.forName("org.apache.calcite.jdbc.Driver");
        Properties config = new Properties();
        config.put("model", "./src/main/resources/model.json");
        String sql = "select * from hello";


        try (Connection con = DriverManager.getConnection("jdbc:calcite:", config)) {
            try (Statement stmt = con.createStatement()) {
                ResultSet rs = stmt.executeQuery(sql);
                while (rs.next()) {
                    System.out.println(rs.getString(2));
                }
            }
        }
    }
}


其中SQL 语句,可以支持条件过滤,join 等所有的标准SQL。

整体项目结构如下:


PS: 忘了提一句,对于CSV文件,第一行需要将各列列名和类型加上,表示数据库表里定义的列。


你说我很忙,不想啰哩啰嗦再写个Java程序,办法也还有。有个程序叫 sqlline,可以方便你在命令行里执行,一个脚本连接到对应的文件数据库之后,就开始你飞一般的SQL表演吧。

sqlline> !connect jdbc:calcite:model=src/main/resources/model.json admin admin



Have fun!

作者:Tomcat那些事儿


原文:https://my.oschina.net/u/4585957/blog/4875292

相关文章

IntelliJ IDEA中的神仙插件 写代码必备

IDEA 全称 IntelliJ IDEA,是java编程语言开发的集成环境。IntelliJ在业界被公认为最好的java开发工具,尤其在智能代码助手、代码自动提示、重构、JavaEE支持、各类版本工...

csv 文件读写乱码问题的一个简单解决方法

你好,我是 zhenguo今天扼要总结一个处理csv文件乱码问题,可能你有类似经历,用excel打开一个csv文件,中文全部显示乱码。然后,手动用notepad++打开,修改编码为utf-8并保存后,...

一看就懂:FFT算法讲解及应用

怎么理解谐波分析(FFT)?本文将通过常用例子介绍傅立叶变化,以及计算过程中遇到幅值泄漏和栅栏效应,加窗函数原则和最后修复幅值、频率的基本原理,并给出其在高端测量仪器中的应用。随着技术的发展,数据越来...

字节跳动全链路压测(Rhino)的实践

1. 背景随着公司业务的不断扩张,用户流量在不断提升,研发体系的规模和复杂性也随之增加。线上服务的稳定性也越来越重要,服务性能问题,以及容量问题也越发明显。因此有必要搭建一个有效压测系统,提供安全、高...

Java代码覆盖率统计工具——JaCoCo

JaCoCo(Java Code Coverage)是一个开源的Java代码覆盖率工具。它用于测量和报告Java程序的测试覆盖率,即代码中被测试用例执行的程度。JaCoCo可以帮助开发人员评估测试套件...