LSM-Tree (日志结构合并树)

news/2025/2/27 7:18:41

     LSM-Tree(日志结构合并树)是一种高效处理写操作的存储结构,广泛应用于NoSQL数据库如LevelDB和RocksDB。其核心思想是将随机写入转换为顺序写入,提升吞吐量。以下是其原理及Java实现示例:

### **LSM-Tree 原理**
1. **结构组成**:
   - **MemTable**:内存中的有序结构(如跳表),用于快速写入。
   - **Immutable MemTable**:MemTable写满后转为只读,准备刷盘。
   - **SSTable(Sorted String Table)**:磁盘上的有序文件,由MemTable刷入生成,多个SSTable分层存储。

2. **写入流程**:
   - 数据先写入MemTable。
   - MemTable满后转为Immutable MemTable,异步刷入磁盘生成SSTable。
   - 磁盘SSTable按层级组织,通过合并(Compaction)消除冗余数据。

3. **读取流程**:
   - 依次查找MemTable、Immutable MemTable和各层SSTable。
   - 使用布隆过滤器减少无效磁盘访问。

4. **合并(Compaction)**:
   - 合并多个SSTable,保留最新数据,减少文件数量,提升读取效率。

---

### **Java 示例代码**
```java
import java.io.*;
import java.util.*;
import java.util.concurrent.ConcurrentSkipListMap;

public class LSMTree {
    private ConcurrentSkipListMap<String, String> memTable = new ConcurrentSkipListMap<>();
    private ConcurrentSkipListMap<String, String> immutableMemTable = null;
    private List<File> sstables = new ArrayList<>();
    private static final int MAX_MEMTABLE_SIZE = 1000;

    // 写入数据
    public synchronized void put(String key, String value) {
        memTable.put(key, value);
        if (memTable.size() >= MAX_MEMTABLE_SIZE) {
            switchMemTable();
        }
    }

    // 切换MemTable并刷盘
    private void switchMemTable() {
        immutableMemTable = memTable;
        memTable = new ConcurrentSkipListMap<>();
        flushToSSTable(immutableMemTable);
        immutableMemTable = null;
    }

    // 将数据写入SSTable文件
    private void flushToSSTable(ConcurrentSkipListMap<String, String> data) {
        String filename = "sstable_" + System.currentTimeMillis() + ".txt";
        File file = new File(filename);
        try (BufferedWriter writer = new BufferedWriter(new FileWriter(file))) {
            for (Map.Entry<String, String> entry : data.entrySet()) {
                writer.write(entry.getKey() + "," + entry.getValue());
                writer.newLine();
            }
            sstables.add(file);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    // 读取数据
    public String get(String key) {
        String value = memTable.get(key);
        if (value != null) return value;

        if (immutableMemTable != null) {
            value = immutableMemTable.get(key);
            if (value != null) return value;
        }

        // 从最新SSTable开始查找
        for (int i = sstables.size() - 1; i >= 0; i--) {
            value = searchInSSTable(sstables.get(i), key);
            if (value != null) return value;
        }
        return null;
    }

    // 在SSTable中查找键
    private String searchInSSTable(File file, String key) {
        try (BufferedReader reader = new BufferedReader(new FileReader(file))) {
            String line;
            while ((line = reader.readLine()) != null) {
                String[] parts = line.split(",", 2);
                if (parts[0].equals(key)) {
                    return parts.length > 1 ? parts[1] : null;
                }
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
        return null;
    }

    // 合并SSTable文件
    public void compact() {
        if (sstables.size() < 2) return;

        List<File> oldFiles = new ArrayList<>(sstables);
        sstables.clear();
        TreeMap<String, String> mergedData = new TreeMap<>();

        // 按旧到新顺序合并,保留最新值
        for (File file : oldFiles) {
            try (BufferedReader reader = new BufferedReader(new FileReader(file))) {
                String line;
                while ((line = reader.readLine()) != null) {
                    String[] parts = line.split(",", 2);
                    String key = parts[0];
                    String value = parts.length > 1 ? parts[1] : null;
                    mergedData.put(key, value);
                }
            } catch (IOException e) {
                e.printStackTrace();
            }
        }

        // 写入新文件并清理旧文件
        String filename = "sstable_merged_" + System.currentTimeMillis() + ".txt";
        File mergedFile = new File(filename);
        try (BufferedWriter writer = new BufferedWriter(new FileWriter(mergedFile))) {
            for (Map.Entry<String, String> entry : mergedData.entrySet()) {
                writer.write(entry.getKey() + "," + entry.getValue());
                writer.newLine();
            }
            sstables.add(mergedFile);
            for (File f : oldFiles) {
                f.delete();
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    public static void main(String[] args) {
        LSMTree lsm = new LSMTree();
        // 示例操作
        lsm.put("key1", "value1");
        lsm.put("key2", "value2");
        System.out.println(lsm.get("key1")); // 输出 value1
    }
}
```

### **代码说明**
1. **写入优化**:使用跳表(`ConcurrentSkipListMap`)作为MemTable,写满后转为Immutable并刷盘。
2. **读取流程**:依次检查内存表和SSTable文件,确保获取最新数据。
3. **合并策略**:简单合并所有SSTable,生成新文件并删除旧文件,保留最新键值。

### **优化方向**
- **分层存储**:引入层级结构,每层数据量逐层递增,合并策略更精细。
- **布隆过滤器**:快速判断键是否存在于SSTable,减少IO。
- **索引优化**:为SSTable维护内存索引,加速查找。

LSM-Tree通过顺序写入和定期合并,在高写入场景下表现优异,适合日志系统、时序数据库等应用。


http://www.niftyadmin.cn/n/5869705.html

相关文章

HarmonyOS+Django实现图片上传

话不多说&#xff0c;直接看代码&#xff1a; HarmonyOS部分代码 import { router } from "kit.ArkUI" import PreferencesUtil from "../utils/PreferencesUtil" import { photoAccessHelper } from "kit.MediaLibraryKit" import fs from oh…

AI如何通过大数据分析提升制造效率和决策智能化

人工智能&#xff08;AI&#xff09;与大数据技术的融合&#xff0c;不仅重新定义了生产流程&#xff0c;更让企业实现了从“经验驱动”到“数据智能驱动”的跨越式升级。 从“模糊经验”到“精准洞察”​​ 传统制造业依赖人工经验制定生产计划&#xff0c;但面对复杂多变的市…

排序算法(3):

这是我们的最后一篇排序算法了&#xff0c;也是我们的初阶数据结构的最后一篇了。 我们来看&#xff0c;我们之前已经讲完了插入排序&#xff0c;选择排序&#xff0c;交换排序&#xff0c;我们还剩下最后一个归并排序&#xff0c;我们今天就讲解归并排序&#xff0c;另外我们还…

C语言基础要素(006):转义字符入门

转义字符入门 转义字符&#xff0c;顾名思议就是转换字符的意义&#xff1b;一个转义字符在书写上是两个或多个字符&#xff0c;但只表示一个含义。‘\n’就是一个转义字符&#xff0c;当printf函数碰到它时&#xff0c;并没有直接输出字符’\‘与’n’&#xff0c;而是将它们…

SQL命令详解之操作数据库

操作数据库 SQL是用于管理和操作关系型数据库的标准语言。数据库操作是SQL的核心功能之一&#xff0c;主要用于创建、修改和删除数据库对象&#xff0c;如数据库、表、视图和索引等。以下是SQL中常见的数据库操作命令及其功能简介&#xff1a; 1. 查询数据库 查询所有的数据库…

X64 TF位和Single-step单步调试的研究

如果在执行指令时&#xff0c;处理器检测到 EFLAGS 寄存器中的 TF 标志被设置&#xff0c;则会生成单步调试异常。该异常属于陷阱类异常&#xff0c;因为异常是在指令执行之后生成的。处理器不会在设置 TF 标志的指令之后立即生成此异常。例如&#xff0c;如果使用 POPF 指令设…

一周学会Flask3 Python Web开发-Jinja2模板继承和include标签使用

锋哥原创的Flask3 Python Web开发 Flask3视频教程&#xff1a; 2025版 Flask3 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 不管是开发网站还是后台管理系统&#xff0c;我们页面里多多少少有公共的模块。比如博客网站&#xff0c;就有公共的头部&…

策略模式环境类的实现方式对比

文章目录 1、策略模式2、聚合策略类实现方式一3、聚合策略类实现方式二4、对比5、补充&#xff1a;ApplicationContextAware接口 1、策略模式 近期工作中&#xff0c;需要处理4.x和5.x两个版本的数据&#xff0c;所以自然想到的是策略模式&#xff0c;写一个抽象类&#xff0c…