时序数据库简介（时序数据库Apache-IoTDB源码解析之文件数据块）

时序数据库简介（时序数据库Apache-IoTDB源码解析之文件数据块）

2024-11-25 02:47:49 作者:心事难说破网址:https://m.xinb2b.cn/tech/tnh240113.html

上一章聊到行式存储、列式存储的基本概念，并介绍了 TsFile 是如何存储数据以及基本概念。详情请见：

时序数据库 Apache-IoTDB 源码解析之文件格式简介（三）

打一波广告，欢迎大家访问 IoTDB 仓库(https://github.com/apache/incubator-iotdb)，求一波 Star 。欢迎关注头条号：列炮缓开局

这一章主要想聊一聊：

TsFile的文件概览TsFile的数据块TsFile文件概览

一个完整的 TsFile 是由图中的几大块组成，图中的数据块与索引块之间使用 1 个字节的分隔符 2 来进行分隔，这个分隔符的意义是当 TsFile 损坏的时候，顺序扫描 TsFile 时，依然可以判断下一个是 MetaData 是什么东西。

1. 识别符（Magic）

现在各种软件五花八门，很多软件都拥有自己的文件格式用来存储数据内容，但当硬盘上文件非常多的时候如何有效的识别是否为自己的文件，确认可以打开呢？经常用 windows 系统的朋友可能会想到用扩展名，但假如文件名丢失了，那我们如何知道这个文件是不是能被程序正确访问呢？

这时候通常会使用一个独有的字符填充在文件开头和结尾，这样程序只要访问 1 个固定长度的字符就知道这个文件是不是自己能正常访问的文件了，当然，TsFile 作为一个数据库文件，肯定需要在这个识别符上精心打造一番，它看起来是这样：

(decimal) 84 115 70 105 108 101 (hex) 54 73 46 69 6c 65 (ASCII) T s F i l e

非常 cool 。

2.文件版本（Version）

再精妙的设计也难免产生一些问题，那么就需要升级，那么文件内容也一样，有时候当你的改动特别大了，就会出现完全不兼容的两个版本，这个很好理解不过多解释。TsFile 中采用了 6 个字节来保存文件版本信息，当前 0.9.x 版本看起来就是这样：

(decimal) 48 48 48 48 48 50 (hex) 30 30 30 30 30 32 (ASCII) 0 0 0 0 0 2

3.数据块

3.1 ChunkGroup

文件的数据块中包含了多个 ChunkGroup ，其中 ChunkGroup 的概念已经在上一章聊过，它代表了设备(逻辑概念上的一个集合)一段时间内的数据，在 IoTDB 中称为 Device。

在实际的文件中，ChunkGroup是由多个 Chunk 和一个 ChunkGroupFooter 组成。其中最后一个 Chunk 的结尾和 ChunkGroupFooter 之间使用 1 个字节的分隔符 0 来做区分，ChunkGroupFooter 没有什么具体作用，不做详细解释。

3.2 Chunk

一个 ChunkGroup 中包含了多个 Chunk，它代表了测点数据(逻辑概念上的某一类数据的集合,如体温数据)，在 IoTDB 中称为 Measurement。

在实际文件中 Chunk 是由 ChunkHeader 和多个 Page 组成，并被 1 个字节的分隔符 1 包裹。ChunkHeader中主要保存了当前 Chunk 的数据类型、压缩方式、编码方式、包含的 Pages 占用的字节数等信息。

3.3 Page

一个 Chunk 中包含多个 Page，它是一个数据组织方式，数据大小被限制在 64K 左右。

在实际文件中由 PageHeader 和 PageData 组成。其中 PageHeader 里主要保存了，当前 page 里的一些预聚合信息，包含了最大值、最小值、开始时间、结束时间等。他的存在是非常有意义的，因为当某些特定场景的读时候，不必要解开 page 的数据就能够得到结果，比如说 selece 体温 from 王五 where time > 1580950800 ，当读到 PageHeader 的时候，找到 startTime 和 endTime 就能判断是否可以使用当前 page。这个聚合信息的结构同样出现在索引块中，下一章再具体聊这个聚合结构。

3.4 PageData

一个 Page 中包含了一个 PageData，里面有两个数组：时间数组和值数组，且这两个数组的下标是对齐的，也就是时间数组中的第一个对应值数组中的第一个。举个例子：

timeArray: [1,2,3,4]valueArray: ['a', 'b', 'c', 'd']

在page中就是这样保存的数据，其中 1 代表了时间 1970-01-01 08:00:00 后的 1 毫秒，对应的值就是 'a'。

数据块展示

我们继续使用上一章聊到的示例数据来展示真正的TsFile中是如何保存的。

当数据被写入 TsFile 中，大概就是下面一个展示的情况，这里省略了索引部分。

POSITION|CONTENT -------- ------- 0|[magic head] TsFile 6|[version number] 000002 // 因为 6个字节的magic 6个字节的 version 所以 chunkGroup 从 12 开始|||||||||||||||||||||[Chunk Group] of wangwu begins at pos 12, ends at pos 253, version:0, num of Chunks:2 // 这里展示的是 ChunkHeader 中保存的信息 12|[Chunk] of xinlv, numOfPoints:1, time range:[1580950800,1580950800], tsDataType:INT32, [minValue:100,maxValue:100,firstValue:100,lastValue:100,sumValue:100.0]|[marker] 1 // chunk 的真正开始是从这个分隔符 1 开始的|[ChunkHeader] // header 的数据在上面展示了|1 pages //这里保存的具体数据|time:1580950800; value:100 // 下一个 chunk 121|[Chunk] of tiwen, numOfPoints:1, time range:[1580950800,1580950800], tsDataType:float, [minValue:36.7,maxValue:36.7,firstValue:36.7,lastValue:36.7,sumValue:36.70000076293945]|[marker] 1|[ChunkHeader]|1 pages|time:1580950800; value:36.7 230|[Chunk Group Footer]|[marker] 0 // chunkFooter 和 chunk 使用 0 作为分隔|[deviceID] wangwu|[dataSize] 218|[num of chunks] 2|||||||||||||||||||||[Chunk Group] of wangwu ends

回想我们的查询语句 select 体温 from 王五 , 当经历过索引之后会得到 offset 的值等于 121 ，这时候我们只需要调用reader.seek(121)，从这里开始就是所有体温数据的开始点，从这里一直读到 230 的 ChunkGroupFooter 结构的时候，就可以返回给用户数据了。

有兴趣自己实验的朋友可以，引入 TsFile 的包，自行实验，下面给出测试代码：

<dependency> <groupId>org.apache.iotdb</groupId> <artifactId>tsfile</artifactId> <version>0.9.1</version></dependency>

public static void main(String[] args) throws IOException, WriteProcessException { MeasurementSchema chunk1 = new MeasurementSchema("tiwen", TSDataType.FLOAT, TSEncoding.PLAIN); MeasurementSchema chunk2 = new MeasurementSchema("xinlv", TSDataType.INT32, TSEncoding.PLAIN); Schema chunks = new Schema(); chunks.registerMeasurement(chunk1); chunks.registerMeasurement(chunk2); TsFileWriter writer = new TsFileWriter(new File("test"), chunks); RowBatch chunkGroup = chunks.createRowBatch("wangwu"); long[] timestamps = chunkGroup.timestamps; Object[] values = chunkGroup.values; timestamps[0] = 1580950800; float[] tiwen = (float[]) values[0]; int[] xinlv = (int[]) values[1]; // 写入王五的体温 tiwen[0] = 36.7f; //写入王五的心率 xinlv[0] = 100; chunkGroup.batchSize ; timestamps[1] = 1580950800; // 写入第二条王五的体温 tiwen[1] = 36.6f; //写入第二条王五的心率 xinlv[1] = 90; chunkGroup.batchSize ; writer.write(chunkGroup); writer.close(); }

执行完成之后你可以使用 IoTDB 中的 TsFileSketchTool 来查看文件结构，得到文中示例的展示结果；或者使用 od 等工具查看，祝玩儿的开心。IoTDB 0.9.1 版本可以从官方网站(http://iotdb.apache.com)下载

这一章聊到了 TsFile 分为了数据块和索引块，并且介绍了数据块的具体组成部分和查询逻辑。那么索引块是什么结构，怎样完成了在大量混杂的数据中搜索到的想要的数据，请持续关注。

肺癌为什么会出现后背疼（后背总疼或是肺癌前兆）
2024-11-25后背总疼或是肺癌前兆陈先生的好朋友，林先生几个月前去世了，原因是肺癌晚期，治疗无效这让陈先生感到十分害怕原来林先生在被诊断为肺癌之前，一直有后背痛的情况，但当时林先生并没有在意，只觉得是自己最近上班可能太忙了，过度劳累引。

吊兰喜阴还是喜欢阳光（吊兰喜阴）
2024-11-25吊兰喜阴吊兰是一种生活中常见的观叶植物，它的叶子细长而优雅，微风飘过，很是飘逸，具有较高的观赏价值吊兰具有净化空气的能力，例如对一氧化碳、甲醛等有害气体，都可以吸收，被花友称为“空气净化器”此外，吊兰还非常便。

十二青铜兽首集齐了吗（5件圆明园十二生肖兽首明起在沪展出）
2024-11-255件圆明园十二生肖兽首明起在沪展出9月26日，包括圆明园海晏堂5件十二生肖青铜兽首在内的一系列海外回流珍贵文物，将在上海闵行展出澎湃新闻（www.thepaper.cn）记者25日从上海市闵行区获悉，闵行区博物馆与北京市圆明园、保利艺。

孩子考满分妈妈的反应（妈妈奖励13岁儿子考第一却被暖哭）
2024-11-25妈妈奖励13岁儿子考第一却被暖哭#我想对你说#男孩考第一要榴莲奖励却反手送妈妈12月7日，浙江嘉兴，一名13岁男孩考了班级第一名，让妈妈买榴莲回来庆祝拿到榴莲的儿子对妈妈说，学习是为自己，考第一名无需奖励他知道妈妈最爱吃榴莲，要感谢。

武汉武商梦时代广场开业时间（武汉武商广场进行品牌调整）
2024-11-25武汉武商广场进行品牌调整随着武汉国际广场的品牌调整进入尾声，与其紧紧相连的武商广场也进行了近期的一次大的品牌调整，除了新引进一些潮流品牌之外，很多已有的品牌也更换了店铺位置，也都已经重新开业，接下来带你看看调整后的武商广场有。

男人更年期的10大征兆（男人若出现3个症状）
2024-11-25男人若出现3个症状文章纯属原创，版权归本作者所有，欢迎个人转发分享当我们看到一个中年妇女发脾气的时候，一般就会说，这个女人肯定是更年期到了，确实是女人的更年期非常的明显，激素变化，月经停止而且脾气会越来越暴躁菁妈前几天。

这是托尼贾一部很强悍的动作电影（盘点5部托尼贾主演的动作电影）
2024-11-25盘点5部托尼贾主演的动作电影1.《曼谷保镖》Wongkhom是泰国富商Choti的保镖在一次与外商签约时，刺客发动突击；Wongkhom虽奋力护主，但因出了差错，使Choti身中两枪，失血过多致死虽然遗孀Rattana认为Won。

描写情绪的句子（描写情绪的句子集锦）
2024-11-25描写情绪的句子集锦快乐像阳光，像雨露，播撒在世界的每一个角落；像清风，像雾岚，萦绕在我们身边快乐无处不在把快乐的香水喷洒在别人身上时，总有几滴溅到自己大忙人往往是最快乐的人，因为他没时间去想自己快不快乐我不想让别人看见。

爱迪生是怎么发明出发动机的（童年被称为低能儿）
2024-11-25童年被称为低能儿一个人一生中能有一项发明已是了不起的事，而他一生中却取得了一千多项发明的专利权就是这样一个发明天才，在童年时却被人视为低能儿名副其实的发明大王——美国发明家爱迪生爱迪生于1847年2月11日出生在美国。

伤感与落寞的句子心酸落寞的伤感句子
2024-11-25伤感与落寞的句子心酸落寞的伤感句子一、你一定要记得，在你的青春里，也有那么个女孩，为你做尽浪漫事，为你受尽委屈，拼上万分热情也没能留住你二、有些感情就像废纸篓里的文件，不想看到，不忍清空三、一个人总要走陌生的路，看陌生的风景，听陌生的。

上海市对返沪人员的最新规定（上海调整离沪来沪返沪人员管控措施）
2024-11-25上海调整离沪来沪返沪人员管控措施东方网记者傅文婧、柏可林7月3日报道：根据国家第九版防控方案，上海离沪来沪返沪人员管控措施将有哪些变化？近期多地出现疫情，上海对其来沪人员有无针对性防控措施？在7月3日举行的上海市新冠肺炎疫情防控新闻。

法治中国如何坚守公平正义（媒体关注法治日报）
2024-11-25媒体关注法治日报△2022年7月30日《法治日报》头版2012年6月9日这个日子，陆宜峰铭记一生这一天，他参与起草的“法治湖北”内容出现在湖北第十次党代会工作报告中十年，弹指一挥间机构改革后，陆宜峰从湖北省政府原法制。