keep coding

事务及事务隔离性

发表于 2021-04-20 分类于 db Disqus：
本文字数： 3.3k 阅读时长 ≈ 3 分钟

事务的几个概念：

A（atomicity）原子性

是指，一个事务里的多条SQL命令要么全部执行，要么全部不执行。

C（consistency）一致性

数据更改状态：及如果数据更新成功，要和预期值一致，如果失败要保持到更新之前的状态不变。

I (isolation) 隔离性

事务的隔离性要求每个读写事务的对象对其他事务的操作对象能相互分离，即该事务提交前对其他事务都不可见，通常这使用锁来实现

D(isolation)持久性

阅读全文 »

snowflake-雪花算法

发表于 2020-05-24 更新于 2021-04-21 分类于数据结构 Disqus：
本文字数： 4.5k 阅读时长 ≈ 4 分钟

Snowflake 算法介绍
Snowflake 是由 Twitter 提出的一个分布式全局唯一 ID 生成算法，算法生成 ID 的结果是一个 64bit 大小的长整，标准算法下它的结构如下图：

1 位，不用。
二进制中最高位为符号位，我们生成的 ID 一般都是正整数，所以这个最高位固定是 0。
41 位，用来记录时间戳（毫秒）。
41 位可以表示 2^41 - 1 个数字。
也就是说 41 位可以表示 2^41 - 1 个毫秒的值，转化成单位年则是 (2^41 - 1) / (1000 * 60 * 60 * 24 * 365) 约为 69 年。
10 位，用来记录工作机器 ID。
可以部署在 2^10 共 1024 个节点，包括 5 位 DatacenterId 和 5 位 WorkerId。
12 位，序列号，用来记录同毫秒内产生的不同 id。
12 位可以表示的最大正整数是 2^12 - 1 共 4095 个数字，来表示同一机器同一时间截（毫秒)内产生的 4095 个 ID 序号。
Snowflake 可以保证：
所有生成的 ID 按时间趋势递增。
整个分布式系统内不会产生重复 ID（因为有 DatacenterId (5 bits) 和 WorkerId (5 bits) 来做区分）。

阅读全文 »

php数组的实现

发表于 2020-04-20 更新于 2021-04-21 分类于 php Disqus：
本文字数： 7.1k 阅读时长 ≈ 6 分钟

PHP 数组的底层实现是散列表（也叫 hashTable )，散列表是根据键（Key）直接访问内存存储位置的数据结构，它的 key - value 之间存在一个映射函数，可以根据 key 通过映射函数得到的散列值直接索引到对应的 value 值，无需通过关键字比较，在理想情况下，不考虑散列冲突，散列表的查找效率是非常高的，时间复杂度是 O (1)。

阅读全文 »

MySQL-InnoDB-索引的数据结构及算法原理

发表于 2019-08-12 更新于 2022-08-18 分类于 db Disqus：
本文字数： 25k 阅读时长 ≈ 22 分钟

数据结构及算法基础

索引的本质

MySQL官方对索引的定义为：索引（Index）是帮助MySQL高效获取数据的数据结构。提取句子主干，就可以得到索引的本质：索引是数据结构。

我们知道，数据库查询是数据库的最主要功能之一。我们都希望查询数据的速度能尽可能的快，因此数据库系统的设计者会从查询算法的角度进行优化。最基本的查询算法当然是顺序查找（linear search），这种复杂度为O(n)的算法在数据量很大时显然是糟糕的，好在计算机科学的发展提供了很多更优秀的查找算法，例如二分查找（binary search）、二叉树查找（binary tree search）等。如果稍微分析一下会发现，每种查找算法都只能应用于特定的数据结构之上，例如二分查找要求被检索数据有序，而二叉树查找只能应用于二叉查找树上，但是数据本身的组织结构不可能完全满足各种数据结构（例如，理论上不可能同时将两列都按顺序进行组织），所以，在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法。这种数据结构，就是索引。

看一个例子:

图1展示了一种可能的索引方式。左边是数据表，一共有两列七条记录，最左边的是数据记录的物理地址（注意逻辑上相邻的记录在磁盘上也并不是一定物理相邻的）。为了加快Col2的查找，可以维护一个右边所示的二叉查找树，每个节点分别包含索引键值和一个指向对应数据记录物理地址的指针，这样就可以运用二叉查找在(O(log_2n))的复杂度内获取到相应数据。

虽然这是一个货真价实的索引，但是实际的数据库系统几乎没有使用二叉查找树或其进化品种红黑树（red-black tree）实现的，原因会在下文介绍。

先看看几种树形结构：

搜索二叉树：每个节点有两个子节点，数据量的增大必然导致高度的快速增加，显然这个不适合作为大量数据存储的基础结构
B树：一棵m阶B树是一棵平衡的m路搜索树。最重要的性质是每个非根节点所包含的关键字个数 j 满足：┌m/2┐ - 1 <= j <= m - 1；一个节点的子节点数量会比关键字个数多1，这样关键字就变成了子节点的分割标志。一般会在图示中把关键字画到子节点中间，非常形象，也容易和后面的B+树区分。由于数据同时存在于叶子节点和非叶子结点中，无法简单完成按顺序遍历B树中的关键字，必须用中序遍历的方法。
B+树：一棵m阶B树是一棵平衡的m路搜索树。最重要的性质是每个非根节点所包含的关键字个数 j 满足：┌m/2┐ - 1 <= j <= m；子树的个数最多可以与关键字一样多。非叶节点存储的是子树里最小的关键字。同时数据节点只存在于叶子节点中，且叶子节点间增加了横向的指针，这样顺序遍历所有数据将变得非常容易
B*树：一棵m阶B树是一棵平衡的m路搜索树。最重要的两个性质是1每个非根节点所包含的关键字个数 j 满足：┌m2/3┐ - 1 <= j <= m；2非叶节点间添加了横向指针

阅读全文 »

heap堆

发表于 2019-08-07 更新于 2021-04-21 分类于数据结构 Disqus：
本文字数： 4.3k 阅读时长 ≈ 4 分钟

堆是解决优先级队列，topK问题的常见算法。

二叉堆的结构性质：堆是一个完全被填满的二叉树，一颗高位h的二叉树有 2^h到2^h+1 - 1个节点。

堆的性质：父节点的键值总是不大于它的孩子节点的键值（小顶堆）, 堆可以分为小顶堆和大顶堆。以0开头的数组中i处的左子节点为 2 * i + 1 右子节点在 2 * i + 2，子节点的父节点在（i-1）/2处。具有有序性，但是不是说对插入的值是完全按照单调的顺序排序的。

阅读全文 »