首页 > 世链号 > Bloom Filter 布隆过滤器

链讯管理局 2020-08-07

Bloom Filter 布隆过滤器

摘要：哈希表（又称作散列表）这种数据结构，通过计算元素在哈希表中的存储位置，可以快速判定该元素是否存在于该哈希表中，而无需遍历哈希表中全部元素一一进行比较。

来源：程序员 Aaron Zhu

哈希表（又称作散列表）这种数据结构，通过计算元素在哈希表中的存储位置，可以快速判定该元素是否存在于该哈希表中，而无需遍历哈希表中全部元素一一进行比较。看上去哈希表这种数据结构是一个很好的工具，但是当数据量非常大达到亿级别，再加上为了解决哈希冲突的负载因子的缘故，使得哈希表的内存空间开销非常巨大，甚至会出现机器内存都无法支撑的情况。

这种超大规模数据的场景下，如何快速判定一个元素是否在指定元素集合中？本文将详细介绍一种概率模型的数据结构——布隆过滤器（Bloom Filter）

Bloom Filter 布隆过滤器

基本原理

在哈希表中存放的是元素本身，而 Bloom Filter 在内存中是一个足够大的位数组 (Bit Array)，其最小的内存使用单位是 Bit(仅这一点，内存开销就已经大大压缩了)。元素在插入 Bloom Filter 时，使用哈希函数 (Hash Function) 计算其哈希值确定其在位数组中的位置索引，然后将位数组中的指定 Bit 从 0 置 1 即可 (如该 Bit 已经被置 1，则无需再次置 1)。当使用 Bloom Filter 判定指定元素是否存在其中时，同样利用该 Hash Function 先计算哈希值，确定其在位数组的中位置索引，然后取出该位置的值，若该 Bit 为 0，则说明该元素不存在于其中；若该 Bit 为 1，则说明该元素存在于其中

现已向一个 Bloom Filter 分别插入元素 "Hello"、"World" 为例，给出其插入过程的图解

Bloom Filter 布隆过滤器

当判断元素 "World" 是否在该 Bloom Filter 中时，先利用 Hash Function 计算其哈希值 (Hash Value = 3)，确定其在位数组的中位置索引，然后取出该位置的值 (即，BitArray[3])，其值为 1，即说明元素 "World" 存在于该 Bloom Filter 中；当判断元素 "Tony" 是否在该 Bloom Filter 中时，先利用 Hash Function 计算其哈希值 (Hash Value = 0)，确定其在位数组的中位置索引，然后取出该位置的值 (即，BitArray[0])，其值为 0，即说明元素 "Tony" 不存在于该 Bloom Filter 中

至此，Bloom Filter 模型的基本原理已经介绍完毕了。聪明的朋友可能已经发现了一个问题，即，发生哈希冲突可能会导致误判。假设我们现在对该 Bloom Filter 来判定元素 "Wow" 是否存在其中，其哈希值计算后，恰好为 3。，从上图可知 BitArray[3]=1，则那么根据上文介绍的判定规则，我们判定元素 "Wow" 存在于该 Bloom Filter，显然该判定结果与该 Bloom Filter 中仅存在 "Hello"、"World" 两个元素的真实情况不符

因此正如前文所述，其是一种概率模型的数据结构，发生哈希冲突的概率可以减少，但是无法完全避免。故判定一个元素是否存在于 Bloom Filter，如果判定结果是不存在 (False)，则一定不存在；但是如果判定结果是存在 (True)，则实际情况其实是可能存在，而不是一定存在，即假阳性。所以，实际应用中，在 Bloom Filter 一般会使用多个 Hash Function，以减小发生哈希冲突的概率。即，减小误判率 P(true)。插入一个元素时，分别计算其在各个 Hash Function 的哈希值，然后将各个哈希值对应的 Bit 的值置 1；而判定元素是否存在于 Bloom Filter 时，则要求各个哈希值对应的 Bit 的值均为 1 才行

现依然是已向一个 Bloom Filter 分别插入元素 "Hello"、"World" 为例，给出其插入过程的图解。不同的是，这次我们使用了 2 个 Hash Function，并说明提高 Hash Function 个数如何降低误判率 P(true)

Bloom Filter 布隆过滤器

假设我们现在对该 Bloom Filter 依然判定元素 "Wow" 是否存在其中，其分别使用两个 Hash Function 计算哈希值，分别为 3、0。从上图可知虽然 BitArray[3]=1 但是 BitArray[0]=0，则那么根据上文介绍的判定规则，我们即可判定元素 "Wow" 不存在于该 Bloom Filter。从这里，我们看出，提高 Hash Function 的个数可以显著降低误判率 P(true)

细谈参数设计

相信大家对于 Bloom Filter 的工作原理都有了一个基本的了解，现在我们来看看在 Bloom Filter 中涉及到的一些参数指标：

欲插入 Bloom Filter 中的元素数目 : n
Bloom Filter 误判率 : P(true)
BitArray 数组的大小 : m
Hash Function 的数目 : k

欲插入 Bloom Filter 中的元素数目 n 是我们在实际应用中可以提前获取或预估的；Bloom Filter 的误判率 P(true) 则是我们提前设定的可以接受的容错率。所以在设计 Bloom Filter 过程中，最关键的参数就是 BitArray 数组的大小 m 和 Hash Function 的数目 k，下面将给出这两个关键参数的设定依据、方法

误判率 P(true)

向 Bloom Filter 插入一个元素时，其一个 Hash Function 会将 BitArray 中的某 Bit 置为 1，故对于任一 Bit 而言，其被置为 1 的概率，那么其依然是 0 的概率 Bloom Filter 布隆过滤器；易知插入一个元素时，其 k 个 Hash Function 都未将该 Bit 置为 1 的概率。则向 Bloom Filter 插入全部 n 个元素后，该 Bit 依然为 0 的概率即为，反之，该 Bit 为 1 的概率则为

由前文可知，判定一个元素存在于 Bloom Filter，要求 k 个 Hash Function 的哈希值对应的 Bit 的值均为 1。据此，我们可以计算出其误判率 P(true)：

Bloom Filter 布隆过滤器

根据基本极限

Bloom Filter 布隆过滤器

可知：

Bloom Filter 布隆过滤器

从上式可以看出，当 BitArray 数组的大小 m 增大或欲插入 Bloom Filter 中的元素数目 n 减小时，均可以使得误判率 P(true) 下降

Hash Function 的数目 k

前文已经看到 Hash Function 数目 k 的增加可以减小误判率 P(true)，但是随着 Hash Function 数目 k 的继续增加，反而会使误判率 P(true) 上升，即误判率是一个关于 Hash Function 数目 k 的凸函数。所以当 k 在极值点时，此时误判率即为最小值

Bloom Filter 布隆过滤器

令 a = e^(n/m)，则有：

Bloom Filter 布隆过滤器

分别对上式两边，先取对数，再对 k 求一次导，可有：

Bloom Filter 布隆过滤器

易知，当 k 取极值点时，有 Bloom Filter 布隆过滤器，故将其带入上式即可求出 k

Bloom Filter 布隆过滤器

此时，我们即可以利用上式的结果，通过 m 和 n 来确定最优的 Hash Function 数目 k

BitArray 数组的大小 m

如何确定 BitArray 数组的大小 m 呢？这里，我们联立 P(true)、k 的公式，即可解出 m

Bloom Filter 布隆过滤器

联立后有：

Bloom Filter 布隆过滤器

对上式求解，可得：

Bloom Filter 布隆过滤器

此时，我们即可以利用上式的结果，通过 P(true) 和 n 来确定最优的 BitArray 数组的大小 m

应用场景

1. 爬虫

由于互联网中的网页数量巨大，如果使用哈希表保存爬虫工具访问过的 url 显然是不现实的，此时即可使用 Bloom Filter 来存储。当爬虫工具每次爬取一个网页，判定该网页是否已经被爬取过时，如果 Bloom Filter 给出的是结果是 False，则事实上一定没有被访问过，即可去爬虫；但如果 Bloom Filter 给出的是结果是 True，即，该网页已经被爬取过。虽然有一定概率出现误判，即该网页其实并未被访问过。但是鉴于互联网中网页数目浩如烟海，遗漏很小一部分网页未被爬取访问在工程上也是可以接受的

2. 缓存穿透

缓存穿透：外部发送请求去查询一个缓存中一定不存在的数据。由于未命中缓存，则外部请求将直接转发到 DB 中，当外部频繁请求、流量过大时，即可能会直接导致 DB 服务宕机

同样地，这里可以应用 Bloom Filter 来加在缓存前一级用于过滤查询请求，当判定查询数据不存在，即可直接返回请求而无需向缓存、DB 传递该请求

参考文献

《数学之美》吴军著

Tags:

BloomFilter 哈希表 BitArray

Bloom Filter 布隆过滤器

2020-08-07

关于哈希表，你该了解这些！

2020-08-07

免责声明: 世链财经作为开放的信息发布平台，所有资讯仅代表作者个人观点，与世链财经无关。如文章、图片、音频或视频出现侵权、违规及其他不当言论，请提供相关材料，发送到：2785592653@qq.com。; 风险提示：本站所提供的资讯不代表任何投资暗示。投资有风险，入市须谨慎。; 世链粉丝群：提供最新热点新闻，空投糖果、红包等福利，微信：msy2134。

快讯

2024年04月29日星期一

Bloom Filter 布隆过滤器

基本原理

细谈参数设计

误判率 P(true)

Hash Function 的数目 k

BitArray 数组的大小 m

应用场景

参考文献

Bloom Filter 布隆过滤器

关于哈希表，你该了解这些！

快讯

FTX/Alameda将744万枚1INCH转入Wintermute的Binance充值地址

韩国将正式成立专注于数字资产犯罪的调查部门

OKX Jumpstart上线RUNECOIN (RSIC•GENESIS•RUNE)

meson.network：今日将对矿工用户进行首次空投

GAL下跌触及3.7美元，24小时跌幅21.9%

HNT短时突破5.4美元，24小时涨幅15.1%

朝鲜黑客在 LinkedIn 伪装成 Fenbushi Capital 以投资和会议为名进行钓鱼行动

视频

加密市场风起云涌！布局web3市场，贝莱德崭露锋芒！

Saga：多元宇宙中的模块化、一键发链、再质押的完美结合

新火种AI|2024年这3个王炸AI，让小白轻松做副业！ #ai #ai工具 #ai视频