分享

C 实现布隆过滤器 - 从上亿条数据中查找某个记录是否存在

 禁忌石 2021-04-14

前言

Hello,大家好,欢迎来到我的 C++ 系列专题!今天的主题是布隆过滤器。

如果你没听过布隆过滤器,没关系,先来看这样一个问题:“如何从上亿条数据中查找某个记录是否存在?”你很容易想到的是数据库或者哈希表。数据库就不说了,我们来谈谈哈希表。了解过哈希表的同学都知道,哈希节点里存储了 key 和 value。如果每个节点里的 key 和 value 占用 10 个字节,那么 1 亿条数据大约就要占用 1G,对于现代计算机来说, 1G 其实不算大,但是它还是消耗了太多内存,有没有更好的解决方案呢?答案就是布隆过滤器。

布隆过滤器

布隆过滤器的实现依赖 bitset,关于什么是 bitset,请翻阅本专题系列之前的文章。

假设系统的最大数据量为 1 亿,定义一个长度为 5 亿的 bit 数组。选择一个哈希冲突比较小的哈希函数计算每一个数据的哈希值,并设置 bit 数组相应哈希值位置的值为1。为了避免哈希冲突,我们用多个不同的哈希函数来计算同一个数据,来产生不同的哈希值,同时把这多个哈希值对应的数组位置都置为1。为什么定义一个长度为 5 亿的 bitset,而不是 1 亿呢?

这也是为了减小冲突的一种方式(容量越大,冲突越小)。当一个 1 亿条数据量级,5 亿的 bit 数组占用内存才几百 M 而已,比哈希表要小一个数量级。

布隆过滤器的 C++ 实现

#include <iostream>#include <bitset>#include <array>#include <string>#include <sstream>class Entity {};class BloomFilter {public: std::bitset<20> bits;public: BloomFilter () { bits.reset(); } void Set(std::string& key) { int idx1 = Hash1(key); int idx2 = Hash2(key); int idx3 = Hash3(key); int idx4 = Hash4(key); bits[idx1] = 1; bits[idx2] = 1; bits[idx3] = 1; bits[idx4] = 1; } bool Get(std::string& key) { int idx1 = Hash1(key); int idx2 = Hash2(key); int idx3 = Hash3(key); int idx4 = Hash4(key); return bits[idx1] && bits[idx2] && bits[idx3] && bits[idx4]; } int Hash1(std::string& key) { int hash = 5381; unsigned long count = key.size(); while (count > 0) { hash += (hash << 5) + key[key.size() - count]; count--; } return (hash & 0x7FFFFFFF) % bits.size(); } int Hash2(std::string& key) { int seed = 131; int hash = 0; std::string str = key + 'key2'; unsigned long count = str.size(); while(count > 0) { hash = hash * seed + str[str.size() - count]; count--; } return (hash & 0x7FFFFFFF) % bits.size(); } int Hash3(std::string& key) { int hash = 0; std::string str = key + 'keykey3'; unsigned long count = str.size(); for (int i = 0; i < count; i++) { if ((i * 1) == 0) { hash ^= ((hash << 7) ^ (str[i] ^ hash >> 3)); } else { hash ^= (~((hash << 11) ^ (str[i]) ^ (hash >> 5))); } count--; } return (hash & 0x7FFFFFFF) % bits.size(); } int Hash4(std::string key) { int hash = 5381; std::string str = key + 'keykeykey4'; unsigned long count = str.size(); while(count > 0) { hash += (hash << 5) + (str[str.size() - count]); count--; } return (hash & 0x7FFFFFFF) % bits.size(); }};int main(){ // 插入 hash 节点 BloomFilter bf; Entity e1, e2; std::ostringstream oss; // 任意类型转为 string 类型 oss << &e1; std::string s1 = oss.str(); if (bf.Get(s1) == true) { std::cout << 'objecy e1 has existed!' << std::endl; } else { std::cout << 'insert object e1' << std::endl; bf.Set(s1); std::cout << bf.bits << std::endl; } std::ostringstream oss2; // 任意类型转为 string 类型 oss2 << &e2; std::string s2 = oss2.str(); if (bf.Get(s2) == true) { std::cout << 'objecy e2 has existed!' << std::endl; } else { std::cout << 'insert object e2' << std::endl; bf.Set(s1); std::cout << bf.bits << std::endl; } // 查找指定对象是否在数据库中 if (bf.Get(s1) == true) { std::cout << 'objecy e1 has existed!' << std::endl; } else { std::cout << 'object e1 not existing' << std::endl; } std::cin.get();}
C++ 实现布隆过滤器 - 从上亿条数据中查找某个记录是否存在

布隆过滤器示例

总结

  1. 数据结构上,布隆过滤器是一个比特流数组,其主要核心问题跟单样本的大小无关,跟样本的数量有关。
  2. 原理上,布隆过滤器类似一个hash set,用来判断某个元素(key)是否在某个集合中。
    和一般的 hash set 不同的是,这个算法无需存储 key 的值,对于每个 key,只需要 k 个比特位,每个存储一个标志,用来判断 key 是否在集合中
  3. 布隆过滤器更像一个 hash 摘要算法,像 crc,md5 这种,相当于将较长内容转换为一个数字,用来做这个内容的标识,可能有碰撞但是概率能控制在可接受的范围有人计算过不同的 hash 函数类型和 hash 函数个数情况下的哈希冲突的概率,有兴趣的同学可以自行去查阅下。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多