如何在大数据集中删除重复项

sureshkon

4.13/5 (4投票s)

2016年4月3日

CPOL

3分钟阅读

16246

处理大型数据集时利用概率数据结构

引言

处理大型数据集通常是令人畏惧的。由于计算资源有限，尤其是内存，即使是执行一些基本任务，例如计算不同元素的数量、成员资格检查、过滤重复元素、查找最小值、最大值、前 N 个元素，或者执行并集、交集、相似度等集合运算，都可能具有挑战性。

概率数据结构在这些情况下非常有用，因为它们可以极大地减少内存需求，同时仍能提供可接受的准确性。此外，由于查找（和添加）依赖于多个独立的哈希函数，可以并行化，因此您还可以获得时间效率。

我们广泛使用诸如 Bloom 过滤器、MinHash、Count-min sketch、HyperLogLog 等结构来解决各种问题。下面展示了一个相当直接的例子。

问题

我们为客户管理移动推送通知，我们需要防止的一种情况是，为同一个营销活动向同一个用户发送多个通知。推送通知是根据移动平台生成的推送通知令牌路由到各个设备/用户的。由于它们的大小（从 32 位到 4KB 不等），我们无法有效地索引推送令牌或将它们用作主要的用户密钥。

在某些移动平台上，当用户卸载然后重新安装同一个应用程序时，我们会丢失主要用户密钥，并为该设备创建一个新的用户配置文件。通常情况下，在这种情况下，移动平台会在重新安装时为该用户生成一个新的推送通知令牌。然而，这并非总是保证的。因此，在少数情况下，我们系统中可能会出现多个用户记录拥有相同的推送通知令牌。

因此，为了防止为同一个营销活动向同一个用户发送多个通知，我们需要从数亿到数十亿条记录的总数据集中过滤掉相对少量的重复推送令牌。为了让您有一个比例概念，仅仅过滤 1 亿个推送令牌所需的内存是 100M * 256 = 25 GB！