格雷迈恩的尝试怎么做

关于格雷迈恩的尝试怎么做的知识点，泰山头条网将为你整理了下面这些知识。

格雷迈恩的尝试怎么做

格雷迈恩的尝试怎么做？这是很多人在接触去重技术时所关心的问题。下面就来详细回答一下。

什么是格雷迈恩？

格雷迈恩（Grimm）是一种基于概率算法的去重方法，其核心思想是通过 Hash（哈希）函数将数据映射至一个二进制向量中，并将该向量看作一个集合。然后，通过增加一些随机值的方式判断两个向量是否相等，最终达到去重的目的。

格雷迈恩的实现过程

下面我们来看一下，格雷迈恩是如何实现去重的。

首先，将文档变成一个由单词组成的无序集合，并将每个单词映射至一个定长的二进制数列（即 Hash 值），然后将其转换为一个 M 维的超立方体向量。这个向量的其中一维代表取模值为 1 的 Hash 函数的 Hash 值，另外一维代表取模值为2 的 Hash 函数的值，以此类推。对于每个单词产生的向量都是 M 维的，其中只有 K 个分量非零，K 叫做超立方体的维数，它以最小化维数为目标。

接着，随机产生若干个 M 维向量 H1、H2、……、Hk，其中每个分量都是 1 或 -1，这样每个 Hash 值都可以对应 H 中的一个分量。在超立方体向量中，对于一个二进制位，如果对应到 H 中的该位置上的分量是 1，那么把该位置的元素取反，否则不变。

最后，通过比较转换后的两个向量是否相等，判断文档是否重复。