看到的解释是说
局部敏感哈希(LSH)是指这样的哈希方法:对两篇文档,如果它们相似,则它们的哈希值有较高的概率是相同的。有了文档的最小哈希签名,我们就能实现这种哈希方法。直观的做法是,将包含 b×r 个值最小哈希签名分为 b 等份,每份 r 个,对两个文档,定义 P 为两个文档至少含有1个相同份的概率,显然,文档间的 Jaccard 相似度越高,哈希签名具有相同值的位数就越多,概率 P 就越大。
还是不太明白,求算法大神能讲得直白一些,最好举例说一下。