docs(big-data): update find-common-urls (doocs#212)

yanglbme · yanglbme · commit 20c394ac8526 · 2021-02-13T09:32:41.000+08:00
diff --git a/docs/big-data/find-common-urls.md b/docs/big-data/find-common-urls.md
@@ -6,6 +6,8 @@
 
 ### 解答思路
 
+#### 1. 分治策略
+
 每个 URL 占 64B，那么 50 亿个 URL 占用的空间大小约为 320GB。
 
 > 5, 000, 000, 000 _ 64B ≈ 5GB _ 64 = 320GB
@@ -18,7 +20,19 @@
 
 接着遍历 a<sub>i</sub>( `i∈[0,999]` )，把 URL 存储到一个 HashSet 集合中。然后遍历 b<sub>i</sub> 中每个 URL，看在 HashSet 集合中是否存在，若存在，说明这就是共同的 URL，可以把这个 URL 保存到一个单独的文件中。
 
+#### 2. 前缀树
+
+一般而言，URL 的长度差距不会不大，而且前面几个字符，绝大部分相同。这种情况下，非常适合使用**字典树**（trie tree） 这种数据结构来进行存储，降低存储成本的同时，提高查询效率。
+
+> 由 [@ChunelFeng](https://github.com/ChunelFeng) 反馈。[#212](https://github.com/doocs/advanced-java/issues/212)
+
 ### 方法总结
 
+#### 分治策略
+
 1. 分而治之，进行哈希取余；
-2. 对每个子文件进行 HashSet 统计。
+1. 对每个子文件进行 HashSet 统计。
+
+#### 前缀树
+
+1. 利用字符串的公共前缀来降低存储成本，提高查询效率。