chore: Update docs

KenyonY · KenyonY · commit 6db13fffb7bd · 2024-01-14T12:42:52.000+08:00
diff --git a/.github/img/benchmark.png b/.github/img/benchmark.png
diff --git a/README.md b/README.md
@@ -72,6 +72,7 @@ pip install flaxkv
 ```python
 from flaxkv import FlaxKV
 import numpy as np
+import pandas as pd
 
 db = FlaxKV('test_db')
 """
@@ -89,6 +90,7 @@ db['a dict'] = {'a': 1, 'b': [1, 2, 3]}
 db['a list'] = [1, 2, 3, {'a': 1}]
 db[(1, 2, 3)] = [1, 2, 3]
 db['numpy array'] = np.random.randn(100, 100)
+db['df'] = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]})
 
 db.setdefault('key', 'value_2')
 assert db['key'] == 'value'
@@ -113,7 +115,7 @@ print(len(db))
 ### Benchmark
 ![benchmark](.github/img/benchmark.png)
 
-Test Content: Write and read traversal for N=10,000 numpy array vectors (each vector is 1000-dimensional). 
+Test Content: Write and read traversal for N numpy array vectors (each vector is 1000-dimensional). 
 
 Execute the test:
 ```bash
diff --git a/README_ZH.md b/README_ZH.md
@@ -40,7 +40,7 @@
 
 
 
-`flaxkv` 提供了一个非常类似字典的接口，用于与高性能键值数据库进行交互。更重要的是，它作为持久化数据库提供了接近原生字典(内存)存取的性能。
+`flaxkv` 提供了一个非常类似字典的接口，用于与高性能键值数据库进行交互。更重要的是，它作为持久化数据库提供了接近原生字典(内存)的写入性能。
 你可以直接将它当成python字典来使用而不必担心在任何时候操作数据库时会阻塞你的用户进程。
 
 ---
@@ -75,6 +75,7 @@ pip install flaxkv
 ```python
 from flaxkv import FlaxKV
 import numpy as np
+import pandas as pd
 
 db = FlaxKV('test_db')
 
@@ -93,6 +94,7 @@ db['a dict'] = {'a': 1, 'b': [1, 2, 3]}
 db['a list'] = [1, 2, 3, {'a': 1}]
 db[(1, 2, 3)] = [1, 2, 3]
 db['numpy array'] = np.random.randn(100, 100)
+db['df'] = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]})
 
 db.setdefault('key', 'value_2')
 assert db['key'] == 'value'
@@ -105,7 +107,7 @@ db.pop("key1")
 assert 'key1' not in db
 
 for key, value in db.items():
-    print(key, value)
+  print(key, value)
 
 print(len(db))
 ```
@@ -119,7 +121,7 @@ print(len(db))
 ### Benchmark
 ![benchmark](.github/img/benchmark.png)
 
-测试内容：对N=10,000 条1000维的numpy array进行写入和遍历读取
+测试内容：对N条1000维的numpy array进行写入和遍历读取
 
 执行测试:
 ```bash
diff --git a/benchmark/run.py b/benchmark/run.py
@@ -23,17 +23,30 @@
 
 
 def prepare_data(n, key_only=False):
-    import numpy as np
+    global large_df
 
     for i in range(n):
         if key_only:
             yield f'vector-{i}'
         else:
             yield (f'vector-{i}', np.random.rand(1000))
+            # yield (f'vector-{i}', large_df)
+
+
+def gen_large_df():
+    global large_df
+    num_rows = 100_000
+    num_cols = 10
+    data = {
+        f'col{i}': random.sample(range(num_rows), num_rows) for i in range(num_cols)
+    }
+    large_df = pd.DataFrame(data)
 
 
 @pytest.fixture(scope="session", autouse=True)
 def startup_and_shutdown(request):
+    # gen_large_df()
+
     process = subprocess.Popen(["flaxkv", "run"])
     try:
         wait_for_server_to_start(url="http://localhost:8000/healthz")
@@ -61,7 +74,7 @@ def process_result():
         "RocksDict",
         "Shelve",
         "Sqlite3",
-        "flaxkv-LMDB",
+        # "flaxkv-LMDB",
         "flaxkv-LevelDB",
         # "flaxkv-REMOTE",
     ]
@@ -105,6 +118,9 @@ def benchmark(db, db_name, n=200):
         db.write_immediately()
     write_cost = mt.show_interval(f"{db_name} write")
 
+    if isinstance(db, BaseDBDict):
+        db.write_immediately(block=True)
+
     mt.start()
     for key in db.keys():
         ...