infiniflow · HeyPhiS · Jan 9, 2026 · KevinHuSh · Jan 12, 2026
diff --git a/python/infinity_sdk/infinity/rag_tokenizer.py b/python/infinity_sdk/infinity/rag_tokenizer.py
@@ -346,9 +346,8 @@ def _split_by_lang(self, line):
                 s = e
                 e = s + 1
                 zh = _zh
-            if s >= len(a):
-                continue
-            txt_lang_pairs.append((a[s:e], zh))
+            if s < len(a):  # Changed from s >= len(a) to be clearer
+                txt_lang_pairs.append((a[s:min(e, len(a))], zh))  # Ensure e doesn't exceed length of a
         return txt_lang_pairs
 
     def tokenize(self, line: str) -> str: