add ability to indicate input sample freq for the prime wav being offered to AudioLM. may need to make this required, unless if prompt audio is offered as an audio path

lucidrains · lucidrains · commit 9fd9e45107f1 · 2023-08-01T10:54:22.000-07:00
diff --git a/README.md b/README.md
@@ -345,6 +345,8 @@ $ accelerate launch train.py
 
 - [ ] design a hierarchical coarse and fine transformer
 - [ ] investigate <a href="https://openreview.net/forum?id=H-VlwsYvVi">spec decoding</a>, first test in x-transformers, then port over if applicable
+- [ ] accept prime wave in `AudioLM` as a path to an audio file, and auto resample for semantic vs acoustic
+
 - [ ] redo the positional embeddings in the presence of groups in residual vq
 - [ ] test with speech synthesis for starters
 - [ ] cli tool, something like `audiolm generate <wav.file | text>` and save generated wav file to local directory
diff --git a/audiolm_pytorch/audiolm_pytorch.py b/audiolm_pytorch/audiolm_pytorch.py
@@ -1194,6 +1194,7 @@ def generate(
         text: Optional[List[str]] = None,
         text_embeds = None,
         prime_wave = None,
+        prime_wave_input_sample_hz = None,
         prime_ids = None,
         batch_size = 1,
         cond_scale = 3,
@@ -1209,7 +1210,11 @@ def generate(
         if exists(prime_wave):
             assert not exists(prime_ids)
             assert exists(self.wav2vec)
-            ids = self.wav2vec(prime_wave, flatten = False)
+            ids = self.wav2vec(
+                prime_wave,
+                flatten = False,
+                input_sample_hz = prime_wave_input_sample_hz
+            )
         elif exists(prime_ids):
             ids = prime_ids
         else:
@@ -1375,6 +1380,7 @@ def generate(
         *,
         semantic_token_ids,
         prime_wave: Optional[Tensor] = None,
+        prime_wave_input_sample_hz = None,
         prime_coarse_token_ids: Optional[Tensor] = None,
         text: Optional[List[str]] = None,
         text_embeds = None,
@@ -1400,7 +1406,13 @@ def generate(
             assert exists(self.codec)
             with torch.inference_mode():
                 self.codec.eval()
-                _, indices, _ = self.codec(prime_wave, return_encoded = True)
+
+                _, indices, _ = self.codec(
+                    prime_wave,
+                    return_encoded = True,
+                    input_sample_hz = prime_wave_input_sample_hz
+                )
+
                 coarse_token_ids = indices[..., :self.num_coarse_quantizers]
                 coarse_token_ids = rearrange(coarse_token_ids, 'b ... -> b (...)')
         else:
@@ -1621,6 +1633,7 @@ def generate(
         *,
         coarse_token_ids,
         prime_wave: Optional[Tensor] = None,
+        prime_wave_input_sample_hz = None,
         prime_fine_token_ids: Optional[Tensor] = None,
         text: Optional[List[str]] = None,
         text_embeds = None,
@@ -1657,7 +1670,11 @@ def generate(
             assert exists(self.codec)
             with torch.inference_mode():
                 self.codec.eval()
-                _, token_ids, _ = self.codec(prime_wave, return_encoded = True)
+                _, token_ids, _ = self.codec(
+                    prime_wave,
+                    return_encoded = True,
+                    input_sample_hz = prime_wave_input_sample_hz
+                )
 
             fine_token_ids = token_ids[..., self.num_coarse_quantizers:]
             fine_token_ids = rearrange(fine_token_ids, 'b ... -> b (...)')
@@ -1883,6 +1900,7 @@ def forward(
         text: Optional[List[str]] = None,
         text_embeds: Optional[Tensor] = None,
         prime_wave = None,
+        prime_wave_input_sample_hz = None,
         max_length = 2048,
         return_coarse_generated_wave = False,
         mask_out_generated_fine_tokens = False
@@ -1900,13 +1918,15 @@ def forward(
             text_embeds = text_embeds if self.semantic_has_condition else None,
             batch_size = batch_size,
             prime_wave = prime_wave,
+            prime_wave_input_sample_hz = prime_wave_input_sample_hz,
             max_length = max_length
         )
 
         coarse_token_ids_or_recon_wave = self.coarse.generate(
             text_embeds = text_embeds if self.coarse_has_condition else None,
             semantic_token_ids = semantic_token_ids,
             prime_wave = prime_wave,
+            prime_wave_input_sample_hz = prime_wave_input_sample_hz,
             reconstruct_wave = return_coarse_generated_wave
         )
 
@@ -1917,6 +1937,7 @@ def forward(
             text_embeds = text_embeds if self.fine_has_condition else None,
             coarse_token_ids = coarse_token_ids_or_recon_wave,
             prime_wave = prime_wave,
+            prime_wave_input_sample_hz = prime_wave_input_sample_hz,
             reconstruct_wave = True,
             mask_out_generated_fine_tokens = mask_out_generated_fine_tokens
         )
diff --git a/audiolm_pytorch/version.py b/audiolm_pytorch/version.py
@@ -1 +1 @@
-__version__ = '1.2.22'
+__version__ = '1.2.23'

Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-__version__ = '1.2.22'`
	`1`	`+__version__ = '1.2.23'`