jk-codertech
diff --git a/‎.gitignore
Lines changed: 1 addition & 0 deletions b/‎.gitignore
Lines changed: 1 addition & 0 deletions
diff --git a/‎authors.yaml
Lines changed: 11 additions & 6 deletions b/‎authors.yaml
Lines changed: 11 additions & 6 deletions
diff --git a/‎examples/Speech_transcription_methods.ipynb
Lines changed: 672 additions & 0 deletions b/‎examples/Speech_transcription_methods.ipynb
Lines changed: 672 additions & 0 deletions
diff --git a/‎examples/data/sample_audio_files/18_sec_food_story.wav
3.1 MB b/‎examples/data/sample_audio_files/18_sec_food_story.wav
3.1 MB
diff --git a/‎examples/data/sample_audio_files/6_sec_female_speaker.wav
608 KB b/‎examples/data/sample_audio_files/6_sec_female_speaker.wav
608 KB
diff --git a/‎examples/data/sample_audio_files/lotsoftimes-78085.mp3
322 KB b/‎examples/data/sample_audio_files/lotsoftimes-78085.mp3
322 KB
diff --git a/‎examples/imgs/agents_sdk_transcription.png
15.2 KB b/‎examples/imgs/agents_sdk_transcription.png
15.2 KB
diff --git a/‎examples/imgs/realtime_api_transcription.png
40.8 KB b/‎examples/imgs/realtime_api_transcription.png
40.8 KB
diff --git a/‎examples/imgs/speech-to-text-not-streaming.png
16.7 KB b/‎examples/imgs/speech-to-text-not-streaming.png
16.7 KB
diff --git a/‎examples/imgs/speech-to-text-streaming.png
22.9 KB b/‎examples/imgs/speech-to-text-streaming.png
22.9 KB
diff --git a/‎examples/mermaid/agents_sdk_transcription.mmd
Lines changed: 8 additions & 0 deletions b/‎examples/mermaid/agents_sdk_transcription.mmd
Lines changed: 8 additions & 0 deletions
diff --git a/‎examples/mermaid/realtime_api_transcription.mmd
Lines changed: 13 additions & 0 deletions b/‎examples/mermaid/realtime_api_transcription.mmd
Lines changed: 13 additions & 0 deletions
diff --git a/‎examples/mermaid/speech-to-text-not-streaming.mmd
Lines changed: 7 additions & 0 deletions b/‎examples/mermaid/speech-to-text-not-streaming.mmd
Lines changed: 7 additions & 0 deletions
diff --git a/‎examples/mermaid/speech-to-text-streaming.mmd
Lines changed: 9 additions & 0 deletions b/‎examples/mermaid/speech-to-text-streaming.mmd
Lines changed: 9 additions & 0 deletions
diff --git a/‎registry.yaml
Lines changed: 10 additions & 0 deletions b/‎registry.yaml
Lines changed: 10 additions & 0 deletions
@@ -140,6 +140,7 @@ examples/fine-tuned_qa/local_cache/*
 
 # PyCharm files
 .idea/
+.cursorignore
 
 # VS Code files
 .vscode/
@@ -3,6 +3,11 @@
 # You can optionally customize how your information shows up cookbook.openai.com over here.
 # If your information is not present here, it will be pulled from your GitHub profile.
 
+minh-hoque:
+  name: "Minhajul Hoque"
+  website: "https://www.linkedin.com/in/minhajul-hoque-83242b163/"
+  avatar: "https://avatars.githubusercontent.com/u/84698472?v=4"
+
 shikhar-cyber:
   name: "Shikhar Kwatra"
   website: "https://www.linkedin.com/in/shikharkwatra/"
@@ -126,13 +131,13 @@ aaronwilkowitz-openai:
 charuj:
   name: "Charu Jaiswal"
   website: "https://www.linkedin.com/in/charu-j-8a866471"
-  avatar: "https://avatars.githubusercontent.com/u/18404643?v=4" 
+  avatar: "https://avatars.githubusercontent.com/u/18404643?v=4"
 
 rupert-openai:
   name: "Rupert Truman"
   website: "https://www.linkedin.com/in/rupert-truman/"
   avatar: "https://avatars.githubusercontent.com/u/171234447"
-  
+
 keelan-openai:
   name: "Keelan Schule"
   website: "https://www.linkedin.com/in/keelanschule/"
@@ -171,8 +176,8 @@ evanweiss-openai:
 girishd:
   name: "Girish Dusane"
   website: "https://www.linkedin.com/in/girishdusane/"
-  avatar: "https://avatars.githubusercontent.com/u/272708"   
-  
+  avatar: "https://avatars.githubusercontent.com/u/272708"
+
 lxing-oai:
   name: "Luke Xing"
   website: "https://www.linkedin.com/in/lukexing/"
@@ -227,7 +232,7 @@ erickgort:
   name: "Erick Gort"
   website: "https://www.linkedin.com/in/erick-gort-32ab1678/"
   avatar: "https://avatars.githubusercontent.com/u/189261906?v=4"
-  
+
 kylecote-tray:
   name: "Kyle Cote"
   website: "https://github.com/kylecote-tray"
@@ -297,7 +302,7 @@ rzhao-openai:
   name: "Randy Zhao"
   website: "https://www.linkedin.com/in/randy-zhao-27433616b"
   avatar: "https://avatars.githubusercontent.com/u/208724779?v=4"
-  
+
 brandonbaker-openai:
   name: "Brandon Baker"
   website: "https://www.linkedin.com/in/brandonbaker18"
 
@@ -0,0 +1,8 @@
+```{mermaid}
+graph LR
+    Mic  -- "PCM frames" --> VP["VoicePipeline"]
+    VP   -- "VAD & resample" --> Buf["Sentence buffer"]
+    Buf  --> GPT["gpt-4o-transcribe"]
+    GPT  --> Agent["Agent callbacks"]
+    Agent -- "print / reply" --> App
+```
@@ -0,0 +1,13 @@
+```mermaid
+sequenceDiagram
+    participant Mic
+    participant App
+    participant WS as "WebSocket"
+    participant OAI as "Realtime Server"
+
+    Mic ->> App: 20–40 ms PCM frames
+    App ->> WS: Base64-encoded chunks<br/>input_audio_buffer.append
+    WS  ->> OAI: Audio stream
+    OAI -->> WS: JSON transcription events<br/>(partial & complete)
+    WS  -->> App: Transcript updates
+```
@@ -0,0 +1,7 @@
+```mermaid
+flowchart LR
+    AudioFile["Audio file<br/>(WAV • MP3 • FLAC)"] --> Upload["Binary upload"]
+    Upload --> API["/v1/audio/transcriptions"]
+    API --> JSONOutput["JSON transcription<br/>+ metadata"]
+    JSONOutput --> App["Your application"]
+```
@@ -0,0 +1,9 @@
+```mermaid
+flowchart LR
+    A["Finished audio file<br/>(WAV • MP3 • FLAC • …)"]
+    B["OpenAI STT engine<br/>(gpt-4o-transcribe)"]
+    C["Your application / UI"]
+
+    A -->|HTTP POST<br/>/v1/audio/transcriptions<br/>stream=true| B
+    B -->|chunked HTTP response<br/>partial & final transcripts| C
+```
@@ -4,6 +4,16 @@
 # should build pages for, and indicates metadata such as tags, creation date and
 # authors for each page.
 
+- title: Comparing Speech-to-Text Methods with the OpenAI API
+  path: examples/Speech_transcription_methods.ipynb
+  date: 2025-04-29
+  authors:
+    - minh-hoque
+  tags:
+    - audio
+    - speech
+    - agents-sdk
+
 - title: Practial Guide for Model Selection for Real‑World Use Cases
   path: examples/partners/model_selection_guide/model_selection_guide.ipynb
   date: 2025-05-05