From 9990a8969832f100f2ee39c4168f381eb7633890 Mon Sep 17 00:00:00 2001
From: EvanWu <850123119@qq.com>
Date: Wed, 30 Jul 2025 21:30:49 +0800
Subject: [PATCH 01/13] =?UTF-8?q?feat:=20=E6=B7=BB=E5=8A=A0=20TTS=20?=
 =?UTF-8?q?=E5=BC=95=E6=93=8E=E9=85=8D=E7=BD=AE=EF=BC=8C=E6=9B=B4=E6=96=B0?=
 =?UTF-8?q?=E9=98=BF=E9=87=8C=E5=B7=B4=E5=B7=B4=E8=AF=AD=E9=9F=B3=E6=8E=A5?=
 =?UTF-8?q?=E5=8F=A3=EF=BC=8C=E6=94=AF=E6=8C=81=E5=AE=9E=E6=97=B6=E8=AF=AD?=
 =?UTF-8?q?=E9=9F=B3=E5=90=88=E6=88=90?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 .yarnrc.yml                                   |   1 +
 app/client/platforms/alibaba.ts               | 132 +++++++++++++++++-
 app/components/chat.tsx                       |   5 +-
 .../realtime-chat/realtime-config.tsx         |   8 +-
 app/components/tts-config.tsx                 |  36 +++--
 app/constant.ts                               |  69 +++++++--
 app/store/config.ts                           |  17 ++-
 app/utils/audio.ts                            |  12 +-
 package.json                                  |   6 +-
 9 files changed, 241 insertions(+), 45 deletions(-)
 create mode 100644 .yarnrc.yml
diff --git a/.yarnrc.yml b/.yarnrc.yml
new file mode 100644
index 000000000..3186f3f07
--- /dev/null
+++ b/.yarnrc.yml
@@ -0,0 +1 @@
+nodeLinker: node-modules
diff --git a/app/client/platforms/alibaba.ts b/app/client/platforms/alibaba.ts
index 4875e5c02..19d020ddc 100644
--- a/app/client/platforms/alibaba.ts
+++ b/app/client/platforms/alibaba.ts
@@ -1,5 +1,5 @@
 "use client";
-import { ApiPath, Alibaba, ALIBABA_BASE_URL } from "@/app/constant";
+import { ApiPath, Alibaba, ALIBABA_BASE_URL, REQUEST_TIMEOUT_MS } from "@/app/constant";
 import {
   useAccessStore,
   useAppConfig,
@@ -89,8 +89,66 @@ export class QwenApi implements LLMApi {
     return res?.output?.choices?.at(0)?.message?.content ?? "";
   }
 
-  speech(options: SpeechOptions): Promise<ArrayBuffer> {
-    throw new Error("Method not implemented.");
+  async speech(options: SpeechOptions): Promise<AudioBuffer> {
+    const requestPayload = {
+        model: options.model,
+        input: {
+            text: options.input,
+            voice: options.voice,
+        },
+        speed: options.speed,
+        response_format: options.response_format,
+    };
+    console.log("[Request] alibaba speech payload: ", requestPayload);
+    const controller = new AbortController();
+    options.onController?.(controller);
+    try {
+        const speechPath = this.path(Alibaba.SpeechPath);
+        const speechPayload = {
+          method: "POST",
+          body: JSON.stringify(requestPayload),
+          signal: controller.signal,
+          headers: {
+            ...getHeaders(),
+            "X-DashScope-SSE": "enable",
+          },
+        };
+  
+        // make a fetch request
+        const requestTimeoutId = setTimeout(
+          () => controller.abort(),
+          REQUEST_TIMEOUT_MS,
+        );
+  
+        const res = await fetch(speechPath, speechPayload);
+
+        const reader = res.body!.getReader();
+        const decoder = new TextDecoder();
+        let buffer = "";
+        let base64 = "";
+        while (true) {
+            const { done, value } = await reader.read();
+            if (done) break;
+            buffer += decoder.decode(value, { stream: true, });
+                const lines = buffer.split('\n');
+                buffer = lines.pop() || '';
+
+                for (const line of lines) {
+                    if (line.startsWith('data:')) {
+                        const data = line.slice(5);
+                        const json = JSON.parse(data);
+                        base64 += json.output.audio.data;
+                    }
+                }
+        }
+        const audioBuffer = await this.PCMBase64ToAudioBuffer(base64);
+        clearTimeout(requestTimeoutId);
+        reader.releaseLock();
+        return audioBuffer;
+      } catch (e) {
+        console.log("[Request] failed to make a speech request", e);
+        throw e;
+      }
   }
 
   async chat(options: ChatOptions) {
@@ -273,5 +331,71 @@ export class QwenApi implements LLMApi {
   async models(): Promise<LLMModel[]> {
     return [];
   }
+
+  // 播放 PCM base64 数据
+  private async PCMBase64ToAudioBuffer(base64Data: string) {
+    try {
+        // 解码 base64
+        const binaryString = atob(base64Data);
+        const bytes = new Uint8Array(binaryString.length);
+        for (let i = 0; i < binaryString.length; i++) {
+            bytes[i] = binaryString.charCodeAt(i);
+        }
+
+        // 转换为 AudioBuffer
+        const audioBuffer = await this.convertToAudioBuffer(bytes);
+        
+        return audioBuffer;
+    } catch (error) {
+        console.error('播放 PCM 数据失败:', error);
+        throw error;
+    }
+  }
+  
+   // 将 PCM 字节数据转换为 AudioBuffer
+   private convertToAudioBuffer(pcmData: Uint8Array) {
+    const audioContext = new (window.AudioContext || window.webkitAudioContext)();
+    const channels = 1;
+    const sampleRate = 24000;
+    return new Promise<AudioBuffer>((resolve, reject) => {
+        try {
+            let float32Array;
+            // 16位 PCM 转换为 32位浮点数
+            float32Array = this.pcm16ToFloat32(pcmData);
+
+            // 创建 AudioBuffer
+            const audioBuffer = audioContext.createBuffer(
+                channels,
+                float32Array.length / channels,
+                sampleRate
+            );
+
+            // 复制数据到 AudioBuffer
+            for (let channel = 0; channel < channels; channel++) {
+                const channelData = audioBuffer.getChannelData(channel);
+                for (let i = 0; i < channelData.length; i++) {
+                    channelData[i] = float32Array[i * channels + channel];
+                }
+            }
+
+            resolve(audioBuffer);
+        } catch (error) {
+            reject(error);
+        }
+    });
+  }
+    // 16位 PCM 转 32位浮点数
+    private pcm16ToFloat32(pcmData: Uint8Array) {
+        const length = pcmData.length / 2;
+        const float32Array = new Float32Array(length);
+        
+        for (let i = 0; i < length; i++) {
+            const int16 = (pcmData[i * 2 + 1] << 8) | pcmData[i * 2];
+            const int16Signed = int16 > 32767 ? int16 - 65536 : int16;
+            float32Array[i] = int16Signed / 32768;
+        }
+        
+        return float32Array;
+    }
 }
-export { Alibaba };
+export { Alibaba };
\ No newline at end of file
diff --git a/app/components/chat.tsx b/app/components/chat.tsx
index 6691403e6..97e58da98 100644
--- a/app/components/chat.tsx
+++ b/app/components/chat.tsx
@@ -1293,14 +1293,15 @@ function _Chat() {
       setSpeechStatus(false);
     } else {
       var api: ClientApi;
-      api = new ClientApi(ModelProvider.GPT);
       const config = useAppConfig.getState();
+      api = new ClientApi(config.ttsConfig.modelProvider);
       setSpeechLoading(true);
       ttsPlayer.init();
       let audioBuffer: ArrayBuffer;
       const { markdownToTxt } = require("markdown-to-txt");
       const textContent = markdownToTxt(text);
-      if (config.ttsConfig.engine !== DEFAULT_TTS_ENGINE) {
+      console.log("[OpenAI Speech] textContent: ", config, textContent);
+      if (config.ttsConfig.engine === "Edge") {
         const edgeVoiceName = accessStore.edgeVoiceName();
         const tts = new MsEdgeTTS();
         await tts.setMetadata(
diff --git a/app/components/realtime-chat/realtime-config.tsx b/app/components/realtime-chat/realtime-config.tsx
index 08809afda..18887b378 100644
--- a/app/components/realtime-chat/realtime-config.tsx
+++ b/app/components/realtime-chat/realtime-config.tsx
@@ -5,13 +5,13 @@ import { ListItem, Select, PasswordInput } from "@/app/components/ui-lib";
 
 import { InputRange } from "@/app/components/input-range";
 import { Voice } from "rt-client";
-import { ServiceProvider } from "@/app/constant";
+import { REALTIME_TTS_MODELS, ServiceProvider } from "@/app/constant";
 
-const providers = [ServiceProvider.OpenAI, ServiceProvider.Azure];
+const providers = Object.keys(REALTIME_TTS_MODELS) as ServiceProvider[];
 
-const models = ["gpt-4o-realtime-preview-2024-10-01"];
+const models = ["gpt-4o-realtime-preview-2024-10-01", "qwen-tts-realtime"];
 
-const voice = ["alloy", "shimmer", "echo"];
+const voice = ["alloy", "shimmer", "echo","Chelsie"];
 
 export function RealtimeConfigList(props: {
   realtimeConfig: RealtimeConfig;
diff --git a/app/components/tts-config.tsx b/app/components/tts-config.tsx
index 39ae85730..a0ad22fa0 100644
--- a/app/components/tts-config.tsx
+++ b/app/components/tts-config.tsx
@@ -3,10 +3,9 @@ import { TTSConfig, TTSConfigValidator } from "../store";
 import Locale from "../locales";
 import { ListItem, Select } from "./ui-lib";
 import {
-  DEFAULT_TTS_ENGINE,
-  DEFAULT_TTS_ENGINES,
-  DEFAULT_TTS_MODELS,
-  DEFAULT_TTS_VOICES,
+    ServiceProvider,
+    TTS_CONFIGS,
+    TTSEngineType
 } from "../constant";
 import { InputRange } from "./input-range";
 
@@ -48,22 +47,33 @@ export function TTSConfigList(props: {
         <Select
           value={props.ttsConfig.engine}
           onChange={(e) => {
+            const newEngine = e.currentTarget.value as TTSEngineType;
             props.updateConfig(
-              (config) =>
-                (config.engine = TTSConfigValidator.engine(
-                  e.currentTarget.value,
-                )),
+              (config) => {
+                config.engine = TTSConfigValidator.engine(newEngine);
+                const engineConfig = TTS_CONFIGS[newEngine];
+                config.model = TTSConfigValidator.model(
+                    engineConfig.Model[0] || ""
+                );
+                config.voice = TTSConfigValidator.voice(
+                    engineConfig.Voices[0] || ""
+                );
+                config.modelProvider = TTSConfigValidator.modelProvider(
+                    engineConfig.ModelProvider
+                );
+              }
             );
           }}
         >
-          {DEFAULT_TTS_ENGINES.map((v, i) => (
+          {Object.keys(TTS_CONFIGS).map((v, i) => (
             <option value={v} key={i}>
-              {v}
+              {v}-TTS
             </option>
           ))}
         </Select>
       </ListItem>
-      {props.ttsConfig.engine === DEFAULT_TTS_ENGINE && (
+      {(props.ttsConfig.engine === ServiceProvider.OpenAI || 
+        props.ttsConfig.engine === ServiceProvider.Alibaba) && (
         <>
           <ListItem title={Locale.Settings.TTS.Model}>
             <Select
@@ -77,7 +87,7 @@ export function TTSConfigList(props: {
                 );
               }}
             >
-              {DEFAULT_TTS_MODELS.map((v, i) => (
+              {TTS_CONFIGS[props.ttsConfig.engine]!.Model.map((v, i) => (
                 <option value={v} key={i}>
                   {v}
                 </option>
@@ -99,7 +109,7 @@ export function TTSConfigList(props: {
                 );
               }}
             >
-              {DEFAULT_TTS_VOICES.map((v, i) => (
+              {TTS_CONFIGS[props.ttsConfig.engine]!.Voices.map((v, i) => (
                 <option value={v} key={i}>
                   {v}
                 </option>
diff --git a/app/constant.ts b/app/constant.ts
index 6bececb55..9e6232ddc 100644
--- a/app/constant.ts
+++ b/app/constant.ts
@@ -22,6 +22,7 @@ export const BAIDU_OATUH_URL = `${BAIDU_BASE_URL}/oauth/2.0/token`;
 export const BYTEDANCE_BASE_URL = "https://ark.cn-beijing.volces.com";
 
 export const ALIBABA_BASE_URL = "https://dashscope.aliyuncs.com/api/";
+export const ALIBABA_RUNTIEM_TTS_URL = "wss://dashscope.aliyuncs.com/api-ws/v1/realtime";
 
 export const TENCENT_BASE_URL = "https://hunyuan.tencentcloudapi.com";
 
@@ -232,6 +233,7 @@ export const Alibaba = {
     }
     return `v1/services/aigc/text-generation/generation`;
   },
+  SpeechPath: "v1/services/aigc/multimodal-generation/generation",
 };
 
 export const Tencent = {
@@ -461,19 +463,53 @@ export const KnowledgeCutOffDate: Record<string, string> = {
   "deepseek-coder": "2024-07",
 };
 
-export const DEFAULT_TTS_ENGINE = "OpenAI-TTS";
-export const DEFAULT_TTS_ENGINES = ["OpenAI-TTS", "Edge-TTS"];
+export const DEFAULT_TTS_ENGINE = ServiceProvider.OpenAI;
 export const DEFAULT_TTS_MODEL = "tts-1";
 export const DEFAULT_TTS_VOICE = "alloy";
-export const DEFAULT_TTS_MODELS = ["tts-1", "tts-1-hd"];
-export const DEFAULT_TTS_VOICES = [
-  "alloy",
-  "echo",
-  "fable",
-  "onyx",
-  "nova",
-  "shimmer",
-];
+
+export const OPENAI_TTS = {
+    Provider: ServiceProvider.OpenAI,
+    ModelProvider: ModelProvider.GPT,
+    Model: ["tts-1", "tts-1-hd"],
+    Voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"],
+} as const;
+
+export const ALIBABA_TTS = {
+    Provider: ServiceProvider.Alibaba,
+    ModelProvider: ModelProvider.Qwen,
+    Model: ["qwen-tts", "qwen-tts-latest"],
+    Voices: ["Chelsie", "Cherry", "Ethan", "Serena", "Dylan", "Jada", "Sunny"],
+} as const;
+
+export const EDGE_TTS = {
+    Provider: "Edge" as const,
+    ModelProvider: ModelProvider.GPT,
+    Model: [] as string[],
+    Voices: [] as string[],
+} as const;
+
+// 定义支持的 TTS 引擎类型
+export type TTSEngineType = ServiceProvider.OpenAI | ServiceProvider.Alibaba | "Edge";
+
+// 从 TTS_CONFIGS 中提取所有可用的引擎、模型和声音
+export const DEFAULT_TTS_ENGINES = [ServiceProvider.OpenAI, ServiceProvider.Alibaba, "Edge"] as const;
+export const DEFAULT_TTS_MODELS = [...OPENAI_TTS.Model, ...ALIBABA_TTS.Model] as const;
+export const DEFAULT_TTS_VOICES = [...OPENAI_TTS.Voices, ...ALIBABA_TTS.Voices] as const;
+
+// TTS 配置接口
+interface TTSConfigItem {
+    Provider: ServiceProvider | "Edge";
+    Model: readonly string[];
+    Voices: readonly string[];
+    ModelProvider: ModelProvider;
+}
+
+// 使用完整的 Record 而不是 Partial，确保类型安全
+export const TTS_CONFIGS: Record<TTSEngineType, TTSConfigItem> = {
+    [ServiceProvider.OpenAI]: OPENAI_TTS,
+    [ServiceProvider.Alibaba]: ALIBABA_TTS,
+    Edge: EDGE_TTS,
+} as const;
 
 export const VISION_MODEL_REGEXES = [
   /vision/,
@@ -497,6 +533,16 @@ export const VISION_MODEL_REGEXES = [
 
 export const EXCLUDE_VISION_MODEL_REGEXES = [/claude-3-5-haiku-20241022/];
 
+export const RUNTIME_TTS_OPENAI = {
+    ExampleEndpoint: XAI_BASE_URL,
+}
+
+export const REALTIME_TTS_MODELS = {
+    [ServiceProvider.OpenAI]: ["gpt-4o-realtime-preview-2024-10-01"],
+    [ServiceProvider.Azure]: ["gpt-4o-realtime-preview-2024-10-01"],
+    [ServiceProvider.Alibaba]: ["qwen-omni-turbo-realtime"],
+};
+
 const openaiModels = [
   // As of July 2024, gpt-4o-mini should be used in place of gpt-3.5-turbo,
   // as it is cheaper, more capable, multimodal, and just as fast. gpt-3.5-turbo is still available for use in the API.
@@ -920,3 +966,4 @@ export const DEFAULT_GA_ID = "G-89WN60ZK2E";
 
 export const SAAS_CHAT_URL = "https://nextchat.club";
 export const SAAS_CHAT_UTM_URL = "https://nextchat.club?utm=github";
+
diff --git a/app/store/config.ts b/app/store/config.ts
index 45e21b026..602e80318 100644
--- a/app/store/config.ts
+++ b/app/store/config.ts
@@ -13,6 +13,8 @@ import {
   DEFAULT_TTS_VOICES,
   StoreKey,
   ServiceProvider,
+  TTSEngineType,
+  ModelProvider,
 } from "../constant";
 import { createPersistStore } from "../utils/store";
 import type { Voice } from "rt-client";
@@ -20,7 +22,6 @@ import type { Voice } from "rt-client";
 export type ModelType = (typeof DEFAULT_MODELS)[number]["name"];
 export type TTSModelType = (typeof DEFAULT_TTS_MODELS)[number];
 export type TTSVoiceType = (typeof DEFAULT_TTS_VOICES)[number];
-export type TTSEngineType = (typeof DEFAULT_TTS_ENGINES)[number];
 
 export enum SubmitKey {
   Enter = "Enter",
@@ -86,7 +87,8 @@ export const DEFAULT_CONFIG = {
   ttsConfig: {
     enable: false,
     autoplay: false,
-    engine: DEFAULT_TTS_ENGINE,
+    modelProvider: ModelProvider.GPT,
+    engine: DEFAULT_TTS_ENGINE as TTSEngineType,
     model: DEFAULT_TTS_MODEL,
     voice: DEFAULT_TTS_VOICE,
     speed: 1.0,
@@ -126,18 +128,21 @@ export function limitNumber(
 }
 
 export const TTSConfigValidator = {
-  engine(x: string) {
+  engine(x: string | TTSEngineType): TTSEngineType {
     return x as TTSEngineType;
   },
-  model(x: string) {
+  model(x: string): TTSModelType {
     return x as TTSModelType;
   },
-  voice(x: string) {
+  voice(x: string): TTSVoiceType {
     return x as TTSVoiceType;
   },
-  speed(x: number) {
+  speed(x: number): number {
     return limitNumber(x, 0.25, 4.0, 1.0);
   },
+  modelProvider(x: string): ModelProvider {
+    return x as ModelProvider;
+  },
 };
 
 export const ModalConfigValidator = {
diff --git a/app/utils/audio.ts b/app/utils/audio.ts
index f6828c7aa..dd7eadc18 100644
--- a/app/utils/audio.ts
+++ b/app/utils/audio.ts
@@ -13,13 +13,17 @@ export function createTTSPlayer(): TTSPlayer {
     audioContext.suspend();
   };
 
-  const play = async (audioBuffer: ArrayBuffer, onended: () => void | null) => {
+  const play = async (audioBuffer: ArrayBuffer | AudioBuffer, onended: () => void | null) => {
     if (audioBufferSourceNode) {
       audioBufferSourceNode.stop();
       audioBufferSourceNode.disconnect();
     }
-
-    const buffer = await audioContext!.decodeAudioData(audioBuffer);
+    let buffer: AudioBuffer;
+    if (audioBuffer instanceof AudioBuffer) {
+      buffer = audioBuffer;
+    } else {
+      buffer = await audioContext!.decodeAudioData(audioBuffer);
+    }
     audioBufferSourceNode = audioContext!.createBufferSource();
     audioBufferSourceNode.buffer = buffer;
     audioBufferSourceNode.connect(audioContext!.destination);
@@ -42,4 +46,4 @@ export function createTTSPlayer(): TTSPlayer {
   };
 
   return { init, play, stop };
-}
+}
\ No newline at end of file
diff --git a/package.json b/package.json
index ceb92d7fc..b69c07e01 100644
--- a/package.json
+++ b/package.json
@@ -93,5 +93,9 @@
   "resolutions": {
     "lint-staged/yaml": "^2.2.2"
   },
-  "packageManager": "yarn@1.22.19"
+  "packageManager": "yarn@1.22.19",
+  "volta": {
+    "node": "20.19.4",
+    "yarn": "1.22.22"
+  }
 }

From c5e6b1278fc6f33673c71fdc0baf9ebf157fe710 Mon Sep 17 00:00:00 2001
From: EvanWu <850123119@qq.com>
Date: Wed, 30 Jul 2025 23:27:49 +0800
Subject: [PATCH 02/13] =?UTF-8?q?feat:=20=E6=9B=B4=E6=96=B0=E8=AF=AD?=
 =?UTF-8?q?=E9=9F=B3=E5=90=88=E6=88=90=E6=8E=A5=E5=8F=A3=EF=BC=8C=E6=94=AF?=
 =?UTF-8?q?=E6=8C=81=E6=B5=81=E5=BC=8F=E6=92=AD=E6=94=BE=E5=92=8C=E5=A4=9A?=
 =?UTF-8?q?=E7=A7=8D=E9=9F=B3=E9=A2=91=E6=A0=BC=E5=BC=8F?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 app/client/api.ts               |   3 +-
 app/client/platforms/alibaba.ts | 213 +++++++++++++++++---------------
 app/components/chat.tsx         |  74 +++++++----
 app/utils/audio.ts              | 123 +++++++++++++++++-
 4 files changed, 284 insertions(+), 129 deletions(-)

diff --git a/app/client/api.ts b/app/client/api.ts
index f60b0e2ad..9b82959a8 100644
--- a/app/client/api.ts
+++ b/app/client/api.ts
@@ -107,7 +107,8 @@ export interface LLMModelProvider {
 
 export abstract class LLMApi {
   abstract chat(options: ChatOptions): Promise<void>;
-  abstract speech(options: SpeechOptions): Promise<ArrayBuffer>;
+  abstract speech(options: SpeechOptions): Promise<ArrayBuffer | AudioBuffer>;
+  abstract streamSpeech?(options: SpeechOptions): AsyncGenerator<AudioBuffer>;
   abstract usage(): Promise<LLMUsage>;
   abstract models(): Promise<LLMModel[]>;
 }
diff --git a/app/client/platforms/alibaba.ts b/app/client/platforms/alibaba.ts
index 19d020ddc..7427eb818 100644
--- a/app/client/platforms/alibaba.ts
+++ b/app/client/platforms/alibaba.ts
@@ -1,5 +1,10 @@
 "use client";
-import { ApiPath, Alibaba, ALIBABA_BASE_URL, REQUEST_TIMEOUT_MS } from "@/app/constant";
+import {
+  ApiPath,
+  Alibaba,
+  ALIBABA_BASE_URL,
+  REQUEST_TIMEOUT_MS,
+} from "@/app/constant";
 import {
   useAccessStore,
   useAppConfig,
@@ -89,66 +94,71 @@ export class QwenApi implements LLMApi {
     return res?.output?.choices?.at(0)?.message?.content ?? "";
   }
 
-  async speech(options: SpeechOptions): Promise<AudioBuffer> {
+  async speech(options: SpeechOptions): Promise<ArrayBuffer> {
+    throw new Error("Method not implemented.");
+  }
+
+  async *streamSpeech(options: SpeechOptions): AsyncGenerator<AudioBuffer> {
     const requestPayload = {
-        model: options.model,
-        input: {
-            text: options.input,
-            voice: options.voice,
-        },
-        speed: options.speed,
-        response_format: options.response_format,
+      model: options.model,
+      input: {
+        text: options.input,
+        voice: options.voice,
+      },
+      speed: options.speed,
+      response_format: options.response_format,
     };
     console.log("[Request] alibaba speech payload: ", requestPayload);
     const controller = new AbortController();
     options.onController?.(controller);
     try {
-        const speechPath = this.path(Alibaba.SpeechPath);
-        const speechPayload = {
-          method: "POST",
-          body: JSON.stringify(requestPayload),
-          signal: controller.signal,
-          headers: {
-            ...getHeaders(),
-            "X-DashScope-SSE": "enable",
-          },
-        };
-  
-        // make a fetch request
-        const requestTimeoutId = setTimeout(
-          () => controller.abort(),
-          REQUEST_TIMEOUT_MS,
-        );
-  
-        const res = await fetch(speechPath, speechPayload);
+      const speechPath = this.path(Alibaba.SpeechPath);
+      const speechPayload = {
+        method: "POST",
+        body: JSON.stringify(requestPayload),
+        signal: controller.signal,
+        headers: {
+          ...getHeaders(),
+          "X-DashScope-SSE": "enable",
+        },
+      };
 
-        const reader = res.body!.getReader();
-        const decoder = new TextDecoder();
-        let buffer = "";
-        let base64 = "";
-        while (true) {
-            const { done, value } = await reader.read();
-            if (done) break;
-            buffer += decoder.decode(value, { stream: true, });
-                const lines = buffer.split('\n');
-                buffer = lines.pop() || '';
+      // make a fetch request
+      const requestTimeoutId = setTimeout(
+        () => controller.abort(),
+        REQUEST_TIMEOUT_MS,
+      );
 
-                for (const line of lines) {
-                    if (line.startsWith('data:')) {
-                        const data = line.slice(5);
-                        const json = JSON.parse(data);
-                        base64 += json.output.audio.data;
-                    }
-                }
+      const res = await fetch(speechPath, speechPayload);
+
+      const reader = res.body!.getReader();
+      const decoder = new TextDecoder();
+      let buffer = "";
+      while (true) {
+        const { done, value } = await reader.read();
+        if (done) {
+          break;
+        }
+        buffer += decoder.decode(value, { stream: true });
+        const lines = buffer.split("\n");
+        buffer = lines.pop() || "";
+
+        for (const line of lines) {
+          if (line.startsWith("data:")) {
+            const data = line.slice(5);
+            const json = JSON.parse(data);
+            if (json.output.audio.data) {
+              yield this.PCMBase64ToAudioBuffer(json.output.audio.data);
+            }
+          }
         }
-        const audioBuffer = await this.PCMBase64ToAudioBuffer(base64);
-        clearTimeout(requestTimeoutId);
-        reader.releaseLock();
-        return audioBuffer;
-      } catch (e) {
-        console.log("[Request] failed to make a speech request", e);
-        throw e;
       }
+      clearTimeout(requestTimeoutId);
+      reader.releaseLock();
+    } catch (e) {
+      console.log("[Request] failed to make a speech request", e);
+      throw e;
+    }
   }
 
   async chat(options: ChatOptions) {
@@ -335,67 +345,68 @@ export class QwenApi implements LLMApi {
   // 播放 PCM base64 数据
   private async PCMBase64ToAudioBuffer(base64Data: string) {
     try {
-        // 解码 base64
-        const binaryString = atob(base64Data);
-        const bytes = new Uint8Array(binaryString.length);
-        for (let i = 0; i < binaryString.length; i++) {
-            bytes[i] = binaryString.charCodeAt(i);
-        }
+      // 解码 base64
+      const binaryString = atob(base64Data);
+      const bytes = new Uint8Array(binaryString.length);
+      for (let i = 0; i < binaryString.length; i++) {
+        bytes[i] = binaryString.charCodeAt(i);
+      }
 
-        // 转换为 AudioBuffer
-        const audioBuffer = await this.convertToAudioBuffer(bytes);
-        
-        return audioBuffer;
+      // 转换为 AudioBuffer
+      const audioBuffer = await this.convertToAudioBuffer(bytes);
+
+      return audioBuffer;
     } catch (error) {
-        console.error('播放 PCM 数据失败:', error);
-        throw error;
+      console.error("播放 PCM 数据失败:", error);
+      throw error;
     }
   }
-  
-   // 将 PCM 字节数据转换为 AudioBuffer
-   private convertToAudioBuffer(pcmData: Uint8Array) {
-    const audioContext = new (window.AudioContext || window.webkitAudioContext)();
+
+  // 将 PCM 字节数据转换为 AudioBuffer
+  private convertToAudioBuffer(pcmData: Uint8Array) {
+    const audioContext = new (window.AudioContext ||
+      window.webkitAudioContext)();
     const channels = 1;
     const sampleRate = 24000;
     return new Promise<AudioBuffer>((resolve, reject) => {
-        try {
-            let float32Array;
-            // 16位 PCM 转换为 32位浮点数
-            float32Array = this.pcm16ToFloat32(pcmData);
+      try {
+        let float32Array;
+        // 16位 PCM 转换为 32位浮点数
+        float32Array = this.pcm16ToFloat32(pcmData);
 
-            // 创建 AudioBuffer
-            const audioBuffer = audioContext.createBuffer(
-                channels,
-                float32Array.length / channels,
-                sampleRate
-            );
+        // 创建 AudioBuffer
+        const audioBuffer = audioContext.createBuffer(
+          channels,
+          float32Array.length / channels,
+          sampleRate,
+        );
 
-            // 复制数据到 AudioBuffer
-            for (let channel = 0; channel < channels; channel++) {
-                const channelData = audioBuffer.getChannelData(channel);
-                for (let i = 0; i < channelData.length; i++) {
-                    channelData[i] = float32Array[i * channels + channel];
-                }
-            }
-
-            resolve(audioBuffer);
-        } catch (error) {
-            reject(error);
+        // 复制数据到 AudioBuffer
+        for (let channel = 0; channel < channels; channel++) {
+          const channelData = audioBuffer.getChannelData(channel);
+          for (let i = 0; i < channelData.length; i++) {
+            channelData[i] = float32Array[i * channels + channel];
+          }
         }
+
+        resolve(audioBuffer);
+      } catch (error) {
+        reject(error);
+      }
     });
   }
-    // 16位 PCM 转 32位浮点数
-    private pcm16ToFloat32(pcmData: Uint8Array) {
-        const length = pcmData.length / 2;
-        const float32Array = new Float32Array(length);
-        
-        for (let i = 0; i < length; i++) {
-            const int16 = (pcmData[i * 2 + 1] << 8) | pcmData[i * 2];
-            const int16Signed = int16 > 32767 ? int16 - 65536 : int16;
-            float32Array[i] = int16Signed / 32768;
-        }
-        
-        return float32Array;
+  // 16位 PCM 转 32位浮点数
+  private pcm16ToFloat32(pcmData: Uint8Array) {
+    const length = pcmData.length / 2;
+    const float32Array = new Float32Array(length);
+
+    for (let i = 0; i < length; i++) {
+      const int16 = (pcmData[i * 2 + 1] << 8) | pcmData[i * 2];
+      const int16Signed = int16 > 32767 ? int16 - 65536 : int16;
+      float32Array[i] = int16Signed / 32768;
     }
+
+    return float32Array;
+  }
 }
-export { Alibaba };
\ No newline at end of file
+export { Alibaba };
diff --git a/app/components/chat.tsx b/app/components/chat.tsx
index 97e58da98..16a2a01b5 100644
--- a/app/components/chat.tsx
+++ b/app/components/chat.tsx
@@ -101,8 +101,6 @@ import {
 import { useNavigate } from "react-router-dom";
 import {
   CHAT_PAGE_SIZE,
-  DEFAULT_TTS_ENGINE,
-  ModelProvider,
   Path,
   REQUEST_TIMEOUT_MS,
   ServiceProvider,
@@ -1286,6 +1284,7 @@ function _Chat() {
   const accessStore = useAccessStore();
   const [speechStatus, setSpeechStatus] = useState(false);
   const [speechLoading, setSpeechLoading] = useState(false);
+  const [speechCooldown, setSpeechCooldown] = useState(false);
 
   async function openaiSpeech(text: string) {
     if (speechStatus) {
@@ -1297,10 +1296,10 @@ function _Chat() {
       api = new ClientApi(config.ttsConfig.modelProvider);
       setSpeechLoading(true);
       ttsPlayer.init();
-      let audioBuffer: ArrayBuffer;
+      let audioBuffer: ArrayBuffer | AudioBuffer;
       const { markdownToTxt } = require("markdown-to-txt");
       const textContent = markdownToTxt(text);
-      console.log("[OpenAI Speech] textContent: ", config, textContent);
+      console.log("[OpenAI Speech] textContent: ", textContent);
       if (config.ttsConfig.engine === "Edge") {
         const edgeVoiceName = accessStore.edgeVoiceName();
         const tts = new MsEdgeTTS();
@@ -1309,28 +1308,61 @@ function _Chat() {
           OUTPUT_FORMAT.AUDIO_24KHZ_96KBITRATE_MONO_MP3,
         );
         audioBuffer = await tts.toArrayBuffer(textContent);
+        playSpeech(audioBuffer);
       } else {
-        audioBuffer = await api.llm.speech({
-          model: config.ttsConfig.model,
-          input: textContent,
-          voice: config.ttsConfig.voice,
-          speed: config.ttsConfig.speed,
-        });
+        if (api.llm.streamSpeech) {
+          // 使用流式播放，边接收边播放
+          setSpeechStatus(true);
+          ttsPlayer.startStreamPlay(() => {
+            setSpeechStatus(false);
+          });
+
+          try {
+            for await (const chunk of api.llm.streamSpeech({
+              model: config.ttsConfig.model,
+              input: textContent,
+              voice: config.ttsConfig.voice,
+              speed: config.ttsConfig.speed,
+            })) {
+              console.log("[Stream Speech] add to queue", chunk);
+              ttsPlayer.addToQueue(chunk);
+            }
+            ttsPlayer.finishStreamPlay();
+          } catch (e) {
+            console.error("[Stream Speech]", e);
+            showToast(prettyObject(e));
+            setSpeechStatus(false);
+            ttsPlayer.stop();
+          } finally {
+            setSpeechLoading(false);
+          }
+        } else {
+          audioBuffer = await api.llm.speech({
+            model: config.ttsConfig.model,
+            input: textContent,
+            voice: config.ttsConfig.voice,
+            speed: config.ttsConfig.speed,
+          });
+          playSpeech(audioBuffer);
+        }
       }
-      setSpeechStatus(true);
-      ttsPlayer
-        .play(audioBuffer, () => {
-          setSpeechStatus(false);
-        })
-        .catch((e) => {
-          console.error("[OpenAI Speech]", e);
-          showToast(prettyObject(e));
-          setSpeechStatus(false);
-        })
-        .finally(() => setSpeechLoading(false));
     }
   }
 
+  function playSpeech(audioBuffer: ArrayBuffer | AudioBuffer) {
+    setSpeechStatus(true);
+    ttsPlayer
+      .play(audioBuffer, () => {
+        setSpeechStatus(false);
+      })
+      .catch((e) => {
+        console.error("[OpenAI Speech]", e);
+        showToast(prettyObject(e));
+        setSpeechStatus(false);
+      })
+      .finally(() => setSpeechLoading(false));
+  }
+
   const context: RenderMessage[] = useMemo(() => {
     return session.mask.hideContext ? [] : session.mask.context.slice();
   }, [session.mask.context, session.mask.hideContext]);
diff --git a/app/utils/audio.ts b/app/utils/audio.ts
index dd7eadc18..3d93f7bad 100644
--- a/app/utils/audio.ts
+++ b/app/utils/audio.ts
@@ -1,19 +1,38 @@
 type TTSPlayer = {
   init: () => void;
-  play: (audioBuffer: ArrayBuffer, onended: () => void | null) => Promise<void>;
+  play: (
+    audioBuffer: ArrayBuffer | AudioBuffer,
+    onended: () => void | null,
+  ) => Promise<void>;
+  playQueue: (
+    audioBuffers: (ArrayBuffer | AudioBuffer)[],
+    onended: () => void | null,
+  ) => Promise<void>;
+  addToQueue: (audioBuffer: ArrayBuffer | AudioBuffer) => void;
+  startStreamPlay: (onended: () => void | null) => void;
+  finishStreamPlay: () => void;
   stop: () => void;
 };
 
 export function createTTSPlayer(): TTSPlayer {
   let audioContext: AudioContext | null = null;
   let audioBufferSourceNode: AudioBufferSourceNode | null = null;
+  let isPlaying = false;
+  let playQueue: (ArrayBuffer | AudioBuffer)[] = [];
+  let currentOnended: (() => void | null) | null = null;
+  let isStreamMode = false;
+  let streamFinished = false;
 
   const init = () => {
+    console.log("[TTSPlayer] init");
     audioContext = new (window.AudioContext || window.webkitAudioContext)();
     audioContext.suspend();
   };
 
-  const play = async (audioBuffer: ArrayBuffer | AudioBuffer, onended: () => void | null) => {
+  const play = async (
+    audioBuffer: ArrayBuffer | AudioBuffer,
+    onended: () => void | null,
+  ) => {
     if (audioBufferSourceNode) {
       audioBufferSourceNode.stop();
       audioBufferSourceNode.disconnect();
@@ -33,17 +52,109 @@ export function createTTSPlayer(): TTSPlayer {
     audioBufferSourceNode.onended = onended;
   };
 
-  const stop = () => {
+  const playNext = async () => {
+    if (playQueue.length === 0) {
+      // 在流模式下，如果队列为空但流还没结束，等待
+      if (isStreamMode && !streamFinished) {
+        setTimeout(() => playNext(), 100);
+        return;
+      }
+
+      isPlaying = false;
+      isStreamMode = false;
+      streamFinished = false;
+      if (currentOnended) {
+        currentOnended();
+        currentOnended = null;
+      }
+      return;
+    }
+
+    const nextBuffer = playQueue.shift()!;
+    let buffer: AudioBuffer;
+    if (nextBuffer instanceof AudioBuffer) {
+      buffer = nextBuffer;
+    } else {
+      buffer = await audioContext!.decodeAudioData(nextBuffer);
+    }
+
+    if (audioBufferSourceNode) {
+      audioBufferSourceNode.stop();
+      audioBufferSourceNode.disconnect();
+    }
+
+    audioBufferSourceNode = audioContext!.createBufferSource();
+    audioBufferSourceNode.buffer = buffer;
+    audioBufferSourceNode.connect(audioContext!.destination);
+    audioBufferSourceNode.onended = () => {
+      playNext();
+    };
+
+    await audioContext!.resume();
+    audioBufferSourceNode.start();
+  };
+
+  const playQueueMethod = async (
+    audioBuffers: (ArrayBuffer | AudioBuffer)[],
+    onended: () => void | null,
+  ) => {
+    playQueue = [...audioBuffers];
+    currentOnended = onended;
+    if (!isPlaying) {
+      isPlaying = true;
+      await playNext();
+    }
+  };
+
+  const addToQueue = (audioBuffer: ArrayBuffer | AudioBuffer) => {
+    if (streamFinished) {
+      return;
+    }
+    playQueue.push(audioBuffer);
+  };
+
+  const startStreamPlay = (onended: () => void | null) => {
+    isStreamMode = true;
+    streamFinished = false;
+    playQueue = [];
+    currentOnended = onended;
+
+    if (!isPlaying) {
+      isPlaying = true;
+      playNext();
+    }
+  };
+
+  const finishStreamPlay = () => {
+    streamFinished = true;
+  };
+
+  const stop = async () => {
+    console.log("[TTSPlayer] stop");
+    playQueue = [];
+    isPlaying = false;
+    isStreamMode = false;
+    streamFinished = true;
+    currentOnended = null;
+
     if (audioBufferSourceNode) {
       audioBufferSourceNode.stop();
       audioBufferSourceNode.disconnect();
       audioBufferSourceNode = null;
     }
     if (audioContext) {
-      audioContext.close();
+      await audioContext.close();
       audioContext = null;
     }
   };
 
-  return { init, play, stop };
-}
\ No newline at end of file
+  return {
+    init,
+    play,
+    playQueue: playQueueMethod,
+    addToQueue,
+    startStreamPlay,
+    finishStreamPlay,
+    stop,
+  };
+}

From e836dc0db8d3146568bb4484ee9c50d65e9f52f8 Mon Sep 17 00:00:00 2001
From: EvanWu <850123119@qq.com>
Date: Wed, 30 Jul 2025 23:34:29 +0800
Subject: [PATCH 03/13] =?UTF-8?q?refactor:=20=E7=A7=BB=E9=99=A4=E4=B8=8D?=
 =?UTF-8?q?=E5=BF=85=E8=A6=81=E7=9A=84=20TTS=20=E9=85=8D=E7=BD=AE=E5=92=8C?=
 =?UTF-8?q?=E6=A8=A1=E5=9E=8B=EF=BC=8C=E5=9B=9E=E5=A4=8Druntime=E9=83=A8?=
 =?UTF-8?q?=E5=88=86=E7=9A=84=E5=86=85=E5=AE=B9?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 app/components/realtime-chat/realtime-config.tsx |  4 ++--
 app/constant.ts                                  | 14 --------------
 2 files changed, 2 insertions(+), 16 deletions(-)

diff --git a/app/components/realtime-chat/realtime-config.tsx b/app/components/realtime-chat/realtime-config.tsx
index 18887b378..f69efff7e 100644
--- a/app/components/realtime-chat/realtime-config.tsx
+++ b/app/components/realtime-chat/realtime-config.tsx
@@ -5,9 +5,9 @@ import { ListItem, Select, PasswordInput } from "@/app/components/ui-lib";
 
 import { InputRange } from "@/app/components/input-range";
 import { Voice } from "rt-client";
-import { REALTIME_TTS_MODELS, ServiceProvider } from "@/app/constant";
+import { ServiceProvider } from "@/app/constant";
 
-const providers = Object.keys(REALTIME_TTS_MODELS) as ServiceProvider[];
+const providers = [ServiceProvider.OpenAI, ServiceProvider.Azure];
 
 const models = ["gpt-4o-realtime-preview-2024-10-01", "qwen-tts-realtime"];
 
diff --git a/app/constant.ts b/app/constant.ts
index 9e6232ddc..6c3553ebf 100644
--- a/app/constant.ts
+++ b/app/constant.ts
@@ -488,15 +488,12 @@ export const EDGE_TTS = {
     Voices: [] as string[],
 } as const;
 
-// 定义支持的 TTS 引擎类型
 export type TTSEngineType = ServiceProvider.OpenAI | ServiceProvider.Alibaba | "Edge";
 
-// 从 TTS_CONFIGS 中提取所有可用的引擎、模型和声音
 export const DEFAULT_TTS_ENGINES = [ServiceProvider.OpenAI, ServiceProvider.Alibaba, "Edge"] as const;
 export const DEFAULT_TTS_MODELS = [...OPENAI_TTS.Model, ...ALIBABA_TTS.Model] as const;
 export const DEFAULT_TTS_VOICES = [...OPENAI_TTS.Voices, ...ALIBABA_TTS.Voices] as const;
 
-// TTS 配置接口
 interface TTSConfigItem {
     Provider: ServiceProvider | "Edge";
     Model: readonly string[];
@@ -504,7 +501,6 @@ interface TTSConfigItem {
     ModelProvider: ModelProvider;
 }
 
-// 使用完整的 Record 而不是 Partial，确保类型安全
 export const TTS_CONFIGS: Record<TTSEngineType, TTSConfigItem> = {
     [ServiceProvider.OpenAI]: OPENAI_TTS,
     [ServiceProvider.Alibaba]: ALIBABA_TTS,
@@ -533,16 +529,6 @@ export const VISION_MODEL_REGEXES = [
 
 export const EXCLUDE_VISION_MODEL_REGEXES = [/claude-3-5-haiku-20241022/];
 
-export const RUNTIME_TTS_OPENAI = {
-    ExampleEndpoint: XAI_BASE_URL,
-}
-
-export const REALTIME_TTS_MODELS = {
-    [ServiceProvider.OpenAI]: ["gpt-4o-realtime-preview-2024-10-01"],
-    [ServiceProvider.Azure]: ["gpt-4o-realtime-preview-2024-10-01"],
-    [ServiceProvider.Alibaba]: ["qwen-omni-turbo-realtime"],
-};
-
 const openaiModels = [
   // As of July 2024, gpt-4o-mini should be used in place of gpt-3.5-turbo,
   // as it is cheaper, more capable, multimodal, and just as fast. gpt-3.5-turbo is still available for use in the API.

From 221229ce2f0199076fd077cb5eb42b05b97a7bcd Mon Sep 17 00:00:00 2001
From: EvanWu <850123119@qq.com>
Date: Thu, 31 Jul 2025 10:50:45 +0800
Subject: [PATCH 04/13] =?UTF-8?q?refactor:=20=E6=81=A2=E5=A4=8Druntime?=
 =?UTF-8?q?=E4=BB=A3=E7=A0=81,=E5=8E=BB=E9=99=A4=E8=B0=83=E8=AF=95console?=
 =?UTF-8?q?=E4=BB=A3=E7=A0=81?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 app/client/platforms/alibaba.ts                  | 1 -
 app/components/chat.tsx                          | 2 --
 app/components/realtime-chat/realtime-config.tsx | 4 ++--
 app/constant.ts                                  | 1 -
 4 files changed, 2 insertions(+), 6 deletions(-)

diff --git a/app/client/platforms/alibaba.ts b/app/client/platforms/alibaba.ts
index 7427eb818..9c2c7c972 100644
--- a/app/client/platforms/alibaba.ts
+++ b/app/client/platforms/alibaba.ts
@@ -108,7 +108,6 @@ export class QwenApi implements LLMApi {
       speed: options.speed,
       response_format: options.response_format,
     };
-    console.log("[Request] alibaba speech payload: ", requestPayload);
     const controller = new AbortController();
     options.onController?.(controller);
     try {
diff --git a/app/components/chat.tsx b/app/components/chat.tsx
index 16a2a01b5..d9362ca90 100644
--- a/app/components/chat.tsx
+++ b/app/components/chat.tsx
@@ -1299,7 +1299,6 @@ function _Chat() {
       let audioBuffer: ArrayBuffer | AudioBuffer;
       const { markdownToTxt } = require("markdown-to-txt");
       const textContent = markdownToTxt(text);
-      console.log("[OpenAI Speech] textContent: ", textContent);
       if (config.ttsConfig.engine === "Edge") {
         const edgeVoiceName = accessStore.edgeVoiceName();
         const tts = new MsEdgeTTS();
@@ -1324,7 +1323,6 @@ function _Chat() {
               voice: config.ttsConfig.voice,
               speed: config.ttsConfig.speed,
             })) {
-              console.log("[Stream Speech] add to queue", chunk);
               ttsPlayer.addToQueue(chunk);
             }
             ttsPlayer.finishStreamPlay();
diff --git a/app/components/realtime-chat/realtime-config.tsx b/app/components/realtime-chat/realtime-config.tsx
index f69efff7e..08809afda 100644
--- a/app/components/realtime-chat/realtime-config.tsx
+++ b/app/components/realtime-chat/realtime-config.tsx
@@ -9,9 +9,9 @@ import { ServiceProvider } from "@/app/constant";
 
 const providers = [ServiceProvider.OpenAI, ServiceProvider.Azure];
 
-const models = ["gpt-4o-realtime-preview-2024-10-01", "qwen-tts-realtime"];
+const models = ["gpt-4o-realtime-preview-2024-10-01"];
 
-const voice = ["alloy", "shimmer", "echo","Chelsie"];
+const voice = ["alloy", "shimmer", "echo"];
 
 export function RealtimeConfigList(props: {
   realtimeConfig: RealtimeConfig;
diff --git a/app/constant.ts b/app/constant.ts
index 6c3553ebf..734457b1d 100644
--- a/app/constant.ts
+++ b/app/constant.ts
@@ -22,7 +22,6 @@ export const BAIDU_OATUH_URL = `${BAIDU_BASE_URL}/oauth/2.0/token`;
 export const BYTEDANCE_BASE_URL = "https://ark.cn-beijing.volces.com";
 
 export const ALIBABA_BASE_URL = "https://dashscope.aliyuncs.com/api/";
-export const ALIBABA_RUNTIEM_TTS_URL = "wss://dashscope.aliyuncs.com/api-ws/v1/realtime";
 
 export const TENCENT_BASE_URL = "https://hunyuan.tencentcloudapi.com";
 

From fe484fd38a6b4306f7a71e1c3be19ac2d18ab73f Mon Sep 17 00:00:00 2001
From: EvanWu <850123119@qq.com>
Date: Thu, 31 Jul 2025 11:12:43 +0800
Subject: [PATCH 05/13] =?UTF-8?q?feat:=20=E6=B7=BB=E5=8A=A0=E9=9F=B3?=
 =?UTF-8?q?=E9=A2=91=E4=B8=8A=E4=B8=8B=E6=96=87=E7=AE=A1=E7=90=86=EF=BC=8C?=
 =?UTF-8?q?=E4=BC=98=E5=8C=96=20PCM=20=E6=95=B0=E6=8D=AE=E8=BD=AC=E6=8D=A2?=
 =?UTF-8?q?=E4=B8=BA=20AudioBuffer=20=E7=9A=84=E5=AE=9E=E7=8E=B0?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 app/client/platforms/alibaba.ts | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/app/client/platforms/alibaba.ts b/app/client/platforms/alibaba.ts
index 9c2c7c972..ffa483750 100644
--- a/app/client/platforms/alibaba.ts
+++ b/app/client/platforms/alibaba.ts
@@ -64,6 +64,7 @@ interface RequestPayload {
 }
 
 export class QwenApi implements LLMApi {
+  private audioContext?: AudioContext;
   path(path: string): string {
     const accessStore = useAccessStore.getState();
 
@@ -363,8 +364,11 @@ export class QwenApi implements LLMApi {
 
   // 将 PCM 字节数据转换为 AudioBuffer
   private convertToAudioBuffer(pcmData: Uint8Array) {
-    const audioContext = new (window.AudioContext ||
-      window.webkitAudioContext)();
+    if (!this.audioContext) {
+      this.audioContext = new (window.AudioContext ||
+        window.webkitAudioContext)();
+    }
+    const audioContext = this.audioContext;
     const channels = 1;
     const sampleRate = 24000;
     return new Promise<AudioBuffer>((resolve, reject) => {

From 4e3f166d675b4126c85f1e76238ce18678a3e90c Mon Sep 17 00:00:00 2001
From: EvanWu <850123119@qq.com>
Date: Tue, 5 Aug 2025 17:42:52 +0800
Subject: [PATCH 06/13] =?UTF-8?q?feat:=20=20=E9=98=BF=E9=87=8C=E5=B7=B4?=
 =?UTF-8?q?=E5=B7=B4=E5=8D=83=E9=97=AE=E6=A8=A1=E5=9E=8B=E6=94=AF=E6=8C=81?=
 =?UTF-8?q?=20Function=20calling?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 app/client/platforms/alibaba.ts | 11 +++++++++--
 app/utils.ts                    |  6 ++++++
 2 files changed, 15 insertions(+), 2 deletions(-)

diff --git a/app/client/platforms/alibaba.ts b/app/client/platforms/alibaba.ts
index ffa483750..46cc3f908 100644
--- a/app/client/platforms/alibaba.ts
+++ b/app/client/platforms/alibaba.ts
@@ -11,6 +11,7 @@ import {
   useChatStore,
   ChatMessageTool,
   usePluginStore,
+  FunctionToolItem,
 } from "@/app/store";
 import {
   preProcessImageContentForAlibabaDashScope,
@@ -56,6 +57,7 @@ interface RequestParam {
   repetition_penalty?: number;
   top_p: number;
   max_tokens?: number;
+  tools?: FunctionToolItem[];
 }
 interface RequestPayload {
   model: string;
@@ -229,11 +231,16 @@ export class QwenApi implements LLMApi {
           .getAsTools(
             useChatStore.getState().currentSession().mask?.plugin || [],
           );
+        // console.log("getAsTools", tools, funcs);
+        const _tools = tools as unknown as FunctionToolItem[];
+        if (_tools && _tools.length > 0) {
+          requestPayload.parameters.tools = _tools;
+        }
         return streamWithThink(
           chatPath,
           requestPayload,
           headers,
-          tools as any,
+          [],
           funcs,
           controller,
           // parseSSE
@@ -266,7 +273,7 @@ export class QwenApi implements LLMApi {
                 });
               } else {
                 // @ts-ignore
-                runTools[index]["function"]["arguments"] += args;
+                runTools[index]["function"]["arguments"] += args || "";
               }
             }
 
diff --git a/app/utils.ts b/app/utils.ts
index 6183e03b0..073d4743c 100644
--- a/app/utils.ts
+++ b/app/utils.ts
@@ -347,6 +347,12 @@ export function showPlugins(provider: ServiceProvider, model: string) {
   if (provider == ServiceProvider.Google && !model.includes("vision")) {
     return true;
   }
+  if (
+    provider == ServiceProvider.Alibaba &&
+    (model.includes("qwen") || model.includes("deepseek"))
+  ) {
+    return true;
+  }
   return false;
 }
 

From 044298e18a57297a61788e32916af6769c58712e Mon Sep 17 00:00:00 2001
From: EvanWu <850123119@qq.com>
Date: Tue, 5 Aug 2025 18:28:06 +0800
Subject: [PATCH 07/13] =?UTF-8?q?feat:=20=E6=B7=BB=E5=8A=A0=E8=81=94?=
 =?UTF-8?q?=E7=BD=91=E6=90=9C=E7=B4=A2=E5=8A=9F=E8=83=BD=EF=BC=8C=E6=9B=B4?=
 =?UTF-8?q?=E6=96=B0=E7=9B=B8=E5=85=B3=E9=85=8D=E7=BD=AE=E5=92=8C=E5=A4=9A?=
 =?UTF-8?q?=E8=AF=AD=E8=A8=80=E6=94=AF=E6=8C=81?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 app/client/platforms/alibaba.ts |  2 ++
 app/components/chat.tsx         | 20 ++++++++++++++++++++
 app/icons/network.svg           |  1 +
 app/locales/ar.ts               |  4 ++++
 app/locales/bn.ts               |  4 ++++
 app/locales/cn.ts               |  4 ++++
 app/locales/cs.ts               |  4 ++++
 app/locales/da.ts               |  4 ++++
 app/locales/de.ts               |  7 ++++++-
 app/locales/en.ts               |  4 ++++
 app/locales/es.ts               |  4 ++++
 app/locales/fr.ts               |  4 ++++
 app/locales/id.ts               |  4 ++++
 app/locales/it.ts               |  4 ++++
 app/locales/jp.ts               |  4 ++++
 app/locales/ko.ts               |  4 ++++
 app/locales/no.ts               |  4 ++++
 app/locales/pt.ts               |  4 ++++
 app/locales/ru.ts               |  4 ++++
 app/locales/sk.ts               |  4 ++++
 app/locales/tr.ts               |  4 ++++
 app/locales/tw.ts               |  4 ++++
 app/locales/vi.ts               |  4 ++++
 app/store/config.ts             |  2 +-
 app/utils.ts                    |  9 +++++++++
 public/plugins.json             |  6 +++---
 26 files changed, 118 insertions(+), 5 deletions(-)
 create mode 100644 app/icons/network.svg

diff --git a/app/client/platforms/alibaba.ts b/app/client/platforms/alibaba.ts
index 46cc3f908..ce88f6d53 100644
--- a/app/client/platforms/alibaba.ts
+++ b/app/client/platforms/alibaba.ts
@@ -58,6 +58,7 @@ interface RequestParam {
   top_p: number;
   max_tokens?: number;
   tools?: FunctionToolItem[];
+  enable_search?: boolean;
 }
 interface RequestPayload {
   model: string;
@@ -199,6 +200,7 @@ export class QwenApi implements LLMApi {
         temperature: modelConfig.temperature,
         // max_tokens: modelConfig.max_tokens,
         top_p: modelConfig.top_p === 1 ? 0.99 : modelConfig.top_p, // qwen top_p is should be < 1
+        enable_search: modelConfig.enableNetWork,
       },
     };
 
diff --git a/app/components/chat.tsx b/app/components/chat.tsx
index d9362ca90..9f7357e43 100644
--- a/app/components/chat.tsx
+++ b/app/components/chat.tsx
@@ -48,6 +48,7 @@ import PluginIcon from "../icons/plugin.svg";
 import ShortcutkeyIcon from "../icons/shortcutkey.svg";
 import McpToolIcon from "../icons/tool.svg";
 import HeadphoneIcon from "../icons/headphone.svg";
+import NetWorkIcon from "../icons/network.svg";
 import {
   BOT_HELLO,
   ChatMessage,
@@ -75,6 +76,7 @@ import {
   useMobileScreen,
   selectOrCopy,
   showPlugins,
+  canUseNetWork,
 } from "../utils";
 
 import { uploadImage as uploadImageRemote } from "@/app/utils/chat";
@@ -510,6 +512,7 @@ export function ChatActions(props: {
 
   // switch themes
   const theme = config.theme;
+  const enableNetWork = config.modelConfig.enableNetWork;
 
   function nextTheme() {
     const themes = [Theme.Auto, Theme.Light, Theme.Dark];
@@ -519,6 +522,13 @@ export function ChatActions(props: {
     config.update((config) => (config.theme = nextTheme));
   }
 
+  function nextNetWork() {
+    config.update(
+      (config) =>
+        (config.modelConfig.enableNetWork = !config.modelConfig.enableNetWork),
+    );
+  }
+
   // stop all responses
   const couldStop = ChatControllerPool.hasPending();
   const stopAll = () => ChatControllerPool.stopAll();
@@ -831,6 +841,16 @@ export function ChatActions(props: {
           />
         )}
         {!isMobileScreen && <MCPAction />}
+
+        {canUseNetWork(currentModel) && (
+          <ChatAction
+            onClick={nextNetWork}
+            text={
+              Locale.Chat.InputActions.NetWork[enableNetWork ? "on" : "off"]
+            }
+            icon={<NetWorkIcon />}
+          />
+        )}
       </>
       <div className={styles["chat-input-actions-end"]}>
         {config.realtimeConfig.enable && (
diff --git a/app/icons/network.svg b/app/icons/network.svg
new file mode 100644
index 000000000..cf98a3587
--- /dev/null
+++ b/app/icons/network.svg
@@ -0,0 +1 @@
+<?xml version="1.0" standalone="no"?><!DOCTYPE svg PUBLIC "-//W3C//DTD SVG 1.1//EN" "http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd"><svg t="1754388361314" class="icon" viewBox="0 0 1024 1024" version="1.1" xmlns="http://www.w3.org/2000/svg" p-id="1734" xmlns:xlink="http://www.w3.org/1999/xlink" width="16" height="16"><path d="M522.666667 42.666667c3.776 0 7.530667 0.170667 11.242666 0.490666C782.954667 54.613333 981.333333 260.138667 981.333333 512c0 251.861333-198.4 457.386667-447.424 468.821333-3.712 0.341333-7.466667 0.512-11.242666 0.512l-3.285334-0.064C516.906667 981.333333 514.474667 981.333333 512 981.333333 252.8 981.333333 42.666667 771.2 42.666667 512S252.8 42.666667 512 42.666667l7.658667 0.042666L522.666667 42.666667zM490.666667 533.333333h-149.056c4.842667 191.082667 74.069333 342.08 149.056 376.576V533.333333z m213.056 0H554.666667v376.576c74.986667-34.517333 144.213333-185.514667 149.056-376.554666z m-426.133334 0H107.221333c8.746667 168.853333 120.853333 310.4 274.261334 362.517334-60.16-81.109333-100.394667-212.650667-103.893334-362.496z m639.189334 0h-149.034667c-3.349333 143.104-40.170667 269.504-95.872 351.253334C810.048 825.216 908.586667 691.221333 916.778667 533.333333zM381.482667 128.128c-146.986667 50.069333-255.936 181.909333-272.597334 341.226667h169.450667c6.634667-140.970667 45.866667-263.978667 103.146667-341.226667zM342.4 469.333333H490.666667V114.090667C418.496 147.285333 351.637333 288.426667 342.4 469.333333zM554.666667 114.090667L554.666667 469.333333h148.266666C693.674667 288.448 626.837333 147.306667 554.666667 114.090667z m117.184 25.322666l1.834666 2.730667c51.904 77.674667 87.04 194.474667 93.290667 327.189333h148.117333c-15.530667-148.565333-111.317333-273.237333-243.242666-329.92z" fill="#333333" p-id="1735"></path></svg>
\ No newline at end of file
diff --git a/app/locales/ar.ts b/app/locales/ar.ts
index 6237e11b3..addb59a31 100644
--- a/app/locales/ar.ts
+++ b/app/locales/ar.ts
@@ -72,6 +72,10 @@ const ar: PartialLocaleType = {
         light: "الوضع الفاتح",
         dark: "الوضع الداكن",
       },
+      NetWork: {
+        on: "تفعيل البحث عبر الإنترنت",
+        off: "إيقاف البحث عبر الإنترنت",
+      },
       Prompt: "الأوامر السريعة",
       Masks: "جميع الأقنعة",
       Clear: "مسح الدردشة",
diff --git a/app/locales/bn.ts b/app/locales/bn.ts
index 6ec3606f3..614f1ac78 100644
--- a/app/locales/bn.ts
+++ b/app/locales/bn.ts
@@ -72,6 +72,10 @@ const bn: PartialLocaleType = {
         light: "আলোর মোড",
         dark: "অন্ধকার মোড",
       },
+      NetWork: {
+        on: "ওয়েব অনুসন্ধান সক্রিয় করুন",
+        off: "ওয়েব অনুসন্ধান নিষ্ক্রিয় করুন",
+      },
       Prompt: "সংক্ষিপ্ত নির্দেশনা",
       Masks: "সমস্ত মাস্ক",
       Clear: "চ্যাট পরিষ্কার করুন",
diff --git a/app/locales/cn.ts b/app/locales/cn.ts
index 2cb7dd1e5..cc03490ab 100644
--- a/app/locales/cn.ts
+++ b/app/locales/cn.ts
@@ -76,6 +76,10 @@ const cn = {
         light: "亮色模式",
         dark: "深色模式",
       },
+      NetWork: {
+        on: "开启联网搜索",
+        off: "关闭联网搜索",
+      },
       Prompt: "快捷指令",
       Masks: "所有面具",
       Clear: "清除聊天",
diff --git a/app/locales/cs.ts b/app/locales/cs.ts
index c4ce2653a..e84e2dfc5 100644
--- a/app/locales/cs.ts
+++ b/app/locales/cs.ts
@@ -72,6 +72,10 @@ const cs: PartialLocaleType = {
         light: "Světelný režim",
         dark: "Tmavý režim",
       },
+      NetWork: {
+        on: "Povolit webové vyhledávání",
+        off: "Zakázat webové vyhledávání",
+      },
       Prompt: "Rychlé příkazy",
       Masks: "Všechny masky",
       Clear: "Vymazat konverzaci",
diff --git a/app/locales/da.ts b/app/locales/da.ts
index 7c976188a..62d28d5e6 100644
--- a/app/locales/da.ts
+++ b/app/locales/da.ts
@@ -74,6 +74,10 @@ const da: PartialLocaleType = {
         light: "Lyst tema",
         dark: "Mørkt tema",
       },
+      NetWork: {
+        on: "Aktivér web-søgning",
+        off: "Deaktivér web-søgning",
+      },
       Prompt: "Prompts",
       Masks: "Personaer",
       Clear: "Ryd kontekst",
diff --git a/app/locales/de.ts b/app/locales/de.ts
index 1e5c75985..574738b95 100644
--- a/app/locales/de.ts
+++ b/app/locales/de.ts
@@ -73,6 +73,10 @@ const de: PartialLocaleType = {
         light: "Helles Thema",
         dark: "Dunkles Thema",
       },
+      NetWork: {
+        on: "Web-Suche aktivieren",
+        off: "Web-Suche deaktivieren",
+      },
       Prompt: "Schnellbefehle",
       Masks: "Alle Masken",
       Clear: "Chat löschen",
@@ -437,7 +441,8 @@ const de: PartialLocaleType = {
       AI302: {
         ApiKey: {
           Title: "Schnittstellenschlüssel",
-          SubTitle: "Verwenden Sie einen benutzerdefinierten 302.AI API-Schlüssel",
+          SubTitle:
+            "Verwenden Sie einen benutzerdefinierten 302.AI API-Schlüssel",
           Placeholder: "302.AI API-Schlüssel",
         },
         Endpoint: {
diff --git a/app/locales/en.ts b/app/locales/en.ts
index a6d191904..7c8ae8708 100644
--- a/app/locales/en.ts
+++ b/app/locales/en.ts
@@ -77,6 +77,10 @@ const en: LocaleType = {
         light: "Light Theme",
         dark: "Dark Theme",
       },
+      NetWork: {
+        on: "Enable Web Search",
+        off: "Disable Web Search",
+      },
       Prompt: "Prompts",
       Masks: "Masks",
       Clear: "Clear Context",
diff --git a/app/locales/es.ts b/app/locales/es.ts
index be229c20c..95657b67d 100644
--- a/app/locales/es.ts
+++ b/app/locales/es.ts
@@ -74,6 +74,10 @@ const es: PartialLocaleType = {
         light: "Modo claro",
         dark: "Modo oscuro",
       },
+      NetWork: {
+        on: "Habilitar búsqueda web",
+        off: "Deshabilitar búsqueda web",
+      },
       Prompt: "Comandos rápidos",
       Masks: "Todas las máscaras",
       Clear: "Limpiar chat",
diff --git a/app/locales/fr.ts b/app/locales/fr.ts
index 0675d925c..ecbcba54e 100644
--- a/app/locales/fr.ts
+++ b/app/locales/fr.ts
@@ -73,6 +73,10 @@ const fr: PartialLocaleType = {
         light: "Mode clair",
         dark: "Mode sombre",
       },
+      NetWork: {
+        on: "Activer la recherche web",
+        off: "Désactiver la recherche web",
+      },
       Prompt: "Commandes rapides",
       Masks: "Tous les masques",
       Clear: "Effacer la discussion",
diff --git a/app/locales/id.ts b/app/locales/id.ts
index 68cf43e30..7963ad5a6 100644
--- a/app/locales/id.ts
+++ b/app/locales/id.ts
@@ -72,6 +72,10 @@ const id: PartialLocaleType = {
         light: "Mode Terang",
         dark: "Mode Gelap",
       },
+      NetWork: {
+        on: "Aktifkan pencarian web",
+        off: "Nonaktifkan pencarian web",
+      },
       Prompt: "Perintah Cepat",
       Masks: "Semua Masker",
       Clear: "Hapus Obrolan",
diff --git a/app/locales/it.ts b/app/locales/it.ts
index c098f63d1..84b0736b8 100644
--- a/app/locales/it.ts
+++ b/app/locales/it.ts
@@ -73,6 +73,10 @@ const it: PartialLocaleType = {
         light: "Tema chiaro",
         dark: "Tema scuro",
       },
+      NetWork: {
+        on: "Abilita ricerca web",
+        off: "Disabilita ricerca web",
+      },
       Prompt: "Comandi rapidi",
       Masks: "Tutte le maschere",
       Clear: "Pulisci chat",
diff --git a/app/locales/jp.ts b/app/locales/jp.ts
index d605b578f..977f7eb96 100644
--- a/app/locales/jp.ts
+++ b/app/locales/jp.ts
@@ -72,6 +72,10 @@ const jp: PartialLocaleType = {
         light: "ライトモード",
         dark: "ダークモード",
       },
+      NetWork: {
+        on: "ウェブ検索を有効化",
+        off: "ウェブ検索を無効化",
+      },
       Prompt: "クイックコマンド",
       Masks: "すべてのマスク",
       Clear: "チャットをクリア",
diff --git a/app/locales/ko.ts b/app/locales/ko.ts
index 023edca4a..118c86bd1 100644
--- a/app/locales/ko.ts
+++ b/app/locales/ko.ts
@@ -76,6 +76,10 @@ const ko: PartialLocaleType = {
         light: "라이트 모드",
         dark: "다크 모드",
       },
+      NetWork: {
+        on: "웹 검색 활성화",
+        off: "웹 검색 비활성화",
+      },
       Prompt: "빠른 명령",
       Masks: "모든 마스크",
       Clear: "채팅 지우기",
diff --git a/app/locales/no.ts b/app/locales/no.ts
index e0556a853..2635acf9b 100644
--- a/app/locales/no.ts
+++ b/app/locales/no.ts
@@ -74,6 +74,10 @@ const no: PartialLocaleType = {
         light: "Lyst tema",
         dark: "Mørkt tema",
       },
+      NetWork: {
+        on: "Aktiver web-søk",
+        off: "Deaktiver web-søk",
+      },
       Prompt: "Hurtigkommando",
       Masks: "Alle masker",
       Clear: "Rydd samtale",
diff --git a/app/locales/pt.ts b/app/locales/pt.ts
index 6b80c2ec1..ea34a3e51 100644
--- a/app/locales/pt.ts
+++ b/app/locales/pt.ts
@@ -72,6 +72,10 @@ const pt: PartialLocaleType = {
         light: "Tema Claro",
         dark: "Tema Escuro",
       },
+      NetWork: {
+        on: "Ativar pesquisa web",
+        off: "Desativar pesquisa web",
+      },
       Prompt: "Prompts",
       Masks: "Máscaras",
       Clear: "Limpar Contexto",
diff --git a/app/locales/ru.ts b/app/locales/ru.ts
index a4f0c949c..2aadcf6fd 100644
--- a/app/locales/ru.ts
+++ b/app/locales/ru.ts
@@ -72,6 +72,10 @@ const ru: PartialLocaleType = {
         light: "Светлая тема",
         dark: "Темная тема",
       },
+      NetWork: {
+        on: "Включить веб-поиск",
+        off: "Отключить веб-поиск",
+      },
       Prompt: "Быстрая команда",
       Masks: "Все маски",
       Clear: "Очистить чат",
diff --git a/app/locales/sk.ts b/app/locales/sk.ts
index 6508f7f38..f5dae93d0 100644
--- a/app/locales/sk.ts
+++ b/app/locales/sk.ts
@@ -73,6 +73,10 @@ const sk: PartialLocaleType = {
         light: "Svetlý motív",
         dark: "Tmavý motív",
       },
+      NetWork: {
+        on: "Povoliť webové vyhľadávanie",
+        off: "Zakázať webové vyhľadávanie",
+      },
       Prompt: "Výzvy",
       Masks: "Masky",
       Clear: "Vymazať kontext",
diff --git a/app/locales/tr.ts b/app/locales/tr.ts
index 15d21fb7d..219e44be8 100644
--- a/app/locales/tr.ts
+++ b/app/locales/tr.ts
@@ -72,6 +72,10 @@ const tr: PartialLocaleType = {
         light: "Açık mod",
         dark: "Koyu mod",
       },
+      NetWork: {
+        on: "Web aramasını etkinleştir",
+        off: "Web aramasını devre dışı bırak",
+      },
       Prompt: "Kısayol komutu",
       Masks: "Tüm maskeler",
       Clear: "Sohbeti temizle",
diff --git a/app/locales/tw.ts b/app/locales/tw.ts
index d09465d9e..06c25b1ee 100644
--- a/app/locales/tw.ts
+++ b/app/locales/tw.ts
@@ -72,6 +72,10 @@ const tw = {
         light: "亮色模式",
         dark: "深色模式",
       },
+      NetWork: {
+        on: "開啟網路搜尋",
+        off: "關閉網路搜尋",
+      },
       Prompt: "快捷指令",
       Masks: "所有角色範本",
       Clear: "清除聊天",
diff --git a/app/locales/vi.ts b/app/locales/vi.ts
index 7f6ed3f6f..eeb3e06a7 100644
--- a/app/locales/vi.ts
+++ b/app/locales/vi.ts
@@ -72,6 +72,10 @@ const vi: PartialLocaleType = {
         light: "Chế độ sáng",
         dark: "Chế độ tối",
       },
+      NetWork: {
+        on: "Bật tìm kiếm web",
+        off: "Tắt tìm kiếm web",
+      },
       Prompt: "Lệnh tắt",
       Masks: "Tất cả mặt nạ",
       Clear: "Xóa cuộc trò chuyện",
diff --git a/app/store/config.ts b/app/store/config.ts
index 602e80318..fa243dbb5 100644
--- a/app/store/config.ts
+++ b/app/store/config.ts
@@ -6,7 +6,6 @@ import {
   DEFAULT_MODELS,
   DEFAULT_SIDEBAR_WIDTH,
   DEFAULT_TTS_ENGINE,
-  DEFAULT_TTS_ENGINES,
   DEFAULT_TTS_MODEL,
   DEFAULT_TTS_MODELS,
   DEFAULT_TTS_VOICE,
@@ -82,6 +81,7 @@ export const DEFAULT_CONFIG = {
     size: "1024x1024" as ModelSize,
     quality: "standard" as DalleQuality,
     style: "vivid" as DalleStyle,
+    enableNetWork: false,
   },
 
   ttsConfig: {
diff --git a/app/utils.ts b/app/utils.ts
index 073d4743c..6422afa05 100644
--- a/app/utils.ts
+++ b/app/utils.ts
@@ -296,6 +296,15 @@ export function isDalle3(model: string) {
   return "dall-e-3" === model;
 }
 
+export function canUseNetWork(model: string) {
+  return (
+    model.includes("qwen-max") ||
+    model.includes("qwen-plus") ||
+    model.includes("qwen-turbo") ||
+    model.includes("qwq")
+  );
+}
+
 export function getTimeoutMSByModel(model: string) {
   model = model.toLowerCase();
   if (
diff --git a/public/plugins.json b/public/plugins.json
index c4d7ec46a..d255759cb 100644
--- a/public/plugins.json
+++ b/public/plugins.json
@@ -2,16 +2,16 @@
   {
     "id": "dalle3",
     "name": "Dalle3",
-    "schema": "https://ghp.ci/https://raw.githubusercontent.com/ChatGPTNextWeb/NextChat-Awesome-Plugins/main/plugins/dalle/openapi.json"
+    "schema": "https://raw.githubusercontent.com/ChatGPTNextWeb/NextChat-Awesome-Plugins/main/plugins/dalle/openapi.json"
   },
   {
     "id": "arxivsearch",
     "name": "ArxivSearch",
-    "schema": "https://ghp.ci/https://raw.githubusercontent.com/ChatGPTNextWeb/NextChat-Awesome-Plugins/main/plugins/arxivsearch/openapi.json"
+    "schema": "https://raw.githubusercontent.com/ChatGPTNextWeb/NextChat-Awesome-Plugins/main/plugins/arxivsearch/openapi.json"
   },
   {
     "id": "duckduckgolite",
     "name": "DuckDuckGoLiteSearch",
-    "schema": "https://ghp.ci/https://raw.githubusercontent.com/ChatGPTNextWeb/NextChat-Awesome-Plugins/main/plugins/duckduckgolite/openapi.json"
+    "schema": "https://raw.githubusercontent.com/ChatGPTNextWeb/NextChat-Awesome-Plugins/main/plugins/duckduckgolite/openapi.json"
   }
 ]

From 86f2c67784499a9c676b475dc7bc8c6c35c3514c Mon Sep 17 00:00:00 2001
From: EvanWu <850123119@qq.com>
Date: Tue, 5 Aug 2025 18:35:02 +0800
Subject: [PATCH 08/13] =?UTF-8?q?feat:=20=E4=BC=98=E5=8C=96CR=20=E4=BB=A3?=
 =?UTF-8?q?=E7=A0=81=EF=BC=8C=E4=BC=98=E5=8C=96=E9=9F=B3=E9=A2=91=E4=B8=8A?=
 =?UTF-8?q?=E4=B8=8B=E6=96=87=E7=AE=A1=E7=90=86=EF=BC=8C=E4=BF=AE=E5=A4=8D?=
 =?UTF-8?q?=20PCM=20=E6=95=B0=E6=8D=AE=E8=BD=AC=E6=8D=A2=E9=80=BB=E8=BE=91?=
 =?UTF-8?q?=EF=BC=8C=E7=A1=AE=E4=BF=9D=E6=88=90=E5=8A=9F=E8=BF=9E=E6=8E=A5?=
 =?UTF-8?q?=E6=97=B6=E6=B8=85=E9=99=A4=E8=B6=85=E6=97=B6?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 app/client/platforms/alibaba.ts | 20 ++++++++++++--------
 1 file changed, 12 insertions(+), 8 deletions(-)

diff --git a/app/client/platforms/alibaba.ts b/app/client/platforms/alibaba.ts
index ce88f6d53..4d2ca6232 100644
--- a/app/client/platforms/alibaba.ts
+++ b/app/client/platforms/alibaba.ts
@@ -67,7 +67,7 @@ interface RequestPayload {
 }
 
 export class QwenApi implements LLMApi {
-  private audioContext?: AudioContext;
+  private static audioContext: AudioContext | null = null;
   path(path: string): string {
     const accessStore = useAccessStore.getState();
 
@@ -133,6 +133,7 @@ export class QwenApi implements LLMApi {
       );
 
       const res = await fetch(speechPath, speechPayload);
+      clearTimeout(requestTimeoutId); // Clear timeout on successful connection
 
       const reader = res.body!.getReader();
       const decoder = new TextDecoder();
@@ -150,13 +151,12 @@ export class QwenApi implements LLMApi {
           if (line.startsWith("data:")) {
             const data = line.slice(5);
             const json = JSON.parse(data);
-            if (json.output.audio.data) {
+            if (json.output?.audio?.data) {
               yield this.PCMBase64ToAudioBuffer(json.output.audio.data);
             }
           }
         }
       }
-      clearTimeout(requestTimeoutId);
       reader.releaseLock();
     } catch (e) {
       console.log("[Request] failed to make a speech request", e);
@@ -371,13 +371,17 @@ export class QwenApi implements LLMApi {
     }
   }
 
-  // 将 PCM 字节数据转换为 AudioBuffer
-  private convertToAudioBuffer(pcmData: Uint8Array) {
-    if (!this.audioContext) {
-      this.audioContext = new (window.AudioContext ||
+  private static getAudioContext(): AudioContext {
+    if (!QwenApi.audioContext) {
+      QwenApi.audioContext = new (window.AudioContext ||
         window.webkitAudioContext)();
     }
-    const audioContext = this.audioContext;
+    return QwenApi.audioContext;
+  }
+
+  // 将 PCM 字节数据转换为 AudioBuffer
+  private convertToAudioBuffer(pcmData: Uint8Array) {
+    const audioContext = QwenApi.getAudioContext();
     const channels = 1;
     const sampleRate = 24000;
     return new Promise<AudioBuffer>((resolve, reject) => {

From 9cb7275703945dc4fb65a799461df591f6ee3e0d Mon Sep 17 00:00:00 2001
From: EvanWu <850123119@qq.com>
Date: Tue, 5 Aug 2025 18:53:31 +0800
Subject: [PATCH 09/13] =?UTF-8?q?feat:=20=E6=9B=B4=E6=96=B0=E7=BD=91?=
 =?UTF-8?q?=E7=BB=9C=E9=85=8D=E7=BD=AE=E7=AE=A1=E7=90=86=EF=BC=8C=E4=BF=AE?=
 =?UTF-8?q?=E5=A4=8D=E4=B8=BB=E9=A2=98=E5=88=87=E6=8D=A2=E6=97=B6=E7=9A=84?=
 =?UTF-8?q?=E7=BD=91=E7=BB=9C=E7=8A=B6=E6=80=81=E9=80=BB=E8=BE=91?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 app/components/chat.tsx | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/app/components/chat.tsx b/app/components/chat.tsx
index 9f7357e43..01d0d565a 100644
--- a/app/components/chat.tsx
+++ b/app/components/chat.tsx
@@ -512,7 +512,7 @@ export function ChatActions(props: {
 
   // switch themes
   const theme = config.theme;
-  const enableNetWork = config.modelConfig.enableNetWork;
+  const enableNetWork = session.mask.modelConfig.enableNetWork || false;
 
   function nextTheme() {
     const themes = [Theme.Auto, Theme.Light, Theme.Dark];
@@ -523,10 +523,10 @@ export function ChatActions(props: {
   }
 
   function nextNetWork() {
-    config.update(
-      (config) =>
-        (config.modelConfig.enableNetWork = !config.modelConfig.enableNetWork),
-    );
+    chatStore.updateTargetSession(session, (session) => {
+      session.mask.modelConfig.enableNetWork =
+        !session.mask.modelConfig.enableNetWork;
+    });
   }
 
   // stop all responses

From 45eb96fe92b0e0601ef71ef868c6a1a4f1ef2f91 Mon Sep 17 00:00:00 2001
From: EvanWu <850123119@qq.com>
Date: Tue, 5 Aug 2025 20:02:52 +0800
Subject: [PATCH 10/13] =?UTF-8?q?feat:=20=E9=80=89=E6=8B=A9=E6=A8=A1?=
 =?UTF-8?q?=E5=9E=8B=E5=9B=9E=E5=A4=8D=E8=81=94=E7=BD=91=E9=85=8D=E7=BD=AE?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 app/components/chat.tsx | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/app/components/chat.tsx b/app/components/chat.tsx
index 01d0d565a..5dbaeaa20 100644
--- a/app/components/chat.tsx
+++ b/app/components/chat.tsx
@@ -707,6 +707,9 @@ export function ChatActions(props: {
                 session.mask.modelConfig.providerName =
                   providerName as ServiceProvider;
                 session.mask.syncGlobalConfig = false;
+                session.mask.modelConfig.enableNetWork = canUseNetWork(model)
+                  ? session.mask.modelConfig.enableNetWork
+                  : false;
               });
               if (providerName == "ByteDance") {
                 const selectedModel = models.find(

From b73e65d2d0d5af630ca99870c189062620adc544 Mon Sep 17 00:00:00 2001
From: EvanWu <850123119@qq.com>
Date: Fri, 8 Aug 2025 16:50:22 +0800
Subject: [PATCH 11/13] =?UTF-8?q?refactor:=20=E5=9B=9E=E9=80=80=20plugins.?=
 =?UTF-8?q?json?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 public/plugins.json | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/public/plugins.json b/public/plugins.json
index d255759cb..c4d7ec46a 100644
--- a/public/plugins.json
+++ b/public/plugins.json
@@ -2,16 +2,16 @@
   {
     "id": "dalle3",
     "name": "Dalle3",
-    "schema": "https://raw.githubusercontent.com/ChatGPTNextWeb/NextChat-Awesome-Plugins/main/plugins/dalle/openapi.json"
+    "schema": "https://ghp.ci/https://raw.githubusercontent.com/ChatGPTNextWeb/NextChat-Awesome-Plugins/main/plugins/dalle/openapi.json"
   },
   {
     "id": "arxivsearch",
     "name": "ArxivSearch",
-    "schema": "https://raw.githubusercontent.com/ChatGPTNextWeb/NextChat-Awesome-Plugins/main/plugins/arxivsearch/openapi.json"
+    "schema": "https://ghp.ci/https://raw.githubusercontent.com/ChatGPTNextWeb/NextChat-Awesome-Plugins/main/plugins/arxivsearch/openapi.json"
   },
   {
     "id": "duckduckgolite",
     "name": "DuckDuckGoLiteSearch",
-    "schema": "https://raw.githubusercontent.com/ChatGPTNextWeb/NextChat-Awesome-Plugins/main/plugins/duckduckgolite/openapi.json"
+    "schema": "https://ghp.ci/https://raw.githubusercontent.com/ChatGPTNextWeb/NextChat-Awesome-Plugins/main/plugins/duckduckgolite/openapi.json"
   }
 ]

From 800c96c47969210df5ac12e5e22091e928c9b6b0 Mon Sep 17 00:00:00 2001
From: EvanWu <850123119@qq.com>
Date: Mon, 11 Aug 2025 10:59:17 +0800
Subject: [PATCH 12/13] =?UTF-8?q?feat:=20=E5=A2=9E=E5=8A=A0=E6=B5=81?=
 =?UTF-8?q?=E5=BC=8F=E8=AF=AD=E9=9F=B3=E5=90=88=E6=88=90=E9=94=99=E8=AF=AF?=
 =?UTF-8?q?=E5=A4=84=E7=90=86=EF=BC=8C=E4=BC=98=E5=8C=96=E8=AF=B7=E6=B1=82?=
 =?UTF-8?q?=E8=B6=85=E6=97=B6=E9=80=BB=E8=BE=91?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 app/client/platforms/alibaba.ts | 30 ++++++++++++++++++------------
 1 file changed, 18 insertions(+), 12 deletions(-)

diff --git a/app/client/platforms/alibaba.ts b/app/client/platforms/alibaba.ts
index 4d2ca6232..fdca6f295 100644
--- a/app/client/platforms/alibaba.ts
+++ b/app/client/platforms/alibaba.ts
@@ -1,10 +1,5 @@
 "use client";
-import {
-  ApiPath,
-  Alibaba,
-  ALIBABA_BASE_URL,
-  REQUEST_TIMEOUT_MS,
-} from "@/app/constant";
+import { ApiPath, Alibaba, ALIBABA_BASE_URL } from "@/app/constant";
 import {
   useAccessStore,
   useAppConfig,
@@ -103,6 +98,9 @@ export class QwenApi implements LLMApi {
   }
 
   async *streamSpeech(options: SpeechOptions): AsyncGenerator<AudioBuffer> {
+    if (!options.input || !options.model) {
+      throw new Error("Missing required parameters: input and model");
+    }
     const requestPayload = {
       model: options.model,
       input: {
@@ -129,7 +127,7 @@ export class QwenApi implements LLMApi {
       // make a fetch request
       const requestTimeoutId = setTimeout(
         () => controller.abort(),
-        REQUEST_TIMEOUT_MS,
+        getTimeoutMSByModel(options.model),
       );
 
       const res = await fetch(speechPath, speechPayload);
@@ -148,12 +146,20 @@ export class QwenApi implements LLMApi {
         buffer = lines.pop() || "";
 
         for (const line of lines) {
-          if (line.startsWith("data:")) {
-            const data = line.slice(5);
-            const json = JSON.parse(data);
-            if (json.output?.audio?.data) {
-              yield this.PCMBase64ToAudioBuffer(json.output.audio.data);
+          const data = line.slice(5);
+          try {
+            if (line.startsWith("data:")) {
+              const json = JSON.parse(data);
+              if (json.output?.audio?.data) {
+                yield this.PCMBase64ToAudioBuffer(json.output.audio.data);
+              }
             }
+          } catch (parseError) {
+            console.warn(
+              "[StreamSpeech] Failed to parse SSE data:",
+              parseError,
+            );
+            continue;
           }
         }
       }

From 16c3255e99c1e8fa6a9d2bfa3b90a833ce7d260e Mon Sep 17 00:00:00 2001
From: EvanWu <850123119@qq.com>
Date: Thu, 21 Aug 2025 10:13:25 +0800
Subject: [PATCH 13/13] =?UTF-8?q?fix:=20=E5=B0=86=20yarn=20=E7=89=88?=
 =?UTF-8?q?=E6=9C=AC=E5=9B=9E=E9=80=80=E8=87=B3=201.22.19=EF=BC=8C?=
 =?UTF-8?q?=E4=BB=A5=E4=BF=9D=E6=8C=81=E4=B8=8E=20packageManager=20?=
 =?UTF-8?q?=E7=9A=84=E4=B8=80=E8=87=B4=E6=80=A7?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 package.json | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/package.json b/package.json
index b69c07e01..85142c101 100644
--- a/package.json
+++ b/package.json
@@ -96,6 +96,6 @@
   "packageManager": "yarn@1.22.19",
   "volta": {
     "node": "20.19.4",
-    "yarn": "1.22.22"
+    "yarn": "1.22.19"
   }
 }