feat: support edge tts

2025-11-13 04:33:42 +08:00 · 2024-05-27 21:25:25 +08:00
parent b1e91ca5cd
commit e759631ba3
14 changed files with 537 additions and 56 deletions
--- a/app/components/chat.tsx
+++ b/app/components/chat.tsx
@@ -95,6 +95,7 @@ import { useNavigate } from "react-router-dom";
 import {
  CHAT_PAGE_SIZE,
  DEFAULT_STT_ENGINE,
+  DEFAULT_TTS_ENGINE,
  FIREFOX_DEFAULT_STT_ENGINE,
  LAST_INPUT_KEY,
  ModelProvider,
@@ -119,6 +120,7 @@ import {
  WebTranscriptionApi,
 } from "../utils/speech";
 import { FileInfo } from "../client/platforms/utils";
+import { MsEdgeTTS, OUTPUT_FORMAT } from "../utils/ms_edge_tts";

 const ttsPlayer = createTTSPlayer();

@@ -1086,12 +1088,25 @@ function _Chat() {
      const config = useAppConfig.getState();
      setSpeechLoading(true);
      ttsPlayer.init();
-      const audioBuffer = await api.llm.speech({
-        model: config.ttsConfig.model,
-        input: text,
-        voice: config.ttsConfig.voice,
-        speed: config.ttsConfig.speed,
-      });
+      let audioBuffer: ArrayBuffer;
+      const { markdownToTxt } = require("markdown-to-txt");
+      const textContent = markdownToTxt(text);
+      if (config.ttsConfig.engine !== DEFAULT_TTS_ENGINE) {
+        const edgeVoiceName = accessStore.edgeVoiceName();
+        const tts = new MsEdgeTTS();
+        await tts.setMetadata(
+          edgeVoiceName,
+          OUTPUT_FORMAT.AUDIO_24KHZ_96KBITRATE_MONO_MP3,
+        );
+        audioBuffer = await tts.toArrayBuffer(textContent);
+      } else {
+        audioBuffer = await api.llm.speech({
+          model: config.ttsConfig.model,
+          input: textContent,
+          voice: config.ttsConfig.voice,
+          speed: config.ttsConfig.speed,
+        });
+      }
      setSpeechStatus(true);
      ttsPlayer
        .play(audioBuffer, () => {
--- a/app/components/tts-config.tsx
+++ b/app/components/tts-config.tsx
@@ -2,7 +2,12 @@ import { PluginConfig, TTSConfig, TTSConfigValidator } from "../store";

 import Locale from "../locales";
 import { ListItem, Select } from "./ui-lib";
-import { DEFAULT_TTS_MODELS, DEFAULT_TTS_VOICES } from "../constant";
+import {
+  DEFAULT_TTS_ENGINE,
+  DEFAULT_TTS_ENGINES,
+  DEFAULT_TTS_MODELS,
+  DEFAULT_TTS_VOICES,
+} from "../constant";
 import { InputRange } from "./input-range";

 export function TTSConfigList(props: {
@@ -39,66 +44,89 @@ export function TTSConfigList(props: {
          }
        ></input>
      </ListItem> */}
-      <ListItem title={Locale.Settings.TTS.Model}>
+      <ListItem title={Locale.Settings.TTS.Engine}>
        <Select
-          value={props.ttsConfig.model}
+          value={props.ttsConfig.engine}
          onChange={(e) => {
            props.updateConfig(
              (config) =>
-                (config.model = TTSConfigValidator.model(
+                (config.engine = TTSConfigValidator.engine(
                  e.currentTarget.value,
                )),
            );
          }}
        >
-          {DEFAULT_TTS_MODELS.map((v, i) => (
+          {DEFAULT_TTS_ENGINES.map((v, i) => (
            <option value={v} key={i}>
              {v}
            </option>
          ))}
        </Select>
      </ListItem>
-      <ListItem
-        title={Locale.Settings.TTS.Voice.Title}
-        subTitle={Locale.Settings.TTS.Voice.SubTitle}
-      >
-        <Select
-          value={props.ttsConfig.voice}
-          onChange={(e) => {
-            props.updateConfig(
-              (config) =>
-                (config.voice = TTSConfigValidator.voice(
-                  e.currentTarget.value,
-                )),
-            );
-          }}
-        >
-          {DEFAULT_TTS_VOICES.map((v, i) => (
-            <option value={v} key={i}>
-              {v}
-            </option>
-          ))}
-        </Select>
-      </ListItem>
-      <ListItem
-        title={Locale.Settings.TTS.Speed.Title}
-        subTitle={Locale.Settings.TTS.Speed.SubTitle}
-      >
-        <InputRange
-          value={props.ttsConfig.speed?.toFixed(1)}
-          min="0.3"
-          max="4.0"
-          step="0.1"
-          onChange={(e) => {
-            props.updateConfig(
-              (config) =>
-                (config.speed = TTSConfigValidator.speed(
-                  e.currentTarget.valueAsNumber,
-                )),
-            );
-          }}
-        ></InputRange>
-      </ListItem>
+      {props.ttsConfig.engine === DEFAULT_TTS_ENGINE && (
+        <>
+          <ListItem title={Locale.Settings.TTS.Model}>
+            <Select
+              value={props.ttsConfig.model}
+              onChange={(e) => {
+                props.updateConfig(
+                  (config) =>
+                    (config.model = TTSConfigValidator.model(
+                      e.currentTarget.value,
+                    )),
+                );
+              }}
+            >
+              {DEFAULT_TTS_MODELS.map((v, i) => (
+                <option value={v} key={i}>
+                  {v}
+                </option>
+              ))}
+            </Select>
+          </ListItem>
+          <ListItem
+            title={Locale.Settings.TTS.Voice.Title}
+            subTitle={Locale.Settings.TTS.Voice.SubTitle}
+          >
+            <Select
+              value={props.ttsConfig.voice}
+              onChange={(e) => {
+                props.updateConfig(
+                  (config) =>
+                    (config.voice = TTSConfigValidator.voice(
+                      e.currentTarget.value,
+                    )),
+                );
+              }}
+            >
+              {DEFAULT_TTS_VOICES.map((v, i) => (
+                <option value={v} key={i}>
+                  {v}
+                </option>
+              ))}
+            </Select>
+          </ListItem>
+          <ListItem
+            title={Locale.Settings.TTS.Speed.Title}
+            subTitle={Locale.Settings.TTS.Speed.SubTitle}
+          >
+            <InputRange
+              value={props.ttsConfig.speed?.toFixed(1)}
+              min="0.3"
+              max="4.0"
+              step="0.1"
+              onChange={(e) => {
+                props.updateConfig(
+                  (config) =>
+                    (config.speed = TTSConfigValidator.speed(
+                      e.currentTarget.valueAsNumber,
+                    )),
+                );
+              }}
+            ></InputRange>
+          </ListItem>
+        </>
+      )}
    </>
  );
 }