feat: support gpt-4o-audio

2025-11-08 09:43:42 +08:00 · 2025-01-14 06:38:07 +00:00
parent b5c55a03cf
commit 9730ac3bb5
14 changed files with 378 additions and 189 deletions
--- a/relay/controller/audio.go
+++ b/relay/controller/audio.go
@@ -7,10 +7,8 @@ import (
 	"encoding/json"
 	"fmt"
 	"io"
-	"math"
 	"mime/multipart"
 	"net/http"
-	"os"
 	"strings"

 	"github.com/gin-gonic/gin"
@@ -23,6 +21,7 @@ import (
 	"github.com/songquanpeng/one-api/model"
 	"github.com/songquanpeng/one-api/relay/adaptor/openai"
 	"github.com/songquanpeng/one-api/relay/billing"
+	"github.com/songquanpeng/one-api/relay/billing/ratio"
 	billingratio "github.com/songquanpeng/one-api/relay/billing/ratio"
 	"github.com/songquanpeng/one-api/relay/channeltype"
 	"github.com/songquanpeng/one-api/relay/meta"
@@ -30,10 +29,6 @@ import (
 	"github.com/songquanpeng/one-api/relay/relaymode"
 )

-const (
-	TokensPerSecond = 1000 / 20 // $0.006 / minute -> $0.002 / 20 seconds -> $0.002 / 1K tokens
-)
-
 type commonAudioRequest struct {
 	File *multipart.FileHeader `form:"file" binding:"required"`
 }
@@ -54,27 +49,13 @@ func countAudioTokens(c *gin.Context) (int, error) {
 	if err != nil {
 		return 0, errors.WithStack(err)
 	}
+	defer reqFp.Close()

-	fp, err := os.CreateTemp("", "audio-*")
-	if err != nil {
-		return 0, errors.WithStack(err)
-	}
-	defer os.Remove(fp.Name())
+	ctxMeta := meta.GetByContext(c)

-	_, err = io.Copy(fp, reqFp)
-	if err != nil {
-		return 0, errors.WithStack(err)
-	}
-	if err = fp.Close(); err != nil {
-		return 0, errors.WithStack(err)
-	}
-
-	duration, err := helper.GetAudioDuration(c.Request.Context(), fp.Name())
-	if err != nil {
-		return 0, errors.WithStack(err)
-	}
-
-	return int(math.Ceil(duration)) * TokensPerSecond, nil
+	return helper.GetAudioTokens(c.Request.Context(),
+		reqFp,
+		ratio.GetAudioPromptTokensPerSecond(ctxMeta.ActualModelName))
 }

 func RelayAudioHelper(c *gin.Context, relayMode int) *relaymodel.ErrorWithStatusCode {
--- a/relay/controller/helper.go
+++ b/relay/controller/helper.go
@@ -42,10 +42,10 @@ func getAndValidateTextRequest(c *gin.Context, relayMode int) (*relaymodel.Gener
 	return textRequest, nil
 }

-func getPromptTokens(textRequest *relaymodel.GeneralOpenAIRequest, relayMode int) int {
+func getPromptTokens(ctx context.Context, textRequest *relaymodel.GeneralOpenAIRequest, relayMode int) int {
 	switch relayMode {
 	case relaymode.ChatCompletions:
-		return openai.CountTokenMessages(textRequest.Messages, textRequest.Model)
+		return openai.CountTokenMessages(ctx, textRequest.Messages, textRequest.Model)
 	case relaymode.Completions:
 		return openai.CountTokenInput(textRequest.Prompt, textRequest.Model)
 	case relaymode.Moderations:
--- a/relay/controller/text.go
+++ b/relay/controller/text.go
@@ -47,7 +47,7 @@ func RelayTextHelper(c *gin.Context) *relaymodel.ErrorWithStatusCode {

 	ratio := modelRatio * groupRatio
 	// pre-consume quota
-	promptTokens := getPromptTokens(textRequest, meta.Mode)
+	promptTokens := getPromptTokens(c.Request.Context(), textRequest, meta.Mode)
 	meta.PromptTokens = promptTokens
 	preConsumedQuota, bizErr := preConsumeQuota(ctx, textRequest, promptTokens, ratio, meta)
 	if bizErr != nil {