feat: 重构图片消息传递逻辑 (#957, #955)

2026-06-13 09:16:04 +00:00 · 2024-12-24 10:57:17 +08:00
parent 535c4a8a11
commit 12cfce3622
9 changed files with 70 additions and 54 deletions
--- a/pkg/provider/entities.py
+++ b/pkg/provider/entities.py
@@ -38,6 +38,8 @@ class ContentElement(pydantic.BaseModel):

    image_url: typing.Optional[ImageURLContentObject] = None

+    image_base64: typing.Optional[str] = None
+
    def __str__(self):
        if self.type == 'text':
            return self.text
@@ -53,6 +55,10 @@ class ContentElement(pydantic.BaseModel):
    @classmethod
    def from_image_url(cls, image_url: str):
        return cls(type='image_url', image_url=ImageURLContentObject(url=image_url))
+    
+    @classmethod
+    def from_image_base64(cls, image_base64: str):
+        return cls(type='image_base64', image_base64=image_base64)


 class Message(pydantic.BaseModel):
--- a/pkg/provider/modelmgr/requester.py
+++ b/pkg/provider/modelmgr/requester.py
@@ -48,6 +48,7 @@ class LLMAPIRequester(metaclass=abc.ABCMeta):
    @abc.abstractmethod
    async def call(
        self,
+        query: core_entities.Query,
        model: modelmgr_entities.LLMModelInfo,
        messages: typing.List[llm_entities.Message],
        funcs: typing.List[tools_entities.LLMFunction] = None,
--- a/pkg/provider/modelmgr/requesters/anthropicmsgs.py
+++ b/pkg/provider/modelmgr/requesters/anthropicmsgs.py
@@ -2,6 +2,7 @@ from __future__ import annotations

 import typing
 import traceback
+import base64

 import anthropic
 import httpx
@@ -39,6 +40,7 @@ class AnthropicMessages(requester.LLMAPIRequester):

    async def call(
        self,
+        query: core_entities.Query,
        model: entities.LLMModelInfo,
        messages: typing.List[llm_entities.Message],
        funcs: typing.List[tools_entities.LLMFunction] = None,
@@ -70,28 +72,26 @@ class AnthropicMessages(requester.LLMAPIRequester):
            if isinstance(m.content, str) and m.content.strip() != "":
                req_messages.append(m.dict(exclude_none=True))
            elif isinstance(m.content, list):
-                # m.content = [
-                #     c for c in m.content if c.type == "text"
-                # ]
-
-                # if len(m.content) > 0:
-                #     req_messages.append(m.dict(exclude_none=True))

                msg_dict = m.dict(exclude_none=True)

                for i, ce in enumerate(m.content):
-                    if ce.type == "image_url":
-                        base64_image, image_format = await image.qq_image_url_to_base64(ce.image_url.url)
+
+                    if ce.type == "image_base64":
+                        image_b64, image_format = await image.extract_b64_and_format(ce.image_base64)
+
                        alter_image_ele = {
                            "type": "image",
                            "source": {
                                "type": "base64",
                                "media_type": f"image/{image_format}",
-                                "data": base64_image
+                                "data": image_b64
                            }
                        }
                        msg_dict["content"][i] = alter_image_ele

+                print(msg_dict)
+
                req_messages.append(msg_dict)

        args["messages"] = req_messages
--- a/pkg/provider/modelmgr/requesters/chatcmpl.py
+++ b/pkg/provider/modelmgr/requesters/chatcmpl.py
@@ -65,6 +65,7 @@ class OpenAIChatCompletions(requester.LLMAPIRequester):

    async def _closure(
        self,
+        query: core_entities.Query,
        req_messages: list[dict],
        use_model: entities.LLMModelInfo,
        use_funcs: list[tools_entities.LLMFunction] = None,
@@ -87,8 +88,12 @@ class OpenAIChatCompletions(requester.LLMAPIRequester):
        for msg in messages:
            if 'content' in msg and isinstance(msg["content"], list):
                for me in msg["content"]:
-                    if me["type"] == "image_url":
-                        me["image_url"]['url'] = await self.get_base64_str(me["image_url"]['url'])
+                    if me["type"] == "image_base64":
+                        me["image_url"] = {
+                            "url": me["image_base64"]
+                        }
+                        me["type"] = "image_url"
+                        del me["image_base64"]

        args["messages"] = messages

@@ -102,6 +107,7 @@ class OpenAIChatCompletions(requester.LLMAPIRequester):
    
    async def call(
        self,
+        query: core_entities.Query,
        model: entities.LLMModelInfo,
        messages: typing.List[llm_entities.Message],
        funcs: typing.List[tools_entities.LLMFunction] = None,
@@ -118,7 +124,7 @@ class OpenAIChatCompletions(requester.LLMAPIRequester):
            req_messages.append(msg_dict)

        try:
-            return await self._closure(req_messages, model, funcs)
+            return await self._closure(query, req_messages, model, funcs)
        except asyncio.TimeoutError:
            raise errors.RequesterError('请求超时')
        except openai.BadRequestError as e:
@@ -134,11 +140,3 @@ class OpenAIChatCompletions(requester.LLMAPIRequester):
            raise errors.RequesterError(f'请求过于频繁或余额不足: {e.message}')
        except openai.APIError as e:
            raise errors.RequesterError(f'请求错误: {e.message}')
-
-    @async_lru.alru_cache(maxsize=128)
-    async def get_base64_str(
-        self,
-        original_url: str,
-    ) -> str:
-        base64_image, image_format = await image.qq_image_url_to_base64(original_url)
-        return f"data:image/{image_format};base64,{base64_image}"
--- a/pkg/provider/modelmgr/requesters/ollamachat.py
+++ b/pkg/provider/modelmgr/requesters/ollamachat.py
@@ -6,6 +6,7 @@ import typing
 from typing import Union, Mapping, Any, AsyncIterator
 import uuid
 import json
+import base64

 import async_lru
 import ollama
@@ -13,7 +14,7 @@ import ollama
 from .. import entities, errors, requester
 from ... import entities as llm_entities
 from ...tools import entities as tools_entities
-from ....core import app
+from ....core import app, entities as core_entities
 from ....utils import image

 REQUESTER_NAME: str = "ollama-chat"
@@ -43,7 +44,7 @@ class OllamaChatCompletions(requester.LLMAPIRequester):
            **args
        )

-    async def _closure(self, req_messages: list[dict], use_model: entities.LLMModelInfo,
+    async def _closure(self, query: core_entities.Query, req_messages: list[dict], use_model: entities.LLMModelInfo,
                       user_funcs: list[tools_entities.LLMFunction] = None) -> (
            llm_entities.Message):
        args: Any = self.request_cfg['args'].copy()
@@ -57,9 +58,9 @@ class OllamaChatCompletions(requester.LLMAPIRequester):
                for me in msg["content"]:
                    if me["type"] == "text":
                        text_content.append(me["text"])
-                    elif me["type"] == "image_url":
-                        image_url = await self.get_base64_str(me["image_url"]['url'])
-                        image_urls.append(image_url)
+                    elif me["type"] == "image_base64":
+                        image_urls.append(me["image_base64"])
+                        
                msg["content"] = "\n".join(text_content)
                msg["images"] = [url.split(',')[1] for url in image_urls]
            if 'tool_calls' in msg:  # LangBot 内部以 str 存储 tool_calls 的参数，这里需要转换为 dict
@@ -109,6 +110,7 @@ class OllamaChatCompletions(requester.LLMAPIRequester):

    async def call(
            self,
+            query: core_entities.Query,
            model: entities.LLMModelInfo,
            messages: typing.List[llm_entities.Message],
            funcs: typing.List[tools_entities.LLMFunction] = None,
@@ -122,14 +124,6 @@ class OllamaChatCompletions(requester.LLMAPIRequester):
                    msg_dict["content"] = "\n".join(part["text"] for part in content)
            req_messages.append(msg_dict)
        try:
-            return await self._closure(req_messages, model, funcs)
+            return await self._closure(query, req_messages, model, funcs)
        except asyncio.TimeoutError:
            raise errors.RequesterError('请求超时')
-
-    @async_lru.alru_cache(maxsize=128)
-    async def get_base64_str(
-            self,
-            original_url: str,
-    ) -> str:
-        base64_image, image_format = await image.qq_image_url_to_base64(original_url)
-        return f"data:image/{image_format};base64,{base64_image}"
--- a/pkg/provider/runners/localagent.py
+++ b/pkg/provider/runners/localagent.py
@@ -23,7 +23,7 @@ class LocalAgentRunner(runner.RequestRunner):
        req_messages = query.prompt.messages.copy() + query.messages.copy() + [query.user_message]

        # 首次请求
-        msg = await query.use_model.requester.call(query.use_model, req_messages, query.use_funcs)
+        msg = await query.use_model.requester.call(query, query.use_model, req_messages, query.use_funcs)

        yield msg

@@ -61,7 +61,7 @@ class LocalAgentRunner(runner.RequestRunner):
                    req_messages.append(err_msg)

            # 处理完所有调用，再次请求
-            msg = await query.use_model.requester.call(query.use_model, req_messages, query.use_funcs)
+            msg = await query.use_model.requester.call(query, query.use_model, req_messages, query.use_funcs)

            yield msg