feat(backend): 增加摘要标题与产物状态对账

2026-04-24 17:04:05 +08:00 · 2026-04-24 17:04:05 +08:00 · 256a2d36ec
parent 31f4bdb99a
commit 256a2d36ec
6 changed files with 271 additions and 5 deletions
--- a/backend/packages/harness/deerflow/agents/lead_agent/agent.py
+++ b/backend/packages/harness/deerflow/agents/lead_agent/agent.py
@ -2,10 +2,12 @@ import logging
 from langchain.agents import create_agent
 from langchain.agents.middleware import AgentMiddleware, SummarizationMiddleware
 from langchain_core.messages.human import HumanMessage
 from langchain_core.runnables import RunnableConfig
 from deerflow.agents.lead_agent.prompt import apply_prompt_template
 from deerflow.agents.middlewares.clarification_middleware import ClarificationMiddleware
 from deerflow.agents.middlewares.artifact_reconcile_middleware import ArtifactReconcileMiddleware
 from deerflow.agents.middlewares.loop_detection_middleware import LoopDetectionMiddleware
 from deerflow.agents.middlewares.message_timestamp_middleware import MessageTimestampMiddleware
 from deerflow.agents.middlewares.memory_middleware import MemoryMiddleware
@ -23,6 +25,15 @@ from deerflow.models import create_chat_model
 logger = logging.getLogger(__name__)
 SUMMARY_MESSAGE_TITLE = "以下是目前对话的摘要："
 class DeerFlowSummarizationMiddleware(SummarizationMiddleware):
    """Summarization middleware with DeerFlow's user-facing summary heading."""
    def _build_new_messages(self, summary: str) -> list[HumanMessage]:
        return [HumanMessage(content=f"{SUMMARY_MESSAGE_TITLE}\n\n{summary}")]
 def _resolve_model_name(requested_model_name: str | None = None) -> str:
    """Resolve a runtime model name safely, falling back to default if invalid. Returns None if no models are configured."""
@ -78,7 +89,7 @@ def _create_summarization_middleware() -> SummarizationMiddleware | None:
    if config.summary_prompt is not None:
        kwargs["summary_prompt"] = config.summary_prompt
-    return SummarizationMiddleware(**kwargs)
+    return DeerFlowSummarizationMiddleware(**kwargs)
 def _create_todo_list_middleware(is_plan_mode: bool) -> TodoMiddleware | None:
@ -234,6 +245,9 @@ def _build_middlewares(config: RunnableConfig, model_name: str | None, agent_nam
    if get_app_config().token_usage.enabled:
        middlewares.append(TokenUsageMiddleware())
    # Reconcile stale artifact entries against real outputs files.
    middlewares.append(ArtifactReconcileMiddleware())
    # Stamp every conversation message with backend timestamp metadata.
    middlewares.append(MessageTimestampMiddleware())
--- a/backend/packages/harness/deerflow/agents/middlewares/artifact_reconcile_middleware.py
+++ b/backend/packages/harness/deerflow/agents/middlewares/artifact_reconcile_middleware.py
@ -0,0 +1,114 @@
 import logging
 from pathlib import Path
 from typing import NotRequired, override
 from langchain.agents import AgentState
 from langchain.agents.middleware import AgentMiddleware
 from langgraph.runtime import Runtime
 from deerflow.agents.thread_state import (
    ARTIFACTS_REPLACE_SENTINEL,
    ThreadDataState,
 )
 from deerflow.config.paths import VIRTUAL_PATH_PREFIX
 logger = logging.getLogger(__name__)
 _OUTPUTS_VIRTUAL_PREFIX = f"{VIRTUAL_PATH_PREFIX}/outputs/"
 _OUTPUTS_VIRTUAL_PREFIX_NO_LEADING_SLASH = _OUTPUTS_VIRTUAL_PREFIX.lstrip("/")
 class ArtifactReconcileState(AgentState):
    """Compatible with the `ThreadState` schema."""
    artifacts: NotRequired[list[str] | None]
    thread_data: NotRequired[ThreadDataState | None]
 class ArtifactReconcileMiddleware(AgentMiddleware[ArtifactReconcileState]):
    """Keep artifact state aligned with files currently in outputs."""
    state_schema = ArtifactReconcileState
    def _to_outputs_file(self, virtual_path: str, outputs_dir: Path) -> Path | None:
        stripped = virtual_path.lstrip("/")
        if not stripped.startswith(_OUTPUTS_VIRTUAL_PREFIX_NO_LEADING_SLASH):
            # Keep non-outputs paths untouched; this middleware is for outputs drift.
            return None
        relative = stripped[len(_OUTPUTS_VIRTUAL_PREFIX_NO_LEADING_SLASH) :]
        if not relative:
            return None
        candidate = (outputs_dir / relative).resolve()
        try:
            candidate.relative_to(outputs_dir)
        except ValueError:
            return None
        return candidate
    def _to_virtual_artifact(self, actual_path: Path, outputs_dir: Path) -> str | None:
        try:
            relative = actual_path.resolve().relative_to(outputs_dir)
        except ValueError:
            return None
        return f"{_OUTPUTS_VIRTUAL_PREFIX}{relative.as_posix()}"
    def _discover_outputs(self, outputs_dir: Path) -> list[str]:
        if not outputs_dir.is_dir():
            return []
        discovered: list[str] = []
        for path in sorted(outputs_dir.rglob("*")):
            if not path.is_file():
                continue
            virtual_path = self._to_virtual_artifact(path, outputs_dir)
            if virtual_path:
                discovered.append(virtual_path)
        return discovered
    @override
    def before_model(
        self,
        state: ArtifactReconcileState,
        runtime: Runtime,  # noqa: ARG002
    ) -> dict | None:
        artifacts = state.get("artifacts") or []
        thread_data = state.get("thread_data") or {}
        outputs_path = thread_data.get("outputs_path")
        if not outputs_path:
            return None
        outputs_dir = Path(outputs_path).resolve()
        kept: list[str] = []
        changed = False
        for artifact in artifacts:
            if not isinstance(artifact, str):
                changed = True
                continue
            actual_path = self._to_outputs_file(artifact, outputs_dir)
            if actual_path is None:
                kept.append(artifact)
                continue
            if actual_path.exists() and actual_path.is_file():
                kept.append(artifact)
            else:
                changed = True
                logger.info(
                    "Reconciled stale artifact from state: virtual=%s outputs_dir=%s",
                    artifact,
                    outputs_dir,
                )
        discovered = self._discover_outputs(outputs_dir)
        merged = list(dict.fromkeys([*kept, *discovered]))
        if merged != kept:
            changed = True
        if not changed:
            return None
        return {"artifacts": [ARTIFACTS_REPLACE_SENTINEL, *merged]}
--- a/backend/packages/harness/deerflow/agents/thread_state.py
+++ b/backend/packages/harness/deerflow/agents/thread_state.py
@ -2,6 +2,8 @@ from typing import Annotated, NotRequired, TypedDict
 from langchain.agents import AgentState
 ARTIFACTS_REPLACE_SENTINEL = "__deerflow_replace_artifacts__"
 class SandboxState(TypedDict):
    sandbox_id: NotRequired[str | None]
@ -20,6 +22,8 @@ class ViewedImageData(TypedDict):
 def merge_artifacts(existing: list[str] | None, new: list[str] | None) -> list[str]:
    """Reducer for artifacts list - merges and deduplicates artifacts."""
    if new and new[0] == ARTIFACTS_REPLACE_SENTINEL:
        return list(dict.fromkeys(new[1:]))
    if existing is None:
        return new or []
    if new is None:
--- a/backend/tests/test_artifact_reconcile_middleware.py
+++ b/backend/tests/test_artifact_reconcile_middleware.py
@ -0,0 +1,89 @@
 from types import SimpleNamespace
 from deerflow.agents.middlewares.artifact_reconcile_middleware import (
    ArtifactReconcileMiddleware,
 )
 from deerflow.agents.thread_state import ARTIFACTS_REPLACE_SENTINEL
 def test_before_model_prunes_missing_outputs_artifacts(tmp_path):
    outputs_dir = tmp_path / "outputs"
    outputs_dir.mkdir()
    existing = outputs_dir / "keep.md"
    existing.write_text("ok", encoding="utf-8")
    middleware = ArtifactReconcileMiddleware()
    state = {
        "thread_data": {"outputs_path": str(outputs_dir)},
        "artifacts": [
            "/mnt/user-data/outputs/keep.md",
            "/mnt/user-data/outputs/missing.md",
        ],
    }
    result = middleware.before_model(state, runtime=SimpleNamespace(context={}))
    assert result == {
        "artifacts": [ARTIFACTS_REPLACE_SENTINEL, "/mnt/user-data/outputs/keep.md"]
    }
 def test_before_model_returns_none_when_no_changes(tmp_path):
    outputs_dir = tmp_path / "outputs"
    outputs_dir.mkdir()
    existing = outputs_dir / "keep.md"
    existing.write_text("ok", encoding="utf-8")
    middleware = ArtifactReconcileMiddleware()
    state = {
        "thread_data": {"outputs_path": str(outputs_dir)},
        "artifacts": ["/mnt/user-data/outputs/keep.md"],
    }
    result = middleware.before_model(state, runtime=SimpleNamespace(context={}))
    assert result is None
 def test_before_model_adds_unpresented_outputs_files(tmp_path):
    outputs_dir = tmp_path / "outputs"
    outputs_dir.mkdir()
    existing = outputs_dir / "keep.md"
    existing.write_text("ok", encoding="utf-8")
    extra = outputs_dir / "extra.md"
    extra.write_text("ok", encoding="utf-8")
    middleware = ArtifactReconcileMiddleware()
    state = {
        "thread_data": {"outputs_path": str(outputs_dir)},
        "artifacts": ["/mnt/user-data/outputs/keep.md"],
    }
    result = middleware.before_model(state, runtime=SimpleNamespace(context={}))
    assert result == {
        "artifacts": [
            ARTIFACTS_REPLACE_SENTINEL,
            "/mnt/user-data/outputs/keep.md",
            "/mnt/user-data/outputs/extra.md",
        ]
    }
 def test_before_model_discovers_outputs_when_artifacts_empty(tmp_path):
    outputs_dir = tmp_path / "outputs"
    outputs_dir.mkdir()
    report = outputs_dir / "report.md"
    report.write_text("ok", encoding="utf-8")
    middleware = ArtifactReconcileMiddleware()
    state = {
        "thread_data": {"outputs_path": str(outputs_dir)},
        "artifacts": [],
    }
    result = middleware.before_model(state, runtime=SimpleNamespace(context={}))
    assert result == {
        "artifacts": [ARTIFACTS_REPLACE_SENTINEL, "/mnt/user-data/outputs/report.md"]
    }
--- a/backend/tests/test_lead_agent_model_resolution.py
+++ b/backend/tests/test_lead_agent_model_resolution.py
@ -147,7 +147,8 @@ def test_create_summarization_middleware_uses_configured_model_alias(monkeypatch
    )
    captured: dict[str, object] = {}
-    fake_model = object()
+    fake_model = MagicMock()
    fake_model._llm_type = "test-chat"
    def _fake_create_chat_model(*, name=None, thinking_enabled, reasoning_effort=None):
        captured["name"] = name
@ -156,10 +157,20 @@ def test_create_summarization_middleware_uses_configured_model_alias(monkeypatch
        return fake_model
    monkeypatch.setattr(lead_agent_module, "create_chat_model", _fake_create_chat_model)
    monkeypatch.setattr(lead_agent_module, "SummarizationMiddleware", lambda **kwargs: kwargs)
    middleware = lead_agent_module._create_summarization_middleware()
    assert captured["name"] == "model-masswork"
    assert captured["thinking_enabled"] is False
-    assert middleware["model"] is fake_model
+    assert isinstance(middleware, lead_agent_module.DeerFlowSummarizationMiddleware)
    assert middleware.model is fake_model
 def test_deerflow_summarization_middleware_uses_chinese_summary_title():
    middleware = lead_agent_module.DeerFlowSummarizationMiddleware(
        model=MagicMock(),
        trigger=("messages", 2),
    )
    messages = middleware._build_new_messages("旧上下文")
    assert messages[0].content == "以下是目前对话的摘要：\n\n旧上下文"
--- a/backend/tests/test_thread_state_artifacts_reducer.py
+++ b/backend/tests/test_thread_state_artifacts_reducer.py
@ -0,0 +1,34 @@
 from deerflow.agents.thread_state import (
    ARTIFACTS_REPLACE_SENTINEL,
    merge_artifacts,
 )
 def test_merge_artifacts_default_merge_dedup():
    existing = ["/mnt/user-data/outputs/a.md", "/mnt/user-data/outputs/b.md"]
    new = ["/mnt/user-data/outputs/b.md", "/mnt/user-data/outputs/c.md"]
    result = merge_artifacts(existing, new)
    assert result == [
        "/mnt/user-data/outputs/a.md",
        "/mnt/user-data/outputs/b.md",
        "/mnt/user-data/outputs/c.md",
    ]
 def test_merge_artifacts_supports_replace_sentinel():
    existing = ["/mnt/user-data/outputs/a.md", "/mnt/user-data/outputs/b.md"]
    new = [
        ARTIFACTS_REPLACE_SENTINEL,
        "/mnt/user-data/outputs/b.md",
        "/mnt/user-data/outputs/c.md",
        "/mnt/user-data/outputs/c.md",
    ]
    result = merge_artifacts(existing, new)
    assert result == [
        "/mnt/user-data/outputs/b.md",
        "/mnt/user-data/outputs/c.md",
    ]