Files

Jerry Yan 39338df808 feat(kg): 实现 Phase 2 GraphRAG 融合功能

核心功能：
- 三层检索策略：向量检索（Milvus）+ 图检索（KG 服务）+ 融合排序
- LLM 生成：支持同步和流式（SSE）响应
- 知识库访问控制：knowledge_base_id 归属校验 + collection_name 绑定验证

新增模块（9个文件）：
- models.py: 请求/响应模型（GraphRAGQueryRequest, RetrievalStrategy, GraphContext 等）
- milvus_client.py: Milvus 向量检索客户端（OpenAI Embeddings + asyncio.to_thread）
- kg_client.py: KG 服务 REST 客户端（全文检索 + 子图导出，fail-open）
- context_builder.py: 三元组文本化（10 种关系模板）+ 上下文构建
- generator.py: LLM 生成（ChatOpenAI，支持同步和流式）
- retriever.py: 检索编排（并行检索 + 融合排序）
- kb_access.py: 知识库访问校验（归属验证 + collection 绑定，fail-close）
- interface.py: FastAPI 端点（/query, /retrieve, /query/stream）
- __init__.py: 模块入口

修改文件（3个）：
- app/core/config.py: 添加 13 个 graphrag_* 配置项
- app/module/__init__.py: 注册 kg_graphrag_router
- pyproject.toml: 添加 pymilvus 依赖

测试覆盖（79 tests）：
- test_context_builder.py: 13 tests（三元组文本化 + 上下文构建）
- test_kg_client.py: 14 tests（KG 响应解析 + PagedResponse + 边字段映射）
- test_milvus_client.py: 8 tests（向量检索 + asyncio.to_thread）
- test_retriever.py: 11 tests（并行检索 + 融合排序 + fail-open）
- test_kb_access.py: 18 tests（归属校验 + collection 绑定 + 跨用户负例）
- test_interface.py: 15 tests（端点级回归 + 403 short-circuit）

关键设计：
- Fail-open: Milvus/KG 服务失败不阻塞管道，返回空结果
- Fail-close: 访问控制失败拒绝请求，防止授权绕过
- 并行检索: asyncio.gather() 并发运行向量和图检索
- 融合排序: Min-max 归一化 + 加权融合（vector_weight/graph_weight）
- 延迟初始化: 所有客户端在首次请求时初始化
- 配置回退: graphrag_llm_* 为空时回退到 kg_llm_*

安全修复：
- P1-1: KG 响应解析（PagedResponse.content）
- P1-2: 子图边字段映射（sourceEntityId/targetEntityId）
- P1-3: collection_name 越权风险（归属校验 + 绑定验证）
- P1-4: 同步 Milvus I/O（asyncio.to_thread）
- P1-5: 测试覆盖（79 tests，包括安全负例）

测试结果：79 tests pass ✅

2026-02-20 09:41:55 +08:00

app

feat(kg): 实现 Phase 2 GraphRAG 融合功能

2026-02-20 09:41:55 +08:00

deploy

feat(auto-annotation): integrate YOLO auto-labeling and enhance data management (#223 )

2026-01-05 14:22:44 +08:00

examples

feat: Enhance file tag update functionality with automatic format conversion (#84 )

2025-11-14 12:42:39 +08:00

.env.example

feat: File and Annotation 2-way sync implementation (#63 )

2025-11-07 15:03:07 +08:00

.gitignore

feat: File and Annotation 2-way sync implementation (#63 )

2025-11-07 15:03:07 +08:00

poetry.lock

feat(runtime): 添加 Pillow 图像处理库依赖

2026-02-06 13:21:01 +08:00

pyproject.toml

feat(kg): 实现 Phase 2 GraphRAG 融合功能

2026-02-20 09:41:55 +08:00

README.md

docs: update README and Makefile for clarity and new development instructions (#147 )

2025-12-10 12:25:25 +08:00

uvicorn_start.sh

feat: File and Annotation 2-way sync implementation (#63 )

2025-11-07 15:03:07 +08:00

README.md

DataMate Python Service (DataMate)

这是 DataMate 的 Python 服务，负责DataMate的数据合成、数据标注、数据评估等功能。

简要说明

框架：FastAPI
异步数据库/ORM：SQLAlchemy (async)
数据库迁移：Alembic
运行器：uvicorn

快速开始（开发）

前置条件

Python 3.11+
poetry 包管理器

克隆仓库

git clone git@github.com:ModelEngine-Group/DataMate.git

cd runtime/datamate-python

安装依赖由于项目使用poetry管理依赖，你可以使用以下命令安装：：

poetry install

或者直接使用pip安装（如果poetry不可用）：

pip install -e .

配置环境变量复制环境变量示例文件并配置：

cp .env.example .env

编辑.env文件，设置必要的环境变量，如数据库连接、Label Studio配置等。

数据库迁移（开发环境）：

alembic upgrade head

启动开发服务器（示例与常用参数）：

本地开发（默认 host/port，自动重载）：

set -a && source .env && set +a && poetry run uvicorn app.main:app --port 18000 --log-level debug --reload

或者

poetry run python -m app.main

指定主机与端口并打开调试日志：

uvicorn app.main:app --host 0.0.0.0 --port 8000 --reload --log-level debug

在生产环境使用多个 worker（不使用 --reload）：

uvicorn app.main:app --host 0.0.0.0 --port 8000 --workers 4 --log-level info --proxy-headers

使用环境变量启动（示例）：

HOST=0.0.0.0 PORT=8000 uvicorn app.main:app --reload

注意：

--reload 仅用于开发，会监视文件变化并重启进程；不要在生产中使用。
--workers 提供并发处理能力，但会增加内存占用；生产时通常配合进程管理或容器编排（Kubernetes）使用。
若需要完整的生产部署建议使用 ASGI 服务器（如 gunicorn + uvicorn workers / 或直接使用 uvicorn 在容器中配合进程管理）。

访问 API 文档：

Swagger UI: http://127.0.0.1:8000/docs
ReDoc: http://127.0.0.1:8000/redoc （推荐使用）

开发新功能

安装开发依赖：

poetry  add xxx

使用（简要）

所有 API 路径以 /api 前缀注册（见 app/main.py 中 app.include_router(api_router, prefix="/api")）。
根路径 / 返回服务信息和文档链接。

更多细节请查看 doc/usage.md（接口使用）和 doc/development.md（开发说明）。