You've already forked DataMate
核心功能:
- 三层检索策略:向量检索(Milvus)+ 图检索(KG 服务)+ 融合排序
- LLM 生成:支持同步和流式(SSE)响应
- 知识库访问控制:knowledge_base_id 归属校验 + collection_name 绑定验证
新增模块(9个文件):
- models.py: 请求/响应模型(GraphRAGQueryRequest, RetrievalStrategy, GraphContext 等)
- milvus_client.py: Milvus 向量检索客户端(OpenAI Embeddings + asyncio.to_thread)
- kg_client.py: KG 服务 REST 客户端(全文检索 + 子图导出,fail-open)
- context_builder.py: 三元组文本化(10 种关系模板)+ 上下文构建
- generator.py: LLM 生成(ChatOpenAI,支持同步和流式)
- retriever.py: 检索编排(并行检索 + 融合排序)
- kb_access.py: 知识库访问校验(归属验证 + collection 绑定,fail-close)
- interface.py: FastAPI 端点(/query, /retrieve, /query/stream)
- __init__.py: 模块入口
修改文件(3个):
- app/core/config.py: 添加 13 个 graphrag_* 配置项
- app/module/__init__.py: 注册 kg_graphrag_router
- pyproject.toml: 添加 pymilvus 依赖
测试覆盖(79 tests):
- test_context_builder.py: 13 tests(三元组文本化 + 上下文构建)
- test_kg_client.py: 14 tests(KG 响应解析 + PagedResponse + 边字段映射)
- test_milvus_client.py: 8 tests(向量检索 + asyncio.to_thread)
- test_retriever.py: 11 tests(并行检索 + 融合排序 + fail-open)
- test_kb_access.py: 18 tests(归属校验 + collection 绑定 + 跨用户负例)
- test_interface.py: 15 tests(端点级回归 + 403 short-circuit)
关键设计:
- Fail-open: Milvus/KG 服务失败不阻塞管道,返回空结果
- Fail-close: 访问控制失败拒绝请求,防止授权绕过
- 并行检索: asyncio.gather() 并发运行向量和图检索
- 融合排序: Min-max 归一化 + 加权融合(vector_weight/graph_weight)
- 延迟初始化: 所有客户端在首次请求时初始化
- 配置回退: graphrag_llm_* 为空时回退到 kg_llm_*
安全修复:
- P1-1: KG 响应解析(PagedResponse.content)
- P1-2: 子图边字段映射(sourceEntityId/targetEntityId)
- P1-3: collection_name 越权风险(归属校验 + 绑定验证)
- P1-4: 同步 Milvus I/O(asyncio.to_thread)
- P1-5: 测试覆盖(79 tests,包括安全负例)
测试结果:79 tests pass ✅
DataMate Python Service (DataMate)
这是 DataMate 的 Python 服务,负责DataMate的数据合成、数据标注、数据评估等功能。
简要说明
- 框架:FastAPI
- 异步数据库/ORM:SQLAlchemy (async)
- 数据库迁移:Alembic
- 运行器:uvicorn
快速开始(开发)
前置条件
- Python 3.11+
- poetry 包管理器
- 克隆仓库
git clone git@github.com:ModelEngine-Group/DataMate.git
- 进入项目目录
cd runtime/datamate-python
- 安装依赖 由于项目使用poetry管理依赖,你可以使用以下命令安装::
poetry install
或者直接使用pip安装(如果poetry不可用):
pip install -e .
- 配置环境变量 复制环境变量示例文件并配置:
cp .env.example .env
编辑.env文件,设置必要的环境变量,如数据库连接、Label Studio配置等。
- 数据库迁移(开发环境):
alembic upgrade head
- 启动开发服务器(示例与常用参数):
- 本地开发(默认 host/port,自动重载):
set -a && source .env && set +a && poetry run uvicorn app.main:app --port 18000 --log-level debug --reload
或者
poetry run python -m app.main
- 指定主机与端口并打开调试日志:
uvicorn app.main:app --host 0.0.0.0 --port 8000 --reload --log-level debug
- 在生产环境使用多个 worker(不使用 --reload):
uvicorn app.main:app --host 0.0.0.0 --port 8000 --workers 4 --log-level info --proxy-headers
- 使用环境变量启动(示例):
HOST=0.0.0.0 PORT=8000 uvicorn app.main:app --reload
注意:
--reload仅用于开发,会监视文件变化并重启进程;不要在生产中使用。--workers提供并发处理能力,但会增加内存占用;生产时通常配合进程管理或容器编排(Kubernetes)使用。- 若需要完整的生产部署建议使用 ASGI 服务器(如 gunicorn + uvicorn workers / 或直接使用 uvicorn 在容器中配合进程管理)。
访问 API 文档:
- Swagger UI: http://127.0.0.1:8000/docs
- ReDoc: http://127.0.0.1:8000/redoc (推荐使用)
开发新功能
- 安装开发依赖:
poetry add xxx
使用(简要)
- 所有 API 路径以
/api前缀注册(见app/main.py中app.include_router(api_router, prefix="/api"))。 - 根路径
/返回服务信息和文档链接。
更多细节请查看 doc/usage.md(接口使用)和 doc/development.md(开发说明)。