Files
DataMate/runtime/datamate-python
Jerry Yan 0e0782a452 feat(kg-extraction): 实现 Python 抽取器 FastAPI 接口
实现功能:
- 创建 kg_extraction/interface.py(FastAPI 路由)
- 实现 POST /api/kg/extract(单条文本抽取)
- 实现 POST /api/kg/extract/batch(批量抽取,最多 50 条)
- 集成到 FastAPI 主路由(/api/kg/ 前缀)

技术实现:
- 配置管理:从环境变量读取 LLM 配置(API Key、Base URL、Model、Temperature)
- 安全性:
  - API Key 使用 SecretStr 保护
  - 错误信息脱敏(使用 trace_id,不暴露原始异常)
  - 请求文本不写入日志(使用 SHA-256 hash)
  - 强制要求 X-User-Id 头(鉴权边界)
- 超时控制:
  - kg_llm_timeout_seconds(60秒)
  - kg_llm_max_retries(2次)
- 输入校验:
  - graph_id 和 source_id 使用 UUID pattern
  - source_type 使用 Enum(4个值)
  - allowed_nodes/relationships 元素使用正则约束(ASCII,1-50字符)
- 审计日志:记录 caller、trace_id、text_hash

代码审查:
- 经过 3 轮 Codex 审查和 2 轮 Claude 修复
- 所有问题已解决(5个 P1/P2 + 3个 P3)
- 语法检查通过

API 端点:
- POST /api/kg/extract:单条文本抽取
- POST /api/kg/extract/batch:批量抽取(最多 50 条)

配置环境变量:
- KG_LLM_API_KEY:LLM API 密钥
- KG_LLM_BASE_URL:自定义端点(可选)
- KG_LLM_MODEL:模型名称(默认 gpt-4o-mini)
- KG_LLM_TEMPERATURE:生成温度(默认 0.0)
- KG_LLM_TIMEOUT_SECONDS:超时时间(默认 60)
- KG_LLM_MAX_RETRIES:重试次数(默认 2)
2026-02-17 22:01:06 +08:00
..

DataMate Python Service (DataMate)

这是 DataMate 的 Python 服务,负责DataMate的数据合成、数据标注、数据评估等功能。

简要说明

  • 框架:FastAPI
  • 异步数据库/ORM:SQLAlchemy (async)
  • 数据库迁移:Alembic
  • 运行器:uvicorn

快速开始(开发)

前置条件

  • Python 3.11+
  • poetry 包管理器
  1. 克隆仓库
git clone git@github.com:ModelEngine-Group/DataMate.git
  1. 进入项目目录
cd runtime/datamate-python
  1. 安装依赖 由于项目使用poetry管理依赖,你可以使用以下命令安装::
poetry install

或者直接使用pip安装(如果poetry不可用):

pip install -e .
  1. 配置环境变量 复制环境变量示例文件并配置:
cp .env.example .env

编辑.env文件,设置必要的环境变量,如数据库连接、Label Studio配置等。

  1. 数据库迁移(开发环境):
alembic upgrade head
  1. 启动开发服务器(示例与常用参数):
  • 本地开发(默认 host/port,自动重载):
set -a && source .env && set +a && poetry run uvicorn app.main:app --port 18000 --log-level debug --reload

或者

poetry run python -m app.main
  • 指定主机与端口并打开调试日志:
uvicorn app.main:app --host 0.0.0.0 --port 8000 --reload --log-level debug
  • 在生产环境使用多个 worker(不使用 --reload):
uvicorn app.main:app --host 0.0.0.0 --port 8000 --workers 4 --log-level info --proxy-headers
  • 使用环境变量启动(示例):
HOST=0.0.0.0 PORT=8000 uvicorn app.main:app --reload

注意:

  • --reload 仅用于开发,会监视文件变化并重启进程;不要在生产中使用。
  • --workers 提供并发处理能力,但会增加内存占用;生产时通常配合进程管理或容器编排(Kubernetes)使用。
  • 若需要完整的生产部署建议使用 ASGI 服务器(如 gunicorn + uvicorn workers / 或直接使用 uvicorn 在容器中配合进程管理)。

访问 API 文档:

开发新功能

  • 安装开发依赖:
poetry  add xxx

使用(简要)

  • 所有 API 路径以 /api 前缀注册(见 app/main.pyapp.include_router(api_router, prefix="/api"))。
  • 根路径 / 返回服务信息和文档链接。

更多细节请查看 doc/usage.md(接口使用)和 doc/development.md(开发说明)。