Files

Jerry Yan 2f49fc4199 feat(annotation): 支持通用算子编排的数据标注功能

## 功能概述
将数据标注模块从固定 YOLO 算子改造为支持通用算子编排，实现与数据清洗模块类似的灵活算子组合能力。

## 改动内容

### 第 1 步：数据库改造（DDL）
- 新增 SQL migration 脚本：scripts/db/data-annotation-operator-pipeline-migration.sql
- 修改 t_dm_auto_annotation_tasks 表：
  - 新增字段：task_mode, executor_type, pipeline, output_dataset_id, created_by, stop_requested, started_at, heartbeat_at, run_token
  - 新增索引：idx_status_created, idx_created_by
- 创建 t_dm_annotation_task_operator_instance 表：用于存储算子实例详情

### 第 2 步：API 层改造
- 扩展请求模型（schema/auto.py）：
  - 新增 OperatorPipelineStep 模型
  - 支持 pipeline 字段，保留旧 YOLO 字段向后兼容
  - 实现多写法归一（operatorId/operator_id/id, overrides/settingsOverride/settings_override）
- 修改任务创建服务（service/auto.py）：
  - 新增 validate_file_ids() 校验方法
  - 新增 _to_pipeline() 兼容映射方法
  - 写入新字段并集成算子实例表
  - 修复 fileIds 去重准确性问题
- 新增 API 路由（interface/auto.py）：
  - 新增 /operator-tasks 系列接口
  - 新增 stop API 接口（/auto/{id}/stop 和 /operator-tasks/{id}/stop）
  - 保留旧 /auto 接口向后兼容
- ORM 模型对齐（annotation_management.py）：
  - AutoAnnotationTask 新增所有 DDL 字段
  - 新增 AnnotationTaskOperatorInstance 模型
  - 状态定义补充 stopped

### 第 3 步：Runtime 层改造
- 修改 worker 执行逻辑（auto_annotation_worker.py）：
  - 实现原子任务抢占机制（run_token）
  - 从硬编码 YOLO 改为通用 pipeline 执行
  - 新增算子解析和实例化能力
  - 支持 stop_requested 检查
  - 保留 legacy_yolo 模式向后兼容
  - 支持多种算子调用方式（execute 和 __call__）

### 第 4 步：灰度发布
- 完善 YOLO 算子元数据（metadata.yml）：
  - 补齐 raw_id, language, modal, inputs, outputs, settings 字段
- 注册标注算子（__init__.py）：
  - 将 YOLO 算子注册到 OPERATORS 注册表
  - 确保 annotation 包被正确加载
- 新增白名单控制：
  - 支持环境变量 AUTO_ANNOTATION_OPERATOR_WHITELIST
  - 灰度发布时可限制可用算子

## 关键特性

### 向后兼容
- 旧 /auto 接口完全保留
- 旧请求参数自动映射到 pipeline
- legacy_yolo 模式确保旧逻辑正常运行

### 新功能
- 支持通用 pipeline 编排
- 支持多算子组合
- 支持任务停止控制
- 支持白名单灰度发布

### 可靠性
- 原子任务抢占（防止重复执行）
- 完整的错误处理和状态管理
- 详细的审计追踪（算子实例表）

## 部署说明

1. 执行 DDL：mysql < scripts/db/data-annotation-operator-pipeline-migration.sql
2. 配置环境变量：AUTO_ANNOTATION_OPERATOR_WHITELIST=ImageObjectDetectionBoundingBox
3. 重启服务：datamate-runtime 和 datamate-backend-python

## 验证步骤

1. 兼容模式验证：使用旧 /auto 接口创建任务
2. 通用编排验证：使用新 /operator-tasks 接口创建 pipeline 任务
3. 原子 claim 验证：检查 run_token 机制
4. 停止验证：测试 stop API
5. 白名单验证：测试算子白名单拦截

## 相关文件

- DDL: scripts/db/data-annotation-operator-pipeline-migration.sql
- API: runtime/datamate-python/app/module/annotation/
- Worker: runtime/python-executor/datamate/auto_annotation_worker.py
- 算子: runtime/ops/annotation/image_object_detection_bounding_box/

2026-02-07 22:35:33 +08:00

app

feat(annotation): 支持通用算子编排的数据标注功能

2026-02-07 22:35:33 +08:00

deploy

feat(auto-annotation): integrate YOLO auto-labeling and enhance data management (#223 )

2026-01-05 14:22:44 +08:00

examples

feat: Enhance file tag update functionality with automatic format conversion (#84 )

2025-11-14 12:42:39 +08:00

.env.example

feat: File and Annotation 2-way sync implementation (#63 )

2025-11-07 15:03:07 +08:00

.gitignore

feat: File and Annotation 2-way sync implementation (#63 )

2025-11-07 15:03:07 +08:00

poetry.lock

feat(runtime): 添加 Pillow 图像处理库依赖

2026-02-06 13:21:01 +08:00

pyproject.toml

feat(runtime): 添加 Pillow 图像处理库依赖

2026-02-06 13:21:01 +08:00

README.md

docs: update README and Makefile for clarity and new development instructions (#147 )

2025-12-10 12:25:25 +08:00

uvicorn_start.sh

feat: File and Annotation 2-way sync implementation (#63 )

2025-11-07 15:03:07 +08:00

README.md

DataMate Python Service (DataMate)

这是 DataMate 的 Python 服务，负责DataMate的数据合成、数据标注、数据评估等功能。

简要说明

框架：FastAPI
异步数据库/ORM：SQLAlchemy (async)
数据库迁移：Alembic
运行器：uvicorn

快速开始（开发）

前置条件

Python 3.11+
poetry 包管理器

克隆仓库

git clone git@github.com:ModelEngine-Group/DataMate.git

cd runtime/datamate-python

安装依赖由于项目使用poetry管理依赖，你可以使用以下命令安装：：

poetry install

或者直接使用pip安装（如果poetry不可用）：

pip install -e .

配置环境变量复制环境变量示例文件并配置：

cp .env.example .env

编辑.env文件，设置必要的环境变量，如数据库连接、Label Studio配置等。

数据库迁移（开发环境）：

alembic upgrade head

启动开发服务器（示例与常用参数）：

本地开发（默认 host/port，自动重载）：

set -a && source .env && set +a && poetry run uvicorn app.main:app --port 18000 --log-level debug --reload

或者

poetry run python -m app.main

指定主机与端口并打开调试日志：

uvicorn app.main:app --host 0.0.0.0 --port 8000 --reload --log-level debug

在生产环境使用多个 worker（不使用 --reload）：

uvicorn app.main:app --host 0.0.0.0 --port 8000 --workers 4 --log-level info --proxy-headers

使用环境变量启动（示例）：

HOST=0.0.0.0 PORT=8000 uvicorn app.main:app --reload

注意：

--reload 仅用于开发，会监视文件变化并重启进程；不要在生产中使用。
--workers 提供并发处理能力，但会增加内存占用；生产时通常配合进程管理或容器编排（Kubernetes）使用。
若需要完整的生产部署建议使用 ASGI 服务器（如 gunicorn + uvicorn workers / 或直接使用 uvicorn 在容器中配合进程管理）。

访问 API 文档：

Swagger UI: http://127.0.0.1:8000/docs
ReDoc: http://127.0.0.1:8000/redoc （推荐使用）

开发新功能

安装开发依赖：

poetry  add xxx

使用（简要）

所有 API 路径以 /api 前缀注册（见 app/main.py 中 app.include_router(api_router, prefix="/api")）。
根路径 / 返回服务信息和文档链接。

更多细节请查看 doc/usage.md（接口使用）和 doc/development.md（开发说明）。