05f3efc148
build(docker): 更新 Docker 镜像源为南京大学镜像地址
...
- 将 frontend Dockerfile 中的基础镜像从 gcr.io 切换到 gcr.nju.edu.cn
- 更新 offline Dockerfile 中的 nodejs20-debian12 镜像源
- 修改 export-cache.sh 脚本中的基础镜像列表为南京大学镜像
- 更新 Makefile.offline.mk 中的镜像拉取地址为本地镜像源
- 优化 export-cache.sh 脚本的格式和输出信息
- 添加缓存导出过程中的警告处理机制
2026-02-02 22:48:41 +08:00
9da187d2c6
feat(build): 添加离线构建支持
...
- 新增 build-offline.sh 脚本实现无网环境构建
- 添加离线版 Dockerfiles 使用本地资源替代网络下载
- 创建 export-cache.sh 脚本在有网环境预下载依赖
- 集成 Makefile.offline.mk 提供便捷的离线构建命令
- 添加详细的离线构建文档和故障排查指南
- 实现基础镜像、BuildKit 缓存和外部资源的一键打包
2026-02-02 21:44:44 +08:00
40889baacc
feat(knowledge): 添加知识库条目预览功能
...
- 集成 docx4j 和 LibreOffice 实现 Office 文档转 PDF 预览
- 新增 KnowledgeItemPreviewService 处理预览转换逻辑
- 添加异步任务 KnowledgeItemPreviewAsyncService 进行文档转换
- 实现预览状态管理包括待转换、转换中、就绪和失败状态
- 在前端界面添加 Office 文档预览状态标签显示
- 支持 DOC/DOCX 文件在线预览功能
- 添加预览元数据存储和管理机制
2026-02-01 20:05:25 +08:00
be313cf425
refactor(db): 优化知识条目表索引结构
...
- 移除知识条目表中 relative_path 字段的索引
- 移除知识条目目录表中 relative_path 字段的唯一约束
- 移除知识条目目录表中 relative_path 字段的索引
- 保留必要的 source_file 和 set_id 关
2026-02-01 11:26:10 +08:00
db37de8aee
perf(db): 优化知识条目表索引配置
...
- 为 idx_dm_ki_relative_path 索引添加长度限制 (768)
- 为 uk_dm_kd_set_path 唯一约束添加相对路径长度限制 (768)
- 为 idx_dm_kd_relative_path 索引添加长度限制 (768)
- 提升数据库查询性能和索引效率
2026-02-01 11:24:35 +08:00
c23a9da8cb
feat(knowledge): 添加知识库目录管理功能
...
- 在知识条目表中新增relative_path字段用于存储条目相对路径
- 创建知识条目目录表用于管理知识库中的目录结构
- 实现目录的增删查接口和相应的应用服务逻辑
- 在前端知识库详情页面集成目录显示和操作功能
- 添加目录创建删除等相关的API接口和DTO定义
- 更新数据库初始化脚本包含新的目录表结构
2026-01-31 18:36:40 +08:00
8fdc7d99b8
feat(docker): 优化 Dockerfile 支持弱网环境缓存
...
- 使用缓存挂载 DataX 源码,避免重复克隆提高构建效率
- 添加 NLTK 数据缓存挂载并增加失败检查机制
- 实现 PaddleOCR 模型下载缓存,支持离线重用
- 集成 spaCy 模型缓存机制,提升安装稳定性
- 优化构建流程适配弱网环境下的依赖下载
2026-01-31 14:31:47 +08:00
f2403f00ce
feat(annotation): 添加不适用标注状态支持
...
- 在 AnnotationResultStatus 枚举中新增 NOT_APPLICABLE 状态
- 将无标注/不适用合并为两个独立的状态选项
- 更新前端标签显示逻辑以支持新的状态类型
- 修改确认对话框允许选择不适用状态
- 在后端数据库模型中添加 NOT_APPLICABLE 状态值
- 更新 API schema 描述以反映新的状态选项
- 调整标注状态判断和保存逻辑以处理三种状态
- 更新数据库表结构注释包含新状态类型
2026-01-31 13:28:08 +08:00
f4fc574687
feat(annotation): 添加标注状态管理功能
...
- 引入 AnnotationResultStatus 枚举类型区分已标注和无标注状态
- 在前端组件中实现空标注检测和确认对话框逻辑
- 添加数据库表字段 annotation_status 存储标注状态
- 扩展后端服务验证和处理标注状态逻辑
- 更新 API 接口支持标注状态参数传递
- 改进任务列表显示逻辑以反映不同标注状态
- 实现分段模式下的标注结果检查机制
2026-01-31 13:23:38 +08:00
6c7ea0c25e
chore(deps): 更新 Docker 镜像源地址
...
- 将 etcd 镜像源从 quay.io 替换为 quay.nju.edu.cn
- 将 vLLM-Ascend 镜像源从 quay.io 替换为 quay.nju.edu.cn
- 统一使用南京大学镜像仓库地址以提高下载速度
2026-01-31 11:21:47 +08:00
76f70a6847
feat(knowledge-base): 添加知识库文件全库检索功能
...
- 新增相对路径字段替代原有的metadata存储方式
- 实现跨知识库文件检索接口searchFiles
- 添加前端全库检索页面和相关API调用
- 优化文件路径处理和数据库索引配置
- 统一请求参数类型定义为RequestPayload和RequestParams
- 简化RagFile模型中的元数据结构设计
2026-01-30 22:24:12 +08:00
8b2a19f09a
feat(annotation): 添加标注项目文件快照功能
...
- 新增 LabelingProjectFile 模型用于存储标注项目的文件快照
- 在创建标注项目时记录关联的文件快照数据
- 更新查询逻辑以基于项目快照过滤文件列表
- 优化导出统计功能使用快照数据进行计算
- 添加数据库表结构支持项目文件快照关系
2026-01-30 18:10:13 +08:00
283f4af094
chore(gateway): 移除Dockerfile中的离线模式参数
...
- 移除了mvn命令中的-o参数,允许在线下载依赖包
- 优化了编译过程以支持网络连接场景下的依赖管理
2026-01-30 14:13:16 +08:00
2d476f7c7a
chore(gateway): 移除Dockerfile中的离线模式参数
...
- 移除了mvn命令中的-o参数,允许在线下载依赖包
-
2026-01-30 12:01:49 +08:00
e624c8a26f
chore(build): 移除Dockerfile中的离线模式标志
...
- 从Maven构建命令中移除了-o(离线)标志
- 确保构建过程中能够访问远程仓库获取依赖
- 提高了依赖解析的可靠性和准确性
2026-01-30 11:59:44 +08:00
c221666e67
feat(data-management): 添加数据集相似度推荐功能
...
- 在DatasetApplicationService中实现getSimilarDatasets方法,支持基于标签匹配的相似数据集推荐
- 新增normalizeSimilarLimit、normalizeTagNames、countSharedTags等辅助方法用于相似度计算
- 在DatasetRepository接口及其实现类中添加findSimilarByTags方法,支持数据库层面的标签匹配查询
- 在DatasetController中暴露/similar REST API端点,支持按需获取相似数据集
- 在前端Overview组件中展示相似数据集表格,包含名称、标签、类型、文件数和更新时间等信息
- 在DatasetDetail页面集成相似数据集获取逻辑,限制默认返回数量为4条
- 移除KnowledgeItem中的冗余title字段,统一使用其他标识信息
- 优化知识管理相关组件中的标题显示逻辑,移除硬编码标题值
2026-01-30 11:43:57 +08:00
c51cd2b6e4
perf(docker): 优化 Docker 构建性能并启用缓存卷支持
...
- 在后端 Dockerfile 中实现分层缓存,先复制 pom.xml 文件再下载依赖
- 在前端 Dockerfile 中实现 npm 依赖缓存卷,提升构建效率
- 在网关 Dockerfile 中实现 Maven 依赖缓存卷,减少重复下载
- 在 Makefile 中启用 Docker BuildKit 支持缓存卷等高级功能
- 使用离线模式编译避免网络请求,加快构建速度
- 优化 COPY 操作顺序以更好利用 Docker 层缓存机制
2026-01-30 11:17:40 +08:00
977a930c97
feat(annotation): 支持音频和视频数据类型的标注任务
...
- 添加了音频和视频数据类型常量定义
- 实现了音频和视频标注模板的内置配置
- 扩展前端组件以支持按数据类型过滤标注模板
- 重构后端编辑器服务以处理音频和视频任务构建
- 更新数据库初始化脚本包含音频和视频标注模板
- 添加音频和视频数据类型的预览URL映射逻辑
2026-01-26 23:54:40 +08:00
a8c5de0aa6
feat(db): 添加图像分类标注模板到数据库初始化脚本
...
- 新增图像分类标注模板配置,支持内容审核、安全检测等场景
- 集成 ResNet、EfficientNet、Vision Transformer 关联模型
- 添加 Choices 标签配置,包含 Adult content、Weapons、Violence 选项
- 设置 Image 对象类型用于图像展示和标注
- 配置水平布局样式和计算机视觉类别属性
2026-01-26 10:19:55 +08:00
3f566a0b08
feat(annotation): 替换模板配置表单为树形编辑器组件
...
- 移除 TemplateConfigurationForm 组件并引入 TemplateConfigurationTreeEditor
- 使用 useTagConfig Hook 获取标签配置
- 将自定义XML状态 customXml 替换为 labelConfig
- 删除模板编辑标签页和选择模板状态管理
- 更新XML解析逻辑支持更多对象和标注控件类型
- 添加配置验证功能确保至少包含数据对象和标注控件
- 在模板详情页面使用树形编辑器显示配置详情
- 更新任务创建页面集成新的树形配置编辑器
- 调整预览数据生成功能适配新的XML解析方式
2026-01-23 16:11:59 +08:00
e78acbea0a
feat(data-management): 添加知识库管理功能
...
- 在DataManagementErrorCode中新增知识库相关错误码定义
- 在数据库初始化脚本中创建知识集和知识条目表结构
- 新增KnowledgeItemApplicationService实现知识条目的CRUD操作
- 新增KnowledgeSetApplicationService实现知识集的CRUD操作
- 定义KnowledgeContentType、KnowledgeSourceType和KnowledgeStatusType枚举类型
- 创建KnowledgeItem和KnowledgeSet领域模型实体
- 实现KnowledgeItemMapper和KnowledgeSetMapper数据访问接口
- 提供KnowledgeItemRepositoryImpl和KnowledgeSetRepositoryImpl仓储实现
- 添加知识条目按条件分页查询功能
- 实现知识条目从数据集文件导入的功能
- 支持知识集和知识条目的标签管理和状态控制
2026-01-21 11:32:45 +08:00
79371ba078
feat(data-management): 添加数据集父子层级结构功能
...
- 在OpenAPI规范中新增parentDatasetId字段用于层级过滤
- 实现数据集父子关系的创建、更新和删除逻辑
- 添加数据集移动时的路径重命名和文件路径前缀更新
- 增加子数据集数量验证防止误删父数据集
- 更新前端界面支持选择父数据集和导航显示
- 优化Python后端自动标注任务的路径处理逻辑
- 修改数据库表结构添加外键约束确保数据一致性
2026-01-20 13:34:50 +08:00
fb278e206e
doc(db): 更新数据库初始化脚本注释说明
...
- 为音频语音处理模块添加调试状态注释
- 将聊天评估模块标记为暂未调试完成
- 为计算机视觉模块添加调试状态注释
- 将结构化数据模块标记为暂未调试完成
- 为时间序列模块添加调试状态注释
- 将视频处理模块标记为暂未调试完成
2026-01-19 11:20:29 +08:00
668432cc1b
fix(db): 添加数据库表创建的条件检查
...
- 在标注配置模板表创建语句中添加 IF NOT EXISTS 条件
- 在标注项目表创建语句中添加 IF NOT EXISTS 条件
- 在标注结果表创建语句中添加 IF NOT EXISTS 条件
- 在自动标注任务表创建语句中添加 IF NOT EXISTS 条件
- 防止重复执行脚本时出现表已存在的错误
- 提高数据库初始化脚本的健壮性
2026-01-18 20:55:02 +08:00
e81c0bf199
feat(annotation): 扩展模板ID字段长度以支持自定义ID
...
- 将标注配置模板表的id字段从VARCHAR(36)扩展到VARCHAR(64)
- 修改标注管理模型中的template_id字段从VARCHAR(36)扩展到VARCHAR(64)
- 更新数据库初始化脚本中的字段长度定义
- 支持更长的UUID或自定义ID格式的模板标识符
2026-01-18 20:50:00 +08:00
b992b08b2c
feat(annotation): 扩展标注模板功能支持多模态数据类型
...
- 扩展数据类型支持包括pdf/chat/html/table等多种格式
- 新增标注类型涵盖asr/ner/object-detection等专业领域
- 添加label_config字段用于Label Studio XML配置存储
- 更新模板分类体系为audio-speech/chat/computer-vision/nlp等
- 实现预定义label_config优先使用的配置加载逻辑
- 完善数据库初始化脚本包含多模态标注模板数据
2026-01-18 20:35:34 +08:00
a98eeb530f
s3-compatible-fs support
2026-01-09 14:35:03 +08:00
ba210d3d4f
localfs support
2026-01-09 14:35:03 +08:00
010ffceab5
glusterfs support
2026-01-09 13:49:18 +08:00
92aa27caa9
mirror
2026-01-09 10:10:58 +08:00
adb90bbf10
mirror
2026-01-09 09:28:02 +08:00
fafe4c6a41
mirror
2026-01-09 08:56:15 +08:00
a98cdae209
mirror
2026-01-09 08:51:58 +08:00
4d228ba739
mirror
2026-01-09 08:49:18 +08:00
f3f1609455
mirror
2026-01-09 08:46:01 +08:00
d5b75fee0d
LSF
2026-01-07 00:00:16 +08:00
Kecheng Sha
3f1ad6a872
feat(auto-annotation): integrate YOLO auto-labeling and enhance data management ( #223 )
...
* feat(auto-annotation): initial setup
* chore: remove package-lock.json
* chore: 清理本地测试脚本与 Maven 设置
* chore: change package-lock.json
2026-01-05 14:22:44 +08:00
hefanli
ccfb84c034
feature: add mysql collection and starrocks collection ( #222 )
...
* fix: fix the path for backend-python imaage building
* feature: add mysql collection and starrocks collection
* feature: add mysql collection and starrocks collection
* fix: change the permission of those files which collected from nfs to 754
* fix: delete collected files, config files and log files while deleting collection task
* fix: add the collection task detail api
* fix: change the log of collecting for dataset
* fix: add collection task selecting while creating and updating dataset
* fix: set the umask value to 0022 for java process
2026-01-04 19:05:08 +08:00
Dallas98
91f02300d7
feat: update Docker configuration to include backend Nginx settings ( #219 )
...
* feat: 增加label-studio的k8s部署卸载
* Revert "feat: 增加label-studio的k8s部署卸载"
This reverts commit 3e59c33e1de7d2c8d45a1f3d5fb53112a20a24a6.
* feat: update Docker configuration to include backend Nginx settings
2025-12-31 16:44:21 +08:00
o0Shark0o
cbed6fbcd7
Revert "Merge branch 'main' of https://github.com/ModelEngine-Group/DataMate "
...
This reverts commit a12f4c90a5 , reversing
changes made to 34f08df86b .
2025-12-31 16:19:19 +08:00
hefanli
3a874fe699
fix: fix the collection for nfs ( #218 )
...
* fix: remove the datax-builder for the Backend Image
* fix: fix the collection for nfs
2025-12-31 15:56:01 +08:00
hhhhsc701
6a1eb85e8e
feat: 支持运行data-juicer算子 ( #215 )
...
* feature: 增加data-juicer算子
* feat: 支持运行data-juicer算子
* feat: 支持data-juicer任务下发
* feat: 支持data-juicer结果数据集归档
* feat: 支持data-juicer结果数据集归档
2025-12-31 09:20:41 +08:00
hefanli
63f4e3e447
refactor: modify data collection to python implementation ( #214 )
...
* feature: LabelStudio jumps without login
* refactor: modify data collection to python implementation
* refactor: modify data collection to python implementation
* refactor: modify data collection to python implementation
* refactor: modify data collection to python implementation
* refactor: modify data collection to python implementation
* refactor: modify data collection to python implementation
* fix: remove terrabase dependency
* feature: add the collection task executions page and the collection template page
* fix: fix the collection task creation
* fix: fix the collection task creation
2025-12-30 18:48:43 +08:00
hhhhsc701
7e842c7cd5
feat: label-studio构建脚本 ( #198 )
...
* feat: label-studio构建脚本
* feat: label-studio构建脚本
* feat: label-studio构建脚本
* feat: label-studio安装脚本
2025-12-25 11:44:05 +08:00
hefanli
215d7f0612
Fix the ratio task bug ( #194 )
...
* fix: add feign client configurations
* fix: add nacos configurations
* fix: add python to gateway
* fix: Fix the ratio task bug
2025-12-24 11:40:26 +08:00
hefanli
e5b28c26b1
add gateway ( #187 )
...
* feature: add gateway
2025-12-22 15:41:17 +08:00
hhhhsc701
46f4a8c219
feat: add download functionality for example operator and update Dock… ( #188 )
...
* feat: add download functionality for example operator and update Dockerfile
* feat: enhance download response by exposing content disposition header
* feat: update download function to accept filename parameter for example operator
2025-12-22 15:39:32 +08:00
hhhhsc701
ab4523b556
add export type settings and enhance metadata structure ( #181 )
...
* fix(session): enhance database connection settings with pool pre-ping and recycle options
* feat(metadata): add export type settings and enhance metadata structure
* fix(base_op): improve sample handling by introducing target_type key and consolidating text/data retrieval logic
* feat(metadata): add export type settings and enhance metadata structure
* feat(metadata): add export type settings and enhance metadata structure
2025-12-19 11:54:08 +08:00
hhhhsc701
be875086db
feat: add operator-packages-volume to docker-compose and update Docke… ( #179 )
...
* feat: add operator-packages-volume to docker-compose and update Dockerfile for site-packages path
* feat: add retry
2025-12-18 20:32:42 +08:00
Dallas98
e0e9b1d94d
feat:问题生成过程优化及COT数据生成优化 ( #169 )
...
* fix(chart): update Helm chart helpers and values for improved configuration
* feat(SynthesisTaskTab): enhance task table with tooltip support and improved column widths
* feat(CreateTask, SynthFileTask): improve task creation and detail view with enhanced payload handling and UI updates
* feat(SynthFileTask): enhance file display with progress tracking and delete action
* feat(SynthFileTask): enhance file display with progress tracking and delete action
* feat(SynthDataDetail): add delete action for chunks with confirmation prompt
* feat(SynthDataDetail): update edit and delete buttons to icon-only format
* feat(SynthDataDetail): add confirmation modals for chunk and synthesis data deletion
* feat(DocumentSplitter): add enhanced document splitting functionality with CJK support and metadata detection
* feat(DataSynthesis): refactor data synthesis models and update task handling logic
* feat(DataSynthesis): streamline synthesis task handling and enhance chunk processing logic
* feat(DataSynthesis): refactor data synthesis models and update task handling logic
* fix(generation_service): ensure processed chunks are incremented regardless of question generation success
* feat(CreateTask): enhance task creation with new synthesis templates and improved configuration options
* feat(CreateTask): enhance task creation with new synthesis templates and improved configuration options
* feat(CreateTask): enhance task creation with new synthesis templates and improved configuration options
* feat(CreateTask): enhance task creation with new synthesis templates and improved configuration options
2025-12-18 16:51:18 +08:00