16eb5cacf9
feat(data-management): 添加知识项扩展元数据支持
...
- 在 KnowledgeItemApplicationService 中实现元数据字段的更新逻辑
- 为 CreateKnowledgeItemRequest 添加 metadata 字段定义
- 为 UpdateKnowledgeItemRequest 添加 metadata 字段定义
- 支持知识项创建和更新时的扩展元数据存储
2026-02-02 22:20:05 +08:00
a0239518fb
feat(dataset): 实现数据集文件可见性过滤功能
...
- 添加派生文件识别逻辑,通过元数据中的derived_from_file_id字段判断
- 实现applyVisibleFileCounts方法为数据集批量设置可见文件数量
- 修改数据集统计接口使用过滤后的可见文件进行统计计算
- 添加normalizeFilePath工具方法统一路径格式处理
- 更新文件查询逻辑支持派生文件过滤功能
- 新增DatasetFileCount DTO用于文件计数统计返回
2026-02-01 22:55:07 +08:00
438acebb89
feat(data-management): 添加Office文档预览功能
...
- 集成LibreOffice转换器实现DOC/DOCX转PDF功能
- 新增DatasetFilePreviewService处理预览文件管理
- 新增DatasetFilePreviewAsyncService异步转换任务
- 在文件删除时同步清理预览文件
- 前端实现Office文档预览状态轮询机制
- 添加预览API接口支持状态查询和转换触发
- 优化文件预览界面显示转换进度和错误信息
2026-02-01 22:26:05 +08:00
02cd16523f
refactor(data-management-service): 移除 docx4j 依赖
...
- 删除了 docx4j-core 依赖项
- 删除了 docx4j-export-fo 依赖项
- 更新了项目依赖配置
- 简化了构建配置文件
2026-02-01 21:18:50 +08:00
d4a44f3bf5
refactor(data-management): 优化知识项目预览服务的文件转换逻辑
...
- 移除 docx4j 相关依赖和转换方法
- 统一 office 文件转换为 pdf 的处理方式,全部使用 libreoffice
- 删除单独的 docx 到 pdf 转换方法
- 重命名转换方法为 convertOfficeToPdfByLibreOffice
- 增强路径解析逻辑,添加多种候选路径处理
- 添加路径安全性验证和规范化处理
- 新增 extractRelativePathFromSegment 和 normalizeRelativePathValue 辅助方法
- 改进文件存在性检查和路径构建逻辑
2026-02-01 21:18:14 +08:00
340a0ad364
refactor(data-management): 更新知识项存储路径解析方法
...
- 将 resolveKnowledgeItemStoragePath 方法替换为 resolveKnowledgeItemStoragePathWithFallback
- 新方法提供备用路径解析逻辑以增强文件定位的可靠性
2026-02-01 21:14:39 +08:00
00c41fbbd3
refactor(knowledge-item): 优化知识项预览文件路径处理逻辑
...
- 将文件路径验证逻辑从方法开始位置移动到实际使用位置
- 修复了预览文件名获取方式,直接从相对路径解析文件名
- 确保文件存在性检查只在需要时执行
- 提高了代码可读性和执行效率
2026-02-01 21:00:07 +08:00
40889baacc
feat(knowledge): 添加知识库条目预览功能
...
- 集成 docx4j 和 LibreOffice 实现 Office 文档转 PDF 预览
- 新增 KnowledgeItemPreviewService 处理预览转换逻辑
- 添加异步任务 KnowledgeItemPreviewAsyncService 进行文档转换
- 实现预览状态管理包括待转换、转换中、就绪和失败状态
- 在前端界面添加 Office 文档预览状态标签显示
- 支持 DOC/DOCX 文件在线预览功能
- 添加预览元数据存储和管理机制
2026-02-01 20:05:25 +08:00
d135a7f336
feat(knowledge): 添加知识库标签统计功能
...
- 在 KnowledgeItemApplicationService 中注入 TagMapper 并调用统计方法
- 新增 countKnowledgeSetTags 方法用于计算知识库中的标签总数
- 在 KnowledgeManagementStatisticsResponse 中添加 totalTags 字段
- 在前端 KnowledgeManagementPage 中显示标签总数统计信息
- 更新统计卡片布局从 3 列改为 4 列以适应新增统计项
- 在知识管理模型中添加 totalTags 类型定义
2026-02-01 18:46:31 +08:00
a4aefe66cd
perf(file): 增加文件上传默认超时时间
...
- 将默认超时时间从 120 秒增加到 1800 秒
- 提高大文件上传的处理能力
2026-01-31 19:15:21 +08:00
2f3a8b38d0
fix(dataset): 解决数据集文件查询时空目录导致异常的问题
...
- 添加目录存在性检查,避免文件系统访问异常
- 目录不存在时返回空分页结果而不是抛出异常
- 优化数据集刚创建时的用户体验
2026-01-31 19:10:22 +08:00
c23a9da8cb
feat(knowledge): 添加知识库目录管理功能
...
- 在知识条目表中新增relative_path字段用于存储条目相对路径
- 创建知识条目目录表用于管理知识库中的目录结构
- 实现目录的增删查接口和相应的应用服务逻辑
- 在前端知识库详情页面集成目录显示和操作功能
- 添加目录创建删除等相关的API接口和DTO定义
- 更新数据库初始化脚本包含新的目录表结构
2026-01-31 18:36:40 +08:00
310bc356b1
feat(knowledge): 添加知识库文件目录结构支持功能
...
- 在 KnowledgeItem 模型中增加 relativePath 字段存储相对路径
- 实现文件上传时的目录前缀处理和相对路径构建逻辑
- 添加批量删除知识条目的接口和实现方法
- 重构前端 KnowledgeSetDetail 组件以支持目录浏览和管理
- 实现文件夹创建、删除、导航等目录操作功能
- 更新数据查询逻辑以支持按相对路径进行搜索和过滤
- 添加前端文件夹图标显示和目录层级展示功能
2026-01-31 17:45:43 +08:00
595a758d05
refactor(data-management): 优化PDF文本提取服务的事务处理
...
- 添加TransactionSynchronization相关依赖注入
- 实现事务提交后异步执行PDF文本提取功能
- 增加数据集ID和文件ID的空值检查
- 在活跃事务中注册同步回调确保正确执行
- 避免在事务未提交时提前执行异步任务
2026-01-31 13:59:03 +08:00
4fa0ac1df4
config(security): 禁用安全配置中的frameOptions以允许iframe嵌入
...
- 在SecurityFilterChain中添加headers配置
- 禁用frameOptions以解决iframe嵌入限制问题
- 保持csrf禁用和其他现有安全设置不变
2026-01-31 13:57:38 +08:00
b5d7c66240
feat(data-management): 扩展源文档排除功能支持Excel文件类型
...
- 在后端服务中扩展源文档类型检查,新增对XLS和XLSX文件的支持
- 修改DatasetFileApplicationService中的过滤逻辑,统一处理所有源文档类型
- 新增isSourceDocument和isDerivedFile辅助方法进行文件类型判断
- 更新前端DatasetFileTransfer组件中的注释说明
- 在Python运行时依赖中添加openpyxl和xlrd库以支持Excel文件处理
- 修改标注项目接口中源文档类型的集合定义
- 更新文件操作钩子中的派生文件排除逻辑
2026-01-31 11:30:55 +08:00
498f23a0c4
feat(data-management): 扩展文本数据集支持Excel文件类型
...
- 在DatasetFileApplicationService中添加XLS和XLSX文件类型到文档文本文件类型集合
- 更新DatasetTypeController中的TEXT数据集类型支持xls和xlsx扩展名
- 在pdf_extract.py中添加XLS和XLSX文件类型的常量定义和解析器配置
- 实现Excel文件转CSV的功能,支持单个工作表和多工作表的解析
- 添加对Excel文件的依赖检查和错误处理机制
- 修改目标文件路径构建逻辑以支持不同文件类型的派生扩展名
- 更新文本文件记录创建逻辑以使用派生文件类型而不是固定文本类型
2026-01-31 11:11:24 +08:00
790385bd80
feat(knowledge-management): 添加知识管理搜索功能和统计接口
...
- 新增知识条目搜索查询和响应DTO
- 实现知识管理统计功能,包括总数、文件数和总大小
- 添加数据库查询方法支持文件搜索和统计计算
- 创建知识条目搜索控制器提供REST API
- 在前端添加知识管理搜索页面和相关组件
- 更新前端路由配置添加搜索页面入口
- 移除RAG索引服务中的重复统计功能
- 优化前端页面统计数据显示和刷新逻辑
2026-01-31 09:30:37 +08:00
fd209c3083
feat(knowledge-base): 添加知识库统计功能
...
- 后端服务新增 KnowledgeBaseStatisticsResp 和 RagFileStatistics 数据传输对象
- 在 KnowledgeBaseService 中实现 getStatistics 方法提供统计信息查询
- 为 RagFileRepository 添加 getStatistics 接口及其实现
- 通过 MyBatis Mapper 实现数据库层面的统计查询功能
- 在 KnowledgeBaseController 中暴露 /statistics 接口供前端调用
- 前端页面集成统计卡片组件展示知识库、文件数量及总大小信息
- 实现前后端数据同步机制确保统计数据实时更新
2026-01-30 23:17:40 +08:00
76f70a6847
feat(knowledge-base): 添加知识库文件全库检索功能
...
- 新增相对路径字段替代原有的metadata存储方式
- 实现跨知识库文件检索接口searchFiles
- 添加前端全库检索页面和相关API调用
- 优化文件路径处理和数据库索引配置
- 统一请求参数类型定义为RequestPayload和RequestParams
- 简化RagFile模型中的元数据结构设计
2026-01-30 22:24:12 +08:00
cbad129ce4
feat(rag): 添加相对路径搜索功能并优化文件显示
...
- 在RagFileRepositoryImpl中新增relativePath字段和路径模式构建方法
- 实现buildRelativePathPattern方法用于构建相对路径搜索模式
- 修改page方法添加相对路径模糊查询支持
- 在RagFileReq DTO中添加relativePath参数字段
- 优化KnowledgeBaseDetail页面中的文件名显示逻辑
- 添加normalizePath函数处理文件路径规范化显示
2026-01-30 21:55:29 +08:00
ca7ff56610
feat(rag): 添加文件相对路径支持功能
...
- 在FileInfo DTO中新增relativePath字段
- 实现文件相对路径的规范化处理逻辑
- 将文件相对路径存储到元数据中
- 前端添加文件路径解析和显示功能
- 优化路径分隔符统一处理机制
- 更新文件列表展示逻辑以支持路径层级结构
2026-01-30 21:46:03 +08:00
9a205919d7
refactor(data-import): 优化数据源文件扫描和复制逻辑
...
- 修改数据源文件扫描方法,直接在主流程中获取任务详情和路径
- 移除独立的getFilePaths方法,将路径扫描逻辑整合到scanFilePaths方法中
- 新增copyFilesToDatasetDirWithSourceRoot方法支持保留相对路径的文件复制
- 更新数据集文件应用服务中的文件复制逻辑,支持相对路径处理
- 修改Python后端项目接口中的文件查询逻辑,移除注释掉的编辑器服务引用
- 调整文件过滤逻辑,基于元数据中的派生源ID进行文件筛选
- 移除编辑器服务中已废弃的源文档过滤条件
2026-01-30 18:58:34 +08:00
bd37858ccc
refactor(dataset): 优化数据集路径管理和关联关系处理
...
- 移除Dataset类中initCreateParam方法的parentPath参数
- 简化handleParentChange方法中的路径构建逻辑
- 更新错误消息将"子数据集"改为"关联数据集"
- 修改前端界面将"父数据集"相关术语统一为"关联数据集"
- 在导入配置组件中添加类型定义和改进文件处理逻辑
- 限制数据源选项排除COLLECTION类型避免错误选择
2026-01-30 16:48:39 +08:00
c221666e67
feat(data-management): 添加数据集相似度推荐功能
...
- 在DatasetApplicationService中实现getSimilarDatasets方法,支持基于标签匹配的相似数据集推荐
- 新增normalizeSimilarLimit、normalizeTagNames、countSharedTags等辅助方法用于相似度计算
- 在DatasetRepository接口及其实现类中添加findSimilarByTags方法,支持数据库层面的标签匹配查询
- 在DatasetController中暴露/similar REST API端点,支持按需获取相似数据集
- 在前端Overview组件中展示相似数据集表格,包含名称、标签、类型、文件数和更新时间等信息
- 在DatasetDetail页面集成相似数据集获取逻辑,限制默认返回数量为4条
- 移除KnowledgeItem中的冗余title字段,统一使用其他标识信息
- 优化知识管理相关组件中的标题显示逻辑,移除硬编码标题值
2026-01-30 11:43:57 +08:00
3cc0802355
refactor(data-management): 移除知识条目的冗余字段和验证逻辑
...
- 移除 KnowledgeItem 实体中的 title、status、domain、businessLine、owner、sensitivity 字段
- 移除 KnowledgeItem 实体中的有效期限相关字段 validFrom 和 validTo
- 移除 KnowledgeItem 实体中的标签集合 tags 和扩展元数据 metadata
- 删除 KnowledgeItemApplicationService 中的相关验证和默认值设置逻辑
- 移除 TagMapper 和 Tag 相关的数据处理代码
- 简化创建和更新知识条目的业务流程
- 更新数据库查询条件以适应新的实体结构
- 从各种 DTO 中移除已删除字段的定义和验证规则
- 修改分页查询逻辑以匹配新的字段结构
2026-01-29 15:09:47 +08:00
6eb7507adf
feat(repository): 添加查询衍生文件源文件ID功能
...
- 在 DatasetFileRepository 接口中添加 findSourceFileIdsWithDerivedFiles 方法定义
- 在 DatasetFileRepositoryImpl 实现类中实现该方法
- 添加查询 metadata 中包含 derived_from_file_id 记录的源文件ID逻辑
- 提供完整的 JavaDoc 文档注释说明方法用途和参数
2026-01-29 14:40:44 +08:00
f77fd99c31
feat(data-management): 扩展文档解析功能支持DOC和DOCX格式
...
- 添加对DOC和DOCX文件类型的常量定义和支持
- 将文件类型验证逻辑从仅PDF扩展为PDF/DOC/DOCX
- 集成Docx2txtLoader用于处理Word文档解析
- 更新错误消息为中文描述以提升用户体验
- 重构文件解析方法以支持多种文档格式
- 添加解析器元数据记录以追踪使用的解析工具
- 更新文件路径验证和构建逻辑以适配新的文件类型
2026-01-29 13:05:58 +08:00
ab957ab53d
feat(dataset): 添加PDF文本提取功能支持
...
- 新增dataset模块路由配置
- 添加PdfTextExtractRequest和PdfTextExtractResponse数据传输对象
- 实现PDF文本提取接口,支持从PDF文件中提取文本内容
- 集成数据库会话管理和异步处理能力
2026-01-29 11:45:23 +08:00
ce98be5778
feat(knowledge): 添加知识条目文件预览和替换功能
...
- 后端实现知识条目文件预览接口,支持多种文件类型在线预览
- 后端实现知识条目文件替换功能,保留原有文件管理逻辑
- 前端新增文件预览模态框组件,支持文本、图片、音视频预览
- 前端知识条目编辑器添加文件替换上传功能
- 前端优化文件内容截断预览逻辑,统一使用工具函数处理
- 前端修复 PUT 请求中 FormData 处理问题,确保文件上传正常工作
- 新增文件预览相关工具函数和常量配置
2026-01-29 11:38:43 +08:00
d0b5473068
feat(knowledge): 添加知识条目文件上传和下载功能
...
- 新增文件上传接口支持批量上传知识条目文件
- 实现文件存储路径管理和安全验证机制
- 添加文件下载功能支持知识条目文件导出
- 扩展知识内容类型枚举增加FILE类型
- 扩展知识来源类型枚举增加FILE_UPLOAD类型
- 新增上传请求DTO定义文件验证和元数据配置
- 实现文件上传目录管理和文件名安全处理
- 添加文件扩展名识别和内容类型转换逻辑
2026-01-29 11:17:24 +08:00
43f7d88ad2
fix(data-cleaning): 修复数据集文件查询方法调用参数缺失问题
...
- 为datasetFileService.getDatasetFiles方法调用补充了缺失的参数
- 确保分页查询功能正常工作
- 解决了因参数不匹配导致的方法
2026-01-27 19:54:11 +08:00
3a93098b57
feat(data-management): 添加数据集文件标注结果过滤功能
...
- 在 OpenAPI 规范中添加 hasAnnotation 查询参数用于过滤存在标注结果的文件
- 修改后端服务层 DatasetFileApplicationService 支持 hasAnnotation 参数
- 更新数据访问层 DatasetFileRepositoryImpl 实现基于标注结果的存在性查询
- 调整前端 DatasetFileTransfer 组件支持标注过滤功能
- 移除无用的分块选项配置并优化全选逻辑
- 修复文件查询时的参数传递和依赖追踪问题
2026-01-27 18:11:30 +08:00
6835511f5a
feat(data-management): 修改知识项导出功能为ZIP格式
...
- 将导出文件格式从JSON改为ZIP压缩包
- 使用ZipArchiveOutputStream实现ZIP文件创建
- 为每个知识项创建独立的文件条目
- 添加文件名规范化和长度限制逻辑
- 实现重复文件名的索引编号处理
- 移除Jackson ObjectMapper依赖引入
- 更新响应头内容类型为application/zip
2026-01-26 11:15:58 +08:00
a8c7c9404c
feat(knowledge): 添加知识条目导出功能和文件上传支持
...
- 在 KnowledgeItemApplicationService 中新增 exportKnowledgeItems 方法实现知识条目导出
- 添加 export 相关常量配置包括文件名格式、内容类型等
- 在 KnowledgeItemRepository 中新增 findAllBySetId 查询方法
- 在 KnowledgeItemController 中新增 export 接口端点
- 在 KnowledgeItemEditor 组件中添加文件上传功能支持 txt/md/markdown 格式
- 在 KnowledgeSetDetail 页面中添加导出按钮并集成导出 API
- 更新前端 API 文件添加 exportKnowledgeItemsUsingGet 方法
- 配置文件上传验证和自动填充标题内容逻辑
2026-01-26 11:13:21 +08:00
c5ace0c4cc
feat(annotation): 支持图像数据集的内嵌标注编辑器
...
- 添加文件预览接口,支持以 inline 方式预览数据集中的指定文件
- 实现图像任务构建功能,支持图像标注任务的数据结构
- 扩展标注编辑器服务以支持 TEXT 和 IMAGE 类型数据集
- 添加媒体对象分类支持,解析图像标注配置
- 实现图像文件预览 URL 构建逻辑
- 优化项目信息获取和任务响应构建流程
- 修复数据库查询中的项目 ID 引用错误
2026-01-25 17:25:44 +08:00
73f0ab65fa
feat(annotation): 实现标注结果同步到知识管理功能
...
- 在知识条目实体中新增来源数据集ID和文件ID字段
- 实现标注编辑器中同步标注结果到知识管理的服务逻辑
- 添加知识同步服务类处理标注到知识条目的转换和同步
- 实现通过下载接口获取文本内容的独立服务模块
- 更新知识条目查询接口支持按来源数据集和文件ID过滤
- 自动创建和关联标注项目对应的知识集
- 支持文本和Markdown文件的内容合并标注结果
- 添加同步过程中的错误处理和日志记录机制
2026-01-21 16:09:34 +08:00
e78acbea0a
feat(data-management): 添加知识库管理功能
...
- 在DataManagementErrorCode中新增知识库相关错误码定义
- 在数据库初始化脚本中创建知识集和知识条目表结构
- 新增KnowledgeItemApplicationService实现知识条目的CRUD操作
- 新增KnowledgeSetApplicationService实现知识集的CRUD操作
- 定义KnowledgeContentType、KnowledgeSourceType和KnowledgeStatusType枚举类型
- 创建KnowledgeItem和KnowledgeSet领域模型实体
- 实现KnowledgeItemMapper和KnowledgeSetMapper数据访问接口
- 提供KnowledgeItemRepositoryImpl和KnowledgeSetRepositoryImpl仓储实现
- 添加知识条目按条件分页查询功能
- 实现知识条目从数据集文件导入的功能
- 支持知识集和知识条目的标签管理和状态控制
2026-01-21 11:32:45 +08:00
79371ba078
feat(data-management): 添加数据集父子层级结构功能
...
- 在OpenAPI规范中新增parentDatasetId字段用于层级过滤
- 实现数据集父子关系的创建、更新和删除逻辑
- 添加数据集移动时的路径重命名和文件路径前缀更新
- 增加子数据集数量验证防止误删父数据集
- 更新前端界面支持选择父数据集和导航显示
- 优化Python后端自动标注任务的路径处理逻辑
- 修改数据库表结构添加外键约束确保数据一致性
2026-01-20 13:34:50 +08:00
hhhhsc701
7d4dcb756b
fix: 修复入库可能重复;筛选逻辑优化 ( #226 )
...
* 修改数据清洗筛选逻辑-筛选修改为多选
* 修改数据清洗筛选逻辑-筛选修改为多选
* antd 组件库样式定制修改
* fix: 修复入库可能重复
* fix: 算子市场筛选逻辑优化
* fix: 清洗任务创建筛选逻辑优化
* fix: 清洗任务创建筛选逻辑优化
---------
Co-authored-by: chase <byzhangxin11@126.com >
2026-01-06 17:57:25 +08:00
hefanli
a15a6134ff
fix the ratio task config ( #224 )
...
* fix: fix the dataset card icon
* fix: fix the dataset file tag distribution and ratio task
* refactor: change dateRange config from latest to start-end
2026-01-05 17:02:28 +08:00
Kecheng Sha
3f1ad6a872
feat(auto-annotation): integrate YOLO auto-labeling and enhance data management ( #223 )
...
* feat(auto-annotation): initial setup
* chore: remove package-lock.json
* chore: 清理本地测试脚本与 Maven 设置
* chore: change package-lock.json
2026-01-05 14:22:44 +08:00
hefanli
ccfb84c034
feature: add mysql collection and starrocks collection ( #222 )
...
* fix: fix the path for backend-python imaage building
* feature: add mysql collection and starrocks collection
* feature: add mysql collection and starrocks collection
* fix: change the permission of those files which collected from nfs to 754
* fix: delete collected files, config files and log files while deleting collection task
* fix: add the collection task detail api
* fix: change the log of collecting for dataset
* fix: add collection task selecting while creating and updating dataset
* fix: set the umask value to 0022 for java process
2026-01-04 19:05:08 +08:00
hhhhsc701
f183b9f2f3
feat: 算子上传适配 ( #216 )
2025-12-31 10:30:32 +08:00
hhhhsc701
6a1eb85e8e
feat: 支持运行data-juicer算子 ( #215 )
...
* feature: 增加data-juicer算子
* feat: 支持运行data-juicer算子
* feat: 支持data-juicer任务下发
* feat: 支持data-juicer结果数据集归档
* feat: 支持data-juicer结果数据集归档
2025-12-31 09:20:41 +08:00
hefanli
63f4e3e447
refactor: modify data collection to python implementation ( #214 )
...
* feature: LabelStudio jumps without login
* refactor: modify data collection to python implementation
* refactor: modify data collection to python implementation
* refactor: modify data collection to python implementation
* refactor: modify data collection to python implementation
* refactor: modify data collection to python implementation
* refactor: modify data collection to python implementation
* fix: remove terrabase dependency
* feature: add the collection task executions page and the collection template page
* fix: fix the collection task creation
* fix: fix the collection task creation
2025-12-30 18:48:43 +08:00
hhhhsc701
80d4dfd285
feat: 修复清洗任务创建 ( #207 )
2025-12-30 14:41:39 +08:00
hhhhsc701
1c507ac98a
feat: 支持npu自动扩缩容 ( #197 )
...
* feat: npu动态调度
* feat: 数据集分页优化
* feat: 支持npu自动扩缩容
* feat: 支持npu自动扩缩容
* feat: 支持npu自动扩缩容
* feat: clean code
2025-12-24 18:03:30 +08:00
hefanli
215d7f0612
Fix the ratio task bug ( #194 )
...
* fix: add feign client configurations
* fix: add nacos configurations
* fix: add python to gateway
* fix: Fix the ratio task bug
2025-12-24 11:40:26 +08:00
hhhhsc701
6d61348388
feat: deer-flow通过gateway转发 ( #193 )
2025-12-23 11:35:45 +08:00