Commit Graph

5 Commits

Author SHA1 Message Date
05752678cc feat(dataset): 添加PDF提取服务中的逻辑路径构建功能
- 移除重复的csv导入语句
- 添加_build_logical_path方法用于构建文件逻辑路径
- 在_create_text_file_record方法中增加logical_path参数
- 更新记录创建调用以传递逻辑路径参数
- 验证逻辑路径不为空并抛出相应异常
- 将逻辑路径存储到数据集文件记录中
2026-02-06 18:30:44 +08:00
c6dccf5e29 fix(python): remove datetime.UTC usage for Python 3.10 compatibility
Replace datetime.datetime.now(datetime.UTC) with datetime.datetime.now()
to fix compatibility issues with Python 3.10 and earlier versions.

datetime.UTC is only available in Python 3.11+, causing 500 errors
in production environment.

Files fixed:
- app/module/dataset/service/pdf_extract.py
- app/module/generation/service/export_service.py
2026-02-06 13:34:27 +08:00
498f23a0c4 feat(data-management): 扩展文本数据集支持Excel文件类型
- 在DatasetFileApplicationService中添加XLS和XLSX文件类型到文档文本文件类型集合
- 更新DatasetTypeController中的TEXT数据集类型支持xls和xlsx扩展名
- 在pdf_extract.py中添加XLS和XLSX文件类型的常量定义和解析器配置
- 实现Excel文件转CSV的功能,支持单个工作表和多工作表的解析
- 添加对Excel文件的依赖检查和错误处理机制
- 修改目标文件路径构建逻辑以支持不同文件类型的派生扩展名
- 更新文本文件记录创建逻辑以使用派生文件类型而不是固定文本类型
2026-01-31 11:11:24 +08:00
f77fd99c31 feat(data-management): 扩展文档解析功能支持DOC和DOCX格式
- 添加对DOC和DOCX文件类型的常量定义和支持
- 将文件类型验证逻辑从仅PDF扩展为PDF/DOC/DOCX
- 集成Docx2txtLoader用于处理Word文档解析
- 更新错误消息为中文描述以提升用户体验
- 重构文件解析方法以支持多种文档格式
- 添加解析器元数据记录以追踪使用的解析工具
- 更新文件路径验证和构建逻辑以适配新的文件类型
2026-01-29 13:05:58 +08:00
5eafcf0145 refactor(request): 优化请求处理逻辑并添加PDF提取接口定义
- 简化catch语句移除不必要的异常变量
- 删除无用的FormData条件判断代码
- 将变量声明从let改为const提升代码质量
- 移除响应拦截器中的冗余参数传递
- 在数据集模式模块中添加PDF文本提取相关的请求响应模型
- 更新模块导出列表包含新的PDF提取接口类型定义
2026-01-29 11:40:30 +08:00