2025-12-18 13:50:39 +08:00
|
|
|
|
package service
|
|
|
|
|
|
|
|
|
|
|
|
import (
|
|
|
|
|
|
"context"
|
|
|
|
|
|
"errors"
|
|
|
|
|
|
"fmt"
|
2025-12-20 15:29:52 +08:00
|
|
|
|
"log"
|
2025-12-18 13:50:39 +08:00
|
|
|
|
"time"
|
|
|
|
|
|
|
2025-12-24 21:07:21 +08:00
|
|
|
|
"github.com/Wei-Shaw/sub2api/internal/pkg/pagination"
|
2025-12-18 13:50:39 +08:00
|
|
|
|
)
|
|
|
|
|
|
|
|
|
|
|
|
// AdminService interface defines admin management operations
|
|
|
|
|
|
type AdminService interface {
|
|
|
|
|
|
// User management
|
2026-01-01 18:59:38 +08:00
|
|
|
|
ListUsers(ctx context.Context, page, pageSize int, filters UserListFilters) ([]User, int64, error)
|
2025-12-26 15:40:24 +08:00
|
|
|
|
GetUser(ctx context.Context, id int64) (*User, error)
|
|
|
|
|
|
CreateUser(ctx context.Context, input *CreateUserInput) (*User, error)
|
|
|
|
|
|
UpdateUser(ctx context.Context, id int64, input *UpdateUserInput) (*User, error)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
DeleteUser(ctx context.Context, id int64) error
|
2025-12-26 15:40:24 +08:00
|
|
|
|
UpdateUserBalance(ctx context.Context, userID int64, balance float64, operation string, notes string) (*User, error)
|
运维监控系统安全加固和功能优化 (#21)
* fix(ops): 修复运维监控系统的关键安全和稳定性问题
## 修复内容
### P0 严重问题
1. **DNS Rebinding防护** (ops_alert_service.go)
- 实现IP钉住机制防止验证后的DNS rebinding攻击
- 自定义Transport.DialContext强制只允许拨号到验证过的公网IP
- 扩展IP黑名单,包括云metadata地址(169.254.169.254)
- 添加完整的单元测试覆盖
2. **OpsAlertService生命周期管理** (wire.go)
- 在ProvideOpsMetricsCollector中添加opsAlertService.Start()调用
- 确保stopCtx正确初始化,避免nil指针问题
- 实现防御式启动,保证服务启动顺序
3. **数据库查询排序** (ops_repo.go)
- 在ListRecentSystemMetrics中添加显式ORDER BY updated_at DESC, id DESC
- 在GetLatestSystemMetric中添加排序保证
- 避免数据库返回顺序不确定导致告警误判
### P1 重要问题
4. **并发安全** (ops_metrics_collector.go)
- 为lastGCPauseTotal字段添加sync.Mutex保护
- 防止数据竞争
5. **Goroutine泄漏** (ops_error_logger.go)
- 实现worker pool模式限制并发goroutine数量
- 使用256容量缓冲队列和10个固定worker
- 非阻塞投递,队列满时丢弃任务
6. **生命周期控制** (ops_alert_service.go)
- 添加Start/Stop方法实现优雅关闭
- 使用context控制goroutine生命周期
- 实现WaitGroup等待后台任务完成
7. **Webhook URL验证** (ops_alert_service.go)
- 防止SSRF攻击:验证scheme、禁止内网IP
- DNS解析验证,拒绝解析到私有IP的域名
- 添加8个单元测试覆盖各种攻击场景
8. **资源泄漏** (ops_repo.go)
- 修复多处defer rows.Close()问题
- 简化冗余的defer func()包装
9. **HTTP超时控制** (ops_alert_service.go)
- 创建带10秒超时的http.Client
- 添加buildWebhookHTTPClient辅助函数
- 防止HTTP请求无限期挂起
10. **数据库查询优化** (ops_repo.go)
- 将GetWindowStats的4次独立查询合并为1次CTE查询
- 减少网络往返和表扫描次数
- 显著提升性能
11. **重试机制** (ops_alert_service.go)
- 实现邮件发送重试:最多3次,指数退避(1s/2s/4s)
- 添加webhook备用通道
- 实现完整的错误处理和日志记录
12. **魔法数字** (ops_repo.go, ops_metrics_collector.go)
- 提取硬编码数字为有意义的常量
- 提高代码可读性和可维护性
## 测试验证
- ✅ go test ./internal/service -tags opsalert_unit 通过
- ✅ 所有webhook验证测试通过
- ✅ 重试机制测试通过
## 影响范围
- 运维监控系统安全性显著提升
- 系统稳定性和性能优化
- 无破坏性变更,向后兼容
* feat(ops): 运维监控系统V2 - 完整实现
## 核心功能
- 运维监控仪表盘V2(实时监控、历史趋势、告警管理)
- WebSocket实时QPS/TPS监控(30s心跳,自动重连)
- 系统指标采集(CPU、内存、延迟、错误率等)
- 多维度统计分析(按provider、model、user等维度)
- 告警规则管理(阈值配置、通知渠道)
- 错误日志追踪(详细错误信息、堆栈跟踪)
## 数据库Schema (Migration 025)
### 扩展现有表
- ops_system_metrics: 新增RED指标、错误分类、延迟指标、资源指标、业务指标
- ops_alert_rules: 新增JSONB字段(dimension_filters, notify_channels, notify_config)
### 新增表
- ops_dimension_stats: 多维度统计数据
- ops_data_retention_config: 数据保留策略配置
### 新增视图和函数
- ops_latest_metrics: 最新1分钟窗口指标(已修复字段名和window过滤)
- ops_active_alerts: 当前活跃告警(已修复字段名和状态值)
- calculate_health_score: 健康分数计算函数
## 一致性修复(98/100分)
### P0级别(阻塞Migration)
- ✅ 修复ops_latest_metrics视图字段名(latency_p99→p99_latency_ms, cpu_usage→cpu_usage_percent)
- ✅ 修复ops_active_alerts视图字段名(metric→metric_type, triggered_at→fired_at, trigger_value→metric_value, threshold→threshold_value)
- ✅ 统一告警历史表名(删除ops_alert_history,使用ops_alert_events)
- ✅ 统一API参数限制(ListMetricsHistory和ListErrorLogs的limit改为5000)
### P1级别(功能完整性)
- ✅ 修复ops_latest_metrics视图未过滤window_minutes(添加WHERE m.window_minutes = 1)
- ✅ 修复数据回填UPDATE逻辑(QPS计算改为request_count/(window_minutes*60.0))
- ✅ 添加ops_alert_rules JSONB字段后端支持(Go结构体+序列化)
### P2级别(优化)
- ✅ 前端WebSocket自动重连(指数退避1s→2s→4s→8s→16s,最大5次)
- ✅ 后端WebSocket心跳检测(30s ping,60s pong超时)
## 技术实现
### 后端 (Go)
- Handler层: ops_handler.go(REST API), ops_ws_handler.go(WebSocket)
- Service层: ops_service.go(核心逻辑), ops_cache.go(缓存), ops_alerts.go(告警)
- Repository层: ops_repo.go(数据访问), ops.go(模型定义)
- 路由: admin.go(新增ops相关路由)
- 依赖注入: wire_gen.go(自动生成)
### 前端 (Vue3 + TypeScript)
- 组件: OpsDashboardV2.vue(仪表盘主组件)
- API: ops.ts(REST API + WebSocket封装)
- 路由: index.ts(新增/admin/ops路由)
- 国际化: en.ts, zh.ts(中英文支持)
## 测试验证
- ✅ 所有Go测试通过
- ✅ Migration可正常执行
- ✅ WebSocket连接稳定
- ✅ 前后端数据结构对齐
* refactor: 代码清理和测试优化
## 测试文件优化
- 简化integration test fixtures和断言
- 优化test helper函数
- 统一测试数据格式
## 代码清理
- 移除未使用的代码和注释
- 简化concurrency_cache实现
- 优化middleware错误处理
## 小修复
- 修复gateway_handler和openai_gateway_handler的小问题
- 统一代码风格和格式
变更统计: 27个文件,292行新增,322行删除(净减少30行)
* fix(ops): 运维监控系统安全加固和功能优化
## 安全增强
- feat(security): WebSocket日志脱敏机制,防止token/api_key泄露
- feat(security): X-Forwarded-Host白名单验证,防止CSRF绕过
- feat(security): Origin策略配置化,支持strict/permissive模式
- feat(auth): WebSocket认证支持query参数传递token
## 配置优化
- feat(config): 支持环境变量配置代理信任和Origin策略
- OPS_WS_TRUST_PROXY
- OPS_WS_TRUSTED_PROXIES
- OPS_WS_ORIGIN_POLICY
- fix(ops): 错误日志查询限流从5000降至500,优化内存使用
## 架构改进
- refactor(ops): 告警服务解耦,独立运行评估定时器
- refactor(ops): OpsDashboard统一版本,移除V2分离
## 测试和文档
- test(ops): 添加WebSocket安全验证单元测试(8个测试用例)
- test(ops): 添加告警服务集成测试
- docs(api): 更新API文档,标注限流变更
- docs: 添加CHANGELOG记录breaking changes
## 修复文件
Backend:
- backend/internal/server/middleware/logger.go
- backend/internal/handler/admin/ops_handler.go
- backend/internal/handler/admin/ops_ws_handler.go
- backend/internal/server/middleware/admin_auth.go
- backend/internal/service/ops_alert_service.go
- backend/internal/service/ops_metrics_collector.go
- backend/internal/service/wire.go
Frontend:
- frontend/src/views/admin/ops/OpsDashboard.vue
- frontend/src/router/index.ts
- frontend/src/api/admin/ops.ts
Tests:
- backend/internal/handler/admin/ops_ws_handler_test.go (新增)
- backend/internal/service/ops_alert_service_integration_test.go (新增)
Docs:
- CHANGELOG.md (新增)
- docs/API-运维监控中心2.0.md (更新)
* fix(migrations): 修复calculate_health_score函数类型匹配问题
在ops_latest_metrics视图中添加显式类型转换,确保参数类型与函数签名匹配
* fix(lint): 修复golangci-lint检查发现的所有问题
- 将Redis依赖从service层移到repository层
- 添加错误检查(WebSocket连接和读取超时)
- 运行gofmt格式化代码
- 添加nil指针检查
- 删除未使用的alertService字段
修复问题:
- depguard: 3个(service层不应直接import redis)
- errcheck: 3个(未检查错误返回值)
- gofmt: 2个(代码格式问题)
- staticcheck: 4个(nil指针解引用)
- unused: 1个(未使用字段)
代码统计:
- 修改文件:11个
- 删除代码:490行
- 新增代码:105行
- 净减少:385行
2026-01-02 20:01:12 +08:00
|
|
|
|
GetUserAPIKeys(ctx context.Context, userID int64, page, pageSize int) ([]APIKey, int64, error)
|
2025-12-20 16:19:40 +08:00
|
|
|
|
GetUserUsageStats(ctx context.Context, userID int64, period string) (any, error)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
|
|
|
|
|
|
// Group management
|
2025-12-26 15:40:24 +08:00
|
|
|
|
ListGroups(ctx context.Context, page, pageSize int, platform, status string, isExclusive *bool) ([]Group, int64, error)
|
|
|
|
|
|
GetAllGroups(ctx context.Context) ([]Group, error)
|
|
|
|
|
|
GetAllGroupsByPlatform(ctx context.Context, platform string) ([]Group, error)
|
|
|
|
|
|
GetGroup(ctx context.Context, id int64) (*Group, error)
|
|
|
|
|
|
CreateGroup(ctx context.Context, input *CreateGroupInput) (*Group, error)
|
|
|
|
|
|
UpdateGroup(ctx context.Context, id int64, input *UpdateGroupInput) (*Group, error)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
DeleteGroup(ctx context.Context, id int64) error
|
运维监控系统安全加固和功能优化 (#21)
* fix(ops): 修复运维监控系统的关键安全和稳定性问题
## 修复内容
### P0 严重问题
1. **DNS Rebinding防护** (ops_alert_service.go)
- 实现IP钉住机制防止验证后的DNS rebinding攻击
- 自定义Transport.DialContext强制只允许拨号到验证过的公网IP
- 扩展IP黑名单,包括云metadata地址(169.254.169.254)
- 添加完整的单元测试覆盖
2. **OpsAlertService生命周期管理** (wire.go)
- 在ProvideOpsMetricsCollector中添加opsAlertService.Start()调用
- 确保stopCtx正确初始化,避免nil指针问题
- 实现防御式启动,保证服务启动顺序
3. **数据库查询排序** (ops_repo.go)
- 在ListRecentSystemMetrics中添加显式ORDER BY updated_at DESC, id DESC
- 在GetLatestSystemMetric中添加排序保证
- 避免数据库返回顺序不确定导致告警误判
### P1 重要问题
4. **并发安全** (ops_metrics_collector.go)
- 为lastGCPauseTotal字段添加sync.Mutex保护
- 防止数据竞争
5. **Goroutine泄漏** (ops_error_logger.go)
- 实现worker pool模式限制并发goroutine数量
- 使用256容量缓冲队列和10个固定worker
- 非阻塞投递,队列满时丢弃任务
6. **生命周期控制** (ops_alert_service.go)
- 添加Start/Stop方法实现优雅关闭
- 使用context控制goroutine生命周期
- 实现WaitGroup等待后台任务完成
7. **Webhook URL验证** (ops_alert_service.go)
- 防止SSRF攻击:验证scheme、禁止内网IP
- DNS解析验证,拒绝解析到私有IP的域名
- 添加8个单元测试覆盖各种攻击场景
8. **资源泄漏** (ops_repo.go)
- 修复多处defer rows.Close()问题
- 简化冗余的defer func()包装
9. **HTTP超时控制** (ops_alert_service.go)
- 创建带10秒超时的http.Client
- 添加buildWebhookHTTPClient辅助函数
- 防止HTTP请求无限期挂起
10. **数据库查询优化** (ops_repo.go)
- 将GetWindowStats的4次独立查询合并为1次CTE查询
- 减少网络往返和表扫描次数
- 显著提升性能
11. **重试机制** (ops_alert_service.go)
- 实现邮件发送重试:最多3次,指数退避(1s/2s/4s)
- 添加webhook备用通道
- 实现完整的错误处理和日志记录
12. **魔法数字** (ops_repo.go, ops_metrics_collector.go)
- 提取硬编码数字为有意义的常量
- 提高代码可读性和可维护性
## 测试验证
- ✅ go test ./internal/service -tags opsalert_unit 通过
- ✅ 所有webhook验证测试通过
- ✅ 重试机制测试通过
## 影响范围
- 运维监控系统安全性显著提升
- 系统稳定性和性能优化
- 无破坏性变更,向后兼容
* feat(ops): 运维监控系统V2 - 完整实现
## 核心功能
- 运维监控仪表盘V2(实时监控、历史趋势、告警管理)
- WebSocket实时QPS/TPS监控(30s心跳,自动重连)
- 系统指标采集(CPU、内存、延迟、错误率等)
- 多维度统计分析(按provider、model、user等维度)
- 告警规则管理(阈值配置、通知渠道)
- 错误日志追踪(详细错误信息、堆栈跟踪)
## 数据库Schema (Migration 025)
### 扩展现有表
- ops_system_metrics: 新增RED指标、错误分类、延迟指标、资源指标、业务指标
- ops_alert_rules: 新增JSONB字段(dimension_filters, notify_channels, notify_config)
### 新增表
- ops_dimension_stats: 多维度统计数据
- ops_data_retention_config: 数据保留策略配置
### 新增视图和函数
- ops_latest_metrics: 最新1分钟窗口指标(已修复字段名和window过滤)
- ops_active_alerts: 当前活跃告警(已修复字段名和状态值)
- calculate_health_score: 健康分数计算函数
## 一致性修复(98/100分)
### P0级别(阻塞Migration)
- ✅ 修复ops_latest_metrics视图字段名(latency_p99→p99_latency_ms, cpu_usage→cpu_usage_percent)
- ✅ 修复ops_active_alerts视图字段名(metric→metric_type, triggered_at→fired_at, trigger_value→metric_value, threshold→threshold_value)
- ✅ 统一告警历史表名(删除ops_alert_history,使用ops_alert_events)
- ✅ 统一API参数限制(ListMetricsHistory和ListErrorLogs的limit改为5000)
### P1级别(功能完整性)
- ✅ 修复ops_latest_metrics视图未过滤window_minutes(添加WHERE m.window_minutes = 1)
- ✅ 修复数据回填UPDATE逻辑(QPS计算改为request_count/(window_minutes*60.0))
- ✅ 添加ops_alert_rules JSONB字段后端支持(Go结构体+序列化)
### P2级别(优化)
- ✅ 前端WebSocket自动重连(指数退避1s→2s→4s→8s→16s,最大5次)
- ✅ 后端WebSocket心跳检测(30s ping,60s pong超时)
## 技术实现
### 后端 (Go)
- Handler层: ops_handler.go(REST API), ops_ws_handler.go(WebSocket)
- Service层: ops_service.go(核心逻辑), ops_cache.go(缓存), ops_alerts.go(告警)
- Repository层: ops_repo.go(数据访问), ops.go(模型定义)
- 路由: admin.go(新增ops相关路由)
- 依赖注入: wire_gen.go(自动生成)
### 前端 (Vue3 + TypeScript)
- 组件: OpsDashboardV2.vue(仪表盘主组件)
- API: ops.ts(REST API + WebSocket封装)
- 路由: index.ts(新增/admin/ops路由)
- 国际化: en.ts, zh.ts(中英文支持)
## 测试验证
- ✅ 所有Go测试通过
- ✅ Migration可正常执行
- ✅ WebSocket连接稳定
- ✅ 前后端数据结构对齐
* refactor: 代码清理和测试优化
## 测试文件优化
- 简化integration test fixtures和断言
- 优化test helper函数
- 统一测试数据格式
## 代码清理
- 移除未使用的代码和注释
- 简化concurrency_cache实现
- 优化middleware错误处理
## 小修复
- 修复gateway_handler和openai_gateway_handler的小问题
- 统一代码风格和格式
变更统计: 27个文件,292行新增,322行删除(净减少30行)
* fix(ops): 运维监控系统安全加固和功能优化
## 安全增强
- feat(security): WebSocket日志脱敏机制,防止token/api_key泄露
- feat(security): X-Forwarded-Host白名单验证,防止CSRF绕过
- feat(security): Origin策略配置化,支持strict/permissive模式
- feat(auth): WebSocket认证支持query参数传递token
## 配置优化
- feat(config): 支持环境变量配置代理信任和Origin策略
- OPS_WS_TRUST_PROXY
- OPS_WS_TRUSTED_PROXIES
- OPS_WS_ORIGIN_POLICY
- fix(ops): 错误日志查询限流从5000降至500,优化内存使用
## 架构改进
- refactor(ops): 告警服务解耦,独立运行评估定时器
- refactor(ops): OpsDashboard统一版本,移除V2分离
## 测试和文档
- test(ops): 添加WebSocket安全验证单元测试(8个测试用例)
- test(ops): 添加告警服务集成测试
- docs(api): 更新API文档,标注限流变更
- docs: 添加CHANGELOG记录breaking changes
## 修复文件
Backend:
- backend/internal/server/middleware/logger.go
- backend/internal/handler/admin/ops_handler.go
- backend/internal/handler/admin/ops_ws_handler.go
- backend/internal/server/middleware/admin_auth.go
- backend/internal/service/ops_alert_service.go
- backend/internal/service/ops_metrics_collector.go
- backend/internal/service/wire.go
Frontend:
- frontend/src/views/admin/ops/OpsDashboard.vue
- frontend/src/router/index.ts
- frontend/src/api/admin/ops.ts
Tests:
- backend/internal/handler/admin/ops_ws_handler_test.go (新增)
- backend/internal/service/ops_alert_service_integration_test.go (新增)
Docs:
- CHANGELOG.md (新增)
- docs/API-运维监控中心2.0.md (更新)
* fix(migrations): 修复calculate_health_score函数类型匹配问题
在ops_latest_metrics视图中添加显式类型转换,确保参数类型与函数签名匹配
* fix(lint): 修复golangci-lint检查发现的所有问题
- 将Redis依赖从service层移到repository层
- 添加错误检查(WebSocket连接和读取超时)
- 运行gofmt格式化代码
- 添加nil指针检查
- 删除未使用的alertService字段
修复问题:
- depguard: 3个(service层不应直接import redis)
- errcheck: 3个(未检查错误返回值)
- gofmt: 2个(代码格式问题)
- staticcheck: 4个(nil指针解引用)
- unused: 1个(未使用字段)
代码统计:
- 修改文件:11个
- 删除代码:490行
- 新增代码:105行
- 净减少:385行
2026-01-02 20:01:12 +08:00
|
|
|
|
GetGroupAPIKeys(ctx context.Context, groupID int64, page, pageSize int) ([]APIKey, int64, error)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
|
|
|
|
|
|
// Account management
|
2025-12-26 15:40:24 +08:00
|
|
|
|
ListAccounts(ctx context.Context, page, pageSize int, platform, accountType, status, search string) ([]Account, int64, error)
|
|
|
|
|
|
GetAccount(ctx context.Context, id int64) (*Account, error)
|
2026-01-01 15:07:16 +08:00
|
|
|
|
GetAccountsByIDs(ctx context.Context, ids []int64) ([]*Account, error)
|
2025-12-26 15:40:24 +08:00
|
|
|
|
CreateAccount(ctx context.Context, input *CreateAccountInput) (*Account, error)
|
|
|
|
|
|
UpdateAccount(ctx context.Context, id int64, input *UpdateAccountInput) (*Account, error)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
DeleteAccount(ctx context.Context, id int64) error
|
2025-12-26 15:40:24 +08:00
|
|
|
|
RefreshAccountCredentials(ctx context.Context, id int64) (*Account, error)
|
|
|
|
|
|
ClearAccountError(ctx context.Context, id int64) (*Account, error)
|
|
|
|
|
|
SetAccountSchedulable(ctx context.Context, id int64, schedulable bool) (*Account, error)
|
2025-12-24 17:16:19 -08:00
|
|
|
|
BulkUpdateAccounts(ctx context.Context, input *BulkUpdateAccountsInput) (*BulkUpdateAccountsResult, error)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
|
|
|
|
|
|
// Proxy management
|
2025-12-26 15:40:24 +08:00
|
|
|
|
ListProxies(ctx context.Context, page, pageSize int, protocol, status, search string) ([]Proxy, int64, error)
|
|
|
|
|
|
GetAllProxies(ctx context.Context) ([]Proxy, error)
|
|
|
|
|
|
GetAllProxiesWithAccountCount(ctx context.Context) ([]ProxyWithAccountCount, error)
|
|
|
|
|
|
GetProxy(ctx context.Context, id int64) (*Proxy, error)
|
|
|
|
|
|
CreateProxy(ctx context.Context, input *CreateProxyInput) (*Proxy, error)
|
|
|
|
|
|
UpdateProxy(ctx context.Context, id int64, input *UpdateProxyInput) (*Proxy, error)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
DeleteProxy(ctx context.Context, id int64) error
|
2025-12-26 15:40:24 +08:00
|
|
|
|
GetProxyAccounts(ctx context.Context, proxyID int64, page, pageSize int) ([]Account, int64, error)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
CheckProxyExists(ctx context.Context, host string, port int, username, password string) (bool, error)
|
|
|
|
|
|
TestProxy(ctx context.Context, id int64) (*ProxyTestResult, error)
|
|
|
|
|
|
|
|
|
|
|
|
// Redeem code management
|
2025-12-26 15:40:24 +08:00
|
|
|
|
ListRedeemCodes(ctx context.Context, page, pageSize int, codeType, status, search string) ([]RedeemCode, int64, error)
|
|
|
|
|
|
GetRedeemCode(ctx context.Context, id int64) (*RedeemCode, error)
|
|
|
|
|
|
GenerateRedeemCodes(ctx context.Context, input *GenerateRedeemCodesInput) ([]RedeemCode, error)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
DeleteRedeemCode(ctx context.Context, id int64) error
|
|
|
|
|
|
BatchDeleteRedeemCodes(ctx context.Context, ids []int64) (int64, error)
|
2025-12-26 15:40:24 +08:00
|
|
|
|
ExpireRedeemCode(ctx context.Context, id int64) (*RedeemCode, error)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
|
运维监控系统安全加固和功能优化 (#21)
* fix(ops): 修复运维监控系统的关键安全和稳定性问题
## 修复内容
### P0 严重问题
1. **DNS Rebinding防护** (ops_alert_service.go)
- 实现IP钉住机制防止验证后的DNS rebinding攻击
- 自定义Transport.DialContext强制只允许拨号到验证过的公网IP
- 扩展IP黑名单,包括云metadata地址(169.254.169.254)
- 添加完整的单元测试覆盖
2. **OpsAlertService生命周期管理** (wire.go)
- 在ProvideOpsMetricsCollector中添加opsAlertService.Start()调用
- 确保stopCtx正确初始化,避免nil指针问题
- 实现防御式启动,保证服务启动顺序
3. **数据库查询排序** (ops_repo.go)
- 在ListRecentSystemMetrics中添加显式ORDER BY updated_at DESC, id DESC
- 在GetLatestSystemMetric中添加排序保证
- 避免数据库返回顺序不确定导致告警误判
### P1 重要问题
4. **并发安全** (ops_metrics_collector.go)
- 为lastGCPauseTotal字段添加sync.Mutex保护
- 防止数据竞争
5. **Goroutine泄漏** (ops_error_logger.go)
- 实现worker pool模式限制并发goroutine数量
- 使用256容量缓冲队列和10个固定worker
- 非阻塞投递,队列满时丢弃任务
6. **生命周期控制** (ops_alert_service.go)
- 添加Start/Stop方法实现优雅关闭
- 使用context控制goroutine生命周期
- 实现WaitGroup等待后台任务完成
7. **Webhook URL验证** (ops_alert_service.go)
- 防止SSRF攻击:验证scheme、禁止内网IP
- DNS解析验证,拒绝解析到私有IP的域名
- 添加8个单元测试覆盖各种攻击场景
8. **资源泄漏** (ops_repo.go)
- 修复多处defer rows.Close()问题
- 简化冗余的defer func()包装
9. **HTTP超时控制** (ops_alert_service.go)
- 创建带10秒超时的http.Client
- 添加buildWebhookHTTPClient辅助函数
- 防止HTTP请求无限期挂起
10. **数据库查询优化** (ops_repo.go)
- 将GetWindowStats的4次独立查询合并为1次CTE查询
- 减少网络往返和表扫描次数
- 显著提升性能
11. **重试机制** (ops_alert_service.go)
- 实现邮件发送重试:最多3次,指数退避(1s/2s/4s)
- 添加webhook备用通道
- 实现完整的错误处理和日志记录
12. **魔法数字** (ops_repo.go, ops_metrics_collector.go)
- 提取硬编码数字为有意义的常量
- 提高代码可读性和可维护性
## 测试验证
- ✅ go test ./internal/service -tags opsalert_unit 通过
- ✅ 所有webhook验证测试通过
- ✅ 重试机制测试通过
## 影响范围
- 运维监控系统安全性显著提升
- 系统稳定性和性能优化
- 无破坏性变更,向后兼容
* feat(ops): 运维监控系统V2 - 完整实现
## 核心功能
- 运维监控仪表盘V2(实时监控、历史趋势、告警管理)
- WebSocket实时QPS/TPS监控(30s心跳,自动重连)
- 系统指标采集(CPU、内存、延迟、错误率等)
- 多维度统计分析(按provider、model、user等维度)
- 告警规则管理(阈值配置、通知渠道)
- 错误日志追踪(详细错误信息、堆栈跟踪)
## 数据库Schema (Migration 025)
### 扩展现有表
- ops_system_metrics: 新增RED指标、错误分类、延迟指标、资源指标、业务指标
- ops_alert_rules: 新增JSONB字段(dimension_filters, notify_channels, notify_config)
### 新增表
- ops_dimension_stats: 多维度统计数据
- ops_data_retention_config: 数据保留策略配置
### 新增视图和函数
- ops_latest_metrics: 最新1分钟窗口指标(已修复字段名和window过滤)
- ops_active_alerts: 当前活跃告警(已修复字段名和状态值)
- calculate_health_score: 健康分数计算函数
## 一致性修复(98/100分)
### P0级别(阻塞Migration)
- ✅ 修复ops_latest_metrics视图字段名(latency_p99→p99_latency_ms, cpu_usage→cpu_usage_percent)
- ✅ 修复ops_active_alerts视图字段名(metric→metric_type, triggered_at→fired_at, trigger_value→metric_value, threshold→threshold_value)
- ✅ 统一告警历史表名(删除ops_alert_history,使用ops_alert_events)
- ✅ 统一API参数限制(ListMetricsHistory和ListErrorLogs的limit改为5000)
### P1级别(功能完整性)
- ✅ 修复ops_latest_metrics视图未过滤window_minutes(添加WHERE m.window_minutes = 1)
- ✅ 修复数据回填UPDATE逻辑(QPS计算改为request_count/(window_minutes*60.0))
- ✅ 添加ops_alert_rules JSONB字段后端支持(Go结构体+序列化)
### P2级别(优化)
- ✅ 前端WebSocket自动重连(指数退避1s→2s→4s→8s→16s,最大5次)
- ✅ 后端WebSocket心跳检测(30s ping,60s pong超时)
## 技术实现
### 后端 (Go)
- Handler层: ops_handler.go(REST API), ops_ws_handler.go(WebSocket)
- Service层: ops_service.go(核心逻辑), ops_cache.go(缓存), ops_alerts.go(告警)
- Repository层: ops_repo.go(数据访问), ops.go(模型定义)
- 路由: admin.go(新增ops相关路由)
- 依赖注入: wire_gen.go(自动生成)
### 前端 (Vue3 + TypeScript)
- 组件: OpsDashboardV2.vue(仪表盘主组件)
- API: ops.ts(REST API + WebSocket封装)
- 路由: index.ts(新增/admin/ops路由)
- 国际化: en.ts, zh.ts(中英文支持)
## 测试验证
- ✅ 所有Go测试通过
- ✅ Migration可正常执行
- ✅ WebSocket连接稳定
- ✅ 前后端数据结构对齐
* refactor: 代码清理和测试优化
## 测试文件优化
- 简化integration test fixtures和断言
- 优化test helper函数
- 统一测试数据格式
## 代码清理
- 移除未使用的代码和注释
- 简化concurrency_cache实现
- 优化middleware错误处理
## 小修复
- 修复gateway_handler和openai_gateway_handler的小问题
- 统一代码风格和格式
变更统计: 27个文件,292行新增,322行删除(净减少30行)
* fix(ops): 运维监控系统安全加固和功能优化
## 安全增强
- feat(security): WebSocket日志脱敏机制,防止token/api_key泄露
- feat(security): X-Forwarded-Host白名单验证,防止CSRF绕过
- feat(security): Origin策略配置化,支持strict/permissive模式
- feat(auth): WebSocket认证支持query参数传递token
## 配置优化
- feat(config): 支持环境变量配置代理信任和Origin策略
- OPS_WS_TRUST_PROXY
- OPS_WS_TRUSTED_PROXIES
- OPS_WS_ORIGIN_POLICY
- fix(ops): 错误日志查询限流从5000降至500,优化内存使用
## 架构改进
- refactor(ops): 告警服务解耦,独立运行评估定时器
- refactor(ops): OpsDashboard统一版本,移除V2分离
## 测试和文档
- test(ops): 添加WebSocket安全验证单元测试(8个测试用例)
- test(ops): 添加告警服务集成测试
- docs(api): 更新API文档,标注限流变更
- docs: 添加CHANGELOG记录breaking changes
## 修复文件
Backend:
- backend/internal/server/middleware/logger.go
- backend/internal/handler/admin/ops_handler.go
- backend/internal/handler/admin/ops_ws_handler.go
- backend/internal/server/middleware/admin_auth.go
- backend/internal/service/ops_alert_service.go
- backend/internal/service/ops_metrics_collector.go
- backend/internal/service/wire.go
Frontend:
- frontend/src/views/admin/ops/OpsDashboard.vue
- frontend/src/router/index.ts
- frontend/src/api/admin/ops.ts
Tests:
- backend/internal/handler/admin/ops_ws_handler_test.go (新增)
- backend/internal/service/ops_alert_service_integration_test.go (新增)
Docs:
- CHANGELOG.md (新增)
- docs/API-运维监控中心2.0.md (更新)
* fix(migrations): 修复calculate_health_score函数类型匹配问题
在ops_latest_metrics视图中添加显式类型转换,确保参数类型与函数签名匹配
* fix(lint): 修复golangci-lint检查发现的所有问题
- 将Redis依赖从service层移到repository层
- 添加错误检查(WebSocket连接和读取超时)
- 运行gofmt格式化代码
- 添加nil指针检查
- 删除未使用的alertService字段
修复问题:
- depguard: 3个(service层不应直接import redis)
- errcheck: 3个(未检查错误返回值)
- gofmt: 2个(代码格式问题)
- staticcheck: 4个(nil指针解引用)
- unused: 1个(未使用字段)
代码统计:
- 修改文件:11个
- 删除代码:490行
- 新增代码:105行
- 净减少:385行
2026-01-02 20:01:12 +08:00
|
|
|
|
// CreateUserInput represents the input for creating a new user
|
2025-12-18 13:50:39 +08:00
|
|
|
|
type CreateUserInput struct {
|
|
|
|
|
|
Email string
|
|
|
|
|
|
Password string
|
2025-12-23 11:26:22 +08:00
|
|
|
|
Username string
|
|
|
|
|
|
Notes string
|
2025-12-18 13:50:39 +08:00
|
|
|
|
Balance float64
|
|
|
|
|
|
Concurrency int
|
|
|
|
|
|
AllowedGroups []int64
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
type UpdateUserInput struct {
|
|
|
|
|
|
Email string
|
|
|
|
|
|
Password string
|
2025-12-23 11:26:22 +08:00
|
|
|
|
Username *string
|
|
|
|
|
|
Notes *string
|
2025-12-18 13:50:39 +08:00
|
|
|
|
Balance *float64 // 使用指针区分"未提供"和"设置为0"
|
|
|
|
|
|
Concurrency *int // 使用指针区分"未提供"和"设置为0"
|
|
|
|
|
|
Status string
|
|
|
|
|
|
AllowedGroups *[]int64 // 使用指针区分"未提供"和"设置为空数组"
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
type CreateGroupInput struct {
|
|
|
|
|
|
Name string
|
|
|
|
|
|
Description string
|
|
|
|
|
|
Platform string
|
|
|
|
|
|
RateMultiplier float64
|
|
|
|
|
|
IsExclusive bool
|
|
|
|
|
|
SubscriptionType string // standard/subscription
|
|
|
|
|
|
DailyLimitUSD *float64 // 日限额 (USD)
|
|
|
|
|
|
WeeklyLimitUSD *float64 // 周限额 (USD)
|
|
|
|
|
|
MonthlyLimitUSD *float64 // 月限额 (USD)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
type UpdateGroupInput struct {
|
|
|
|
|
|
Name string
|
|
|
|
|
|
Description string
|
|
|
|
|
|
Platform string
|
|
|
|
|
|
RateMultiplier *float64 // 使用指针以支持设置为0
|
|
|
|
|
|
IsExclusive *bool
|
|
|
|
|
|
Status string
|
|
|
|
|
|
SubscriptionType string // standard/subscription
|
|
|
|
|
|
DailyLimitUSD *float64 // 日限额 (USD)
|
|
|
|
|
|
WeeklyLimitUSD *float64 // 周限额 (USD)
|
|
|
|
|
|
MonthlyLimitUSD *float64 // 月限额 (USD)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
type CreateAccountInput struct {
|
|
|
|
|
|
Name string
|
|
|
|
|
|
Platform string
|
|
|
|
|
|
Type string
|
2025-12-20 16:19:40 +08:00
|
|
|
|
Credentials map[string]any
|
|
|
|
|
|
Extra map[string]any
|
2025-12-18 13:50:39 +08:00
|
|
|
|
ProxyID *int64
|
|
|
|
|
|
Concurrency int
|
|
|
|
|
|
Priority int
|
|
|
|
|
|
GroupIDs []int64
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
type UpdateAccountInput struct {
|
|
|
|
|
|
Name string
|
|
|
|
|
|
Type string // Account type: oauth, setup-token, apikey
|
2025-12-20 16:19:40 +08:00
|
|
|
|
Credentials map[string]any
|
|
|
|
|
|
Extra map[string]any
|
2025-12-18 13:50:39 +08:00
|
|
|
|
ProxyID *int64
|
|
|
|
|
|
Concurrency *int // 使用指针区分"未提供"和"设置为0"
|
|
|
|
|
|
Priority *int // 使用指针区分"未提供"和"设置为0"
|
|
|
|
|
|
Status string
|
|
|
|
|
|
GroupIDs *[]int64
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-24 17:16:19 -08:00
|
|
|
|
// BulkUpdateAccountsInput describes the payload for bulk updating accounts.
|
|
|
|
|
|
type BulkUpdateAccountsInput struct {
|
|
|
|
|
|
AccountIDs []int64
|
|
|
|
|
|
Name string
|
|
|
|
|
|
ProxyID *int64
|
|
|
|
|
|
Concurrency *int
|
|
|
|
|
|
Priority *int
|
|
|
|
|
|
Status string
|
|
|
|
|
|
GroupIDs *[]int64
|
|
|
|
|
|
Credentials map[string]any
|
|
|
|
|
|
Extra map[string]any
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// BulkUpdateAccountResult captures the result for a single account update.
|
|
|
|
|
|
type BulkUpdateAccountResult struct {
|
|
|
|
|
|
AccountID int64 `json:"account_id"`
|
|
|
|
|
|
Success bool `json:"success"`
|
|
|
|
|
|
Error string `json:"error,omitempty"`
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// BulkUpdateAccountsResult is the aggregated response for bulk updates.
|
|
|
|
|
|
type BulkUpdateAccountsResult struct {
|
|
|
|
|
|
Success int `json:"success"`
|
|
|
|
|
|
Failed int `json:"failed"`
|
|
|
|
|
|
Results []BulkUpdateAccountResult `json:"results"`
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-18 13:50:39 +08:00
|
|
|
|
type CreateProxyInput struct {
|
|
|
|
|
|
Name string
|
|
|
|
|
|
Protocol string
|
|
|
|
|
|
Host string
|
|
|
|
|
|
Port int
|
|
|
|
|
|
Username string
|
|
|
|
|
|
Password string
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
type UpdateProxyInput struct {
|
|
|
|
|
|
Name string
|
|
|
|
|
|
Protocol string
|
|
|
|
|
|
Host string
|
|
|
|
|
|
Port int
|
|
|
|
|
|
Username string
|
|
|
|
|
|
Password string
|
|
|
|
|
|
Status string
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
type GenerateRedeemCodesInput struct {
|
|
|
|
|
|
Count int
|
|
|
|
|
|
Type string
|
|
|
|
|
|
Value float64
|
|
|
|
|
|
GroupID *int64 // 订阅类型专用:关联的分组ID
|
|
|
|
|
|
ValidityDays int // 订阅类型专用:有效天数
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// ProxyTestResult represents the result of testing a proxy
|
|
|
|
|
|
type ProxyTestResult struct {
|
|
|
|
|
|
Success bool `json:"success"`
|
|
|
|
|
|
Message string `json:"message"`
|
|
|
|
|
|
LatencyMs int64 `json:"latency_ms,omitempty"`
|
|
|
|
|
|
IPAddress string `json:"ip_address,omitempty"`
|
|
|
|
|
|
City string `json:"city,omitempty"`
|
|
|
|
|
|
Region string `json:"region,omitempty"`
|
|
|
|
|
|
Country string `json:"country,omitempty"`
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-20 11:56:11 +08:00
|
|
|
|
// ProxyExitInfo represents proxy exit information from ipinfo.io
|
|
|
|
|
|
type ProxyExitInfo struct {
|
|
|
|
|
|
IP string
|
|
|
|
|
|
City string
|
|
|
|
|
|
Region string
|
|
|
|
|
|
Country string
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// ProxyExitInfoProber tests proxy connectivity and retrieves exit information
|
|
|
|
|
|
type ProxyExitInfoProber interface {
|
|
|
|
|
|
ProbeProxy(ctx context.Context, proxyURL string) (*ProxyExitInfo, int64, error)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-18 13:50:39 +08:00
|
|
|
|
// adminServiceImpl implements AdminService
|
|
|
|
|
|
type adminServiceImpl struct {
|
2025-12-25 17:15:01 +08:00
|
|
|
|
userRepo UserRepository
|
|
|
|
|
|
groupRepo GroupRepository
|
|
|
|
|
|
accountRepo AccountRepository
|
|
|
|
|
|
proxyRepo ProxyRepository
|
运维监控系统安全加固和功能优化 (#21)
* fix(ops): 修复运维监控系统的关键安全和稳定性问题
## 修复内容
### P0 严重问题
1. **DNS Rebinding防护** (ops_alert_service.go)
- 实现IP钉住机制防止验证后的DNS rebinding攻击
- 自定义Transport.DialContext强制只允许拨号到验证过的公网IP
- 扩展IP黑名单,包括云metadata地址(169.254.169.254)
- 添加完整的单元测试覆盖
2. **OpsAlertService生命周期管理** (wire.go)
- 在ProvideOpsMetricsCollector中添加opsAlertService.Start()调用
- 确保stopCtx正确初始化,避免nil指针问题
- 实现防御式启动,保证服务启动顺序
3. **数据库查询排序** (ops_repo.go)
- 在ListRecentSystemMetrics中添加显式ORDER BY updated_at DESC, id DESC
- 在GetLatestSystemMetric中添加排序保证
- 避免数据库返回顺序不确定导致告警误判
### P1 重要问题
4. **并发安全** (ops_metrics_collector.go)
- 为lastGCPauseTotal字段添加sync.Mutex保护
- 防止数据竞争
5. **Goroutine泄漏** (ops_error_logger.go)
- 实现worker pool模式限制并发goroutine数量
- 使用256容量缓冲队列和10个固定worker
- 非阻塞投递,队列满时丢弃任务
6. **生命周期控制** (ops_alert_service.go)
- 添加Start/Stop方法实现优雅关闭
- 使用context控制goroutine生命周期
- 实现WaitGroup等待后台任务完成
7. **Webhook URL验证** (ops_alert_service.go)
- 防止SSRF攻击:验证scheme、禁止内网IP
- DNS解析验证,拒绝解析到私有IP的域名
- 添加8个单元测试覆盖各种攻击场景
8. **资源泄漏** (ops_repo.go)
- 修复多处defer rows.Close()问题
- 简化冗余的defer func()包装
9. **HTTP超时控制** (ops_alert_service.go)
- 创建带10秒超时的http.Client
- 添加buildWebhookHTTPClient辅助函数
- 防止HTTP请求无限期挂起
10. **数据库查询优化** (ops_repo.go)
- 将GetWindowStats的4次独立查询合并为1次CTE查询
- 减少网络往返和表扫描次数
- 显著提升性能
11. **重试机制** (ops_alert_service.go)
- 实现邮件发送重试:最多3次,指数退避(1s/2s/4s)
- 添加webhook备用通道
- 实现完整的错误处理和日志记录
12. **魔法数字** (ops_repo.go, ops_metrics_collector.go)
- 提取硬编码数字为有意义的常量
- 提高代码可读性和可维护性
## 测试验证
- ✅ go test ./internal/service -tags opsalert_unit 通过
- ✅ 所有webhook验证测试通过
- ✅ 重试机制测试通过
## 影响范围
- 运维监控系统安全性显著提升
- 系统稳定性和性能优化
- 无破坏性变更,向后兼容
* feat(ops): 运维监控系统V2 - 完整实现
## 核心功能
- 运维监控仪表盘V2(实时监控、历史趋势、告警管理)
- WebSocket实时QPS/TPS监控(30s心跳,自动重连)
- 系统指标采集(CPU、内存、延迟、错误率等)
- 多维度统计分析(按provider、model、user等维度)
- 告警规则管理(阈值配置、通知渠道)
- 错误日志追踪(详细错误信息、堆栈跟踪)
## 数据库Schema (Migration 025)
### 扩展现有表
- ops_system_metrics: 新增RED指标、错误分类、延迟指标、资源指标、业务指标
- ops_alert_rules: 新增JSONB字段(dimension_filters, notify_channels, notify_config)
### 新增表
- ops_dimension_stats: 多维度统计数据
- ops_data_retention_config: 数据保留策略配置
### 新增视图和函数
- ops_latest_metrics: 最新1分钟窗口指标(已修复字段名和window过滤)
- ops_active_alerts: 当前活跃告警(已修复字段名和状态值)
- calculate_health_score: 健康分数计算函数
## 一致性修复(98/100分)
### P0级别(阻塞Migration)
- ✅ 修复ops_latest_metrics视图字段名(latency_p99→p99_latency_ms, cpu_usage→cpu_usage_percent)
- ✅ 修复ops_active_alerts视图字段名(metric→metric_type, triggered_at→fired_at, trigger_value→metric_value, threshold→threshold_value)
- ✅ 统一告警历史表名(删除ops_alert_history,使用ops_alert_events)
- ✅ 统一API参数限制(ListMetricsHistory和ListErrorLogs的limit改为5000)
### P1级别(功能完整性)
- ✅ 修复ops_latest_metrics视图未过滤window_minutes(添加WHERE m.window_minutes = 1)
- ✅ 修复数据回填UPDATE逻辑(QPS计算改为request_count/(window_minutes*60.0))
- ✅ 添加ops_alert_rules JSONB字段后端支持(Go结构体+序列化)
### P2级别(优化)
- ✅ 前端WebSocket自动重连(指数退避1s→2s→4s→8s→16s,最大5次)
- ✅ 后端WebSocket心跳检测(30s ping,60s pong超时)
## 技术实现
### 后端 (Go)
- Handler层: ops_handler.go(REST API), ops_ws_handler.go(WebSocket)
- Service层: ops_service.go(核心逻辑), ops_cache.go(缓存), ops_alerts.go(告警)
- Repository层: ops_repo.go(数据访问), ops.go(模型定义)
- 路由: admin.go(新增ops相关路由)
- 依赖注入: wire_gen.go(自动生成)
### 前端 (Vue3 + TypeScript)
- 组件: OpsDashboardV2.vue(仪表盘主组件)
- API: ops.ts(REST API + WebSocket封装)
- 路由: index.ts(新增/admin/ops路由)
- 国际化: en.ts, zh.ts(中英文支持)
## 测试验证
- ✅ 所有Go测试通过
- ✅ Migration可正常执行
- ✅ WebSocket连接稳定
- ✅ 前后端数据结构对齐
* refactor: 代码清理和测试优化
## 测试文件优化
- 简化integration test fixtures和断言
- 优化test helper函数
- 统一测试数据格式
## 代码清理
- 移除未使用的代码和注释
- 简化concurrency_cache实现
- 优化middleware错误处理
## 小修复
- 修复gateway_handler和openai_gateway_handler的小问题
- 统一代码风格和格式
变更统计: 27个文件,292行新增,322行删除(净减少30行)
* fix(ops): 运维监控系统安全加固和功能优化
## 安全增强
- feat(security): WebSocket日志脱敏机制,防止token/api_key泄露
- feat(security): X-Forwarded-Host白名单验证,防止CSRF绕过
- feat(security): Origin策略配置化,支持strict/permissive模式
- feat(auth): WebSocket认证支持query参数传递token
## 配置优化
- feat(config): 支持环境变量配置代理信任和Origin策略
- OPS_WS_TRUST_PROXY
- OPS_WS_TRUSTED_PROXIES
- OPS_WS_ORIGIN_POLICY
- fix(ops): 错误日志查询限流从5000降至500,优化内存使用
## 架构改进
- refactor(ops): 告警服务解耦,独立运行评估定时器
- refactor(ops): OpsDashboard统一版本,移除V2分离
## 测试和文档
- test(ops): 添加WebSocket安全验证单元测试(8个测试用例)
- test(ops): 添加告警服务集成测试
- docs(api): 更新API文档,标注限流变更
- docs: 添加CHANGELOG记录breaking changes
## 修复文件
Backend:
- backend/internal/server/middleware/logger.go
- backend/internal/handler/admin/ops_handler.go
- backend/internal/handler/admin/ops_ws_handler.go
- backend/internal/server/middleware/admin_auth.go
- backend/internal/service/ops_alert_service.go
- backend/internal/service/ops_metrics_collector.go
- backend/internal/service/wire.go
Frontend:
- frontend/src/views/admin/ops/OpsDashboard.vue
- frontend/src/router/index.ts
- frontend/src/api/admin/ops.ts
Tests:
- backend/internal/handler/admin/ops_ws_handler_test.go (新增)
- backend/internal/service/ops_alert_service_integration_test.go (新增)
Docs:
- CHANGELOG.md (新增)
- docs/API-运维监控中心2.0.md (更新)
* fix(migrations): 修复calculate_health_score函数类型匹配问题
在ops_latest_metrics视图中添加显式类型转换,确保参数类型与函数签名匹配
* fix(lint): 修复golangci-lint检查发现的所有问题
- 将Redis依赖从service层移到repository层
- 添加错误检查(WebSocket连接和读取超时)
- 运行gofmt格式化代码
- 添加nil指针检查
- 删除未使用的alertService字段
修复问题:
- depguard: 3个(service层不应直接import redis)
- errcheck: 3个(未检查错误返回值)
- gofmt: 2个(代码格式问题)
- staticcheck: 4个(nil指针解引用)
- unused: 1个(未使用字段)
代码统计:
- 修改文件:11个
- 删除代码:490行
- 新增代码:105行
- 净减少:385行
2026-01-02 20:01:12 +08:00
|
|
|
|
apiKeyRepo APIKeyRepository
|
2025-12-25 17:15:01 +08:00
|
|
|
|
redeemCodeRepo RedeemCodeRepository
|
2025-12-18 13:50:39 +08:00
|
|
|
|
billingCacheService *BillingCacheService
|
2025-12-20 11:56:11 +08:00
|
|
|
|
proxyProber ProxyExitInfoProber
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// NewAdminService creates a new AdminService
|
2025-12-19 21:26:19 +08:00
|
|
|
|
func NewAdminService(
|
2025-12-25 17:15:01 +08:00
|
|
|
|
userRepo UserRepository,
|
|
|
|
|
|
groupRepo GroupRepository,
|
|
|
|
|
|
accountRepo AccountRepository,
|
|
|
|
|
|
proxyRepo ProxyRepository,
|
运维监控系统安全加固和功能优化 (#21)
* fix(ops): 修复运维监控系统的关键安全和稳定性问题
## 修复内容
### P0 严重问题
1. **DNS Rebinding防护** (ops_alert_service.go)
- 实现IP钉住机制防止验证后的DNS rebinding攻击
- 自定义Transport.DialContext强制只允许拨号到验证过的公网IP
- 扩展IP黑名单,包括云metadata地址(169.254.169.254)
- 添加完整的单元测试覆盖
2. **OpsAlertService生命周期管理** (wire.go)
- 在ProvideOpsMetricsCollector中添加opsAlertService.Start()调用
- 确保stopCtx正确初始化,避免nil指针问题
- 实现防御式启动,保证服务启动顺序
3. **数据库查询排序** (ops_repo.go)
- 在ListRecentSystemMetrics中添加显式ORDER BY updated_at DESC, id DESC
- 在GetLatestSystemMetric中添加排序保证
- 避免数据库返回顺序不确定导致告警误判
### P1 重要问题
4. **并发安全** (ops_metrics_collector.go)
- 为lastGCPauseTotal字段添加sync.Mutex保护
- 防止数据竞争
5. **Goroutine泄漏** (ops_error_logger.go)
- 实现worker pool模式限制并发goroutine数量
- 使用256容量缓冲队列和10个固定worker
- 非阻塞投递,队列满时丢弃任务
6. **生命周期控制** (ops_alert_service.go)
- 添加Start/Stop方法实现优雅关闭
- 使用context控制goroutine生命周期
- 实现WaitGroup等待后台任务完成
7. **Webhook URL验证** (ops_alert_service.go)
- 防止SSRF攻击:验证scheme、禁止内网IP
- DNS解析验证,拒绝解析到私有IP的域名
- 添加8个单元测试覆盖各种攻击场景
8. **资源泄漏** (ops_repo.go)
- 修复多处defer rows.Close()问题
- 简化冗余的defer func()包装
9. **HTTP超时控制** (ops_alert_service.go)
- 创建带10秒超时的http.Client
- 添加buildWebhookHTTPClient辅助函数
- 防止HTTP请求无限期挂起
10. **数据库查询优化** (ops_repo.go)
- 将GetWindowStats的4次独立查询合并为1次CTE查询
- 减少网络往返和表扫描次数
- 显著提升性能
11. **重试机制** (ops_alert_service.go)
- 实现邮件发送重试:最多3次,指数退避(1s/2s/4s)
- 添加webhook备用通道
- 实现完整的错误处理和日志记录
12. **魔法数字** (ops_repo.go, ops_metrics_collector.go)
- 提取硬编码数字为有意义的常量
- 提高代码可读性和可维护性
## 测试验证
- ✅ go test ./internal/service -tags opsalert_unit 通过
- ✅ 所有webhook验证测试通过
- ✅ 重试机制测试通过
## 影响范围
- 运维监控系统安全性显著提升
- 系统稳定性和性能优化
- 无破坏性变更,向后兼容
* feat(ops): 运维监控系统V2 - 完整实现
## 核心功能
- 运维监控仪表盘V2(实时监控、历史趋势、告警管理)
- WebSocket实时QPS/TPS监控(30s心跳,自动重连)
- 系统指标采集(CPU、内存、延迟、错误率等)
- 多维度统计分析(按provider、model、user等维度)
- 告警规则管理(阈值配置、通知渠道)
- 错误日志追踪(详细错误信息、堆栈跟踪)
## 数据库Schema (Migration 025)
### 扩展现有表
- ops_system_metrics: 新增RED指标、错误分类、延迟指标、资源指标、业务指标
- ops_alert_rules: 新增JSONB字段(dimension_filters, notify_channels, notify_config)
### 新增表
- ops_dimension_stats: 多维度统计数据
- ops_data_retention_config: 数据保留策略配置
### 新增视图和函数
- ops_latest_metrics: 最新1分钟窗口指标(已修复字段名和window过滤)
- ops_active_alerts: 当前活跃告警(已修复字段名和状态值)
- calculate_health_score: 健康分数计算函数
## 一致性修复(98/100分)
### P0级别(阻塞Migration)
- ✅ 修复ops_latest_metrics视图字段名(latency_p99→p99_latency_ms, cpu_usage→cpu_usage_percent)
- ✅ 修复ops_active_alerts视图字段名(metric→metric_type, triggered_at→fired_at, trigger_value→metric_value, threshold→threshold_value)
- ✅ 统一告警历史表名(删除ops_alert_history,使用ops_alert_events)
- ✅ 统一API参数限制(ListMetricsHistory和ListErrorLogs的limit改为5000)
### P1级别(功能完整性)
- ✅ 修复ops_latest_metrics视图未过滤window_minutes(添加WHERE m.window_minutes = 1)
- ✅ 修复数据回填UPDATE逻辑(QPS计算改为request_count/(window_minutes*60.0))
- ✅ 添加ops_alert_rules JSONB字段后端支持(Go结构体+序列化)
### P2级别(优化)
- ✅ 前端WebSocket自动重连(指数退避1s→2s→4s→8s→16s,最大5次)
- ✅ 后端WebSocket心跳检测(30s ping,60s pong超时)
## 技术实现
### 后端 (Go)
- Handler层: ops_handler.go(REST API), ops_ws_handler.go(WebSocket)
- Service层: ops_service.go(核心逻辑), ops_cache.go(缓存), ops_alerts.go(告警)
- Repository层: ops_repo.go(数据访问), ops.go(模型定义)
- 路由: admin.go(新增ops相关路由)
- 依赖注入: wire_gen.go(自动生成)
### 前端 (Vue3 + TypeScript)
- 组件: OpsDashboardV2.vue(仪表盘主组件)
- API: ops.ts(REST API + WebSocket封装)
- 路由: index.ts(新增/admin/ops路由)
- 国际化: en.ts, zh.ts(中英文支持)
## 测试验证
- ✅ 所有Go测试通过
- ✅ Migration可正常执行
- ✅ WebSocket连接稳定
- ✅ 前后端数据结构对齐
* refactor: 代码清理和测试优化
## 测试文件优化
- 简化integration test fixtures和断言
- 优化test helper函数
- 统一测试数据格式
## 代码清理
- 移除未使用的代码和注释
- 简化concurrency_cache实现
- 优化middleware错误处理
## 小修复
- 修复gateway_handler和openai_gateway_handler的小问题
- 统一代码风格和格式
变更统计: 27个文件,292行新增,322行删除(净减少30行)
* fix(ops): 运维监控系统安全加固和功能优化
## 安全增强
- feat(security): WebSocket日志脱敏机制,防止token/api_key泄露
- feat(security): X-Forwarded-Host白名单验证,防止CSRF绕过
- feat(security): Origin策略配置化,支持strict/permissive模式
- feat(auth): WebSocket认证支持query参数传递token
## 配置优化
- feat(config): 支持环境变量配置代理信任和Origin策略
- OPS_WS_TRUST_PROXY
- OPS_WS_TRUSTED_PROXIES
- OPS_WS_ORIGIN_POLICY
- fix(ops): 错误日志查询限流从5000降至500,优化内存使用
## 架构改进
- refactor(ops): 告警服务解耦,独立运行评估定时器
- refactor(ops): OpsDashboard统一版本,移除V2分离
## 测试和文档
- test(ops): 添加WebSocket安全验证单元测试(8个测试用例)
- test(ops): 添加告警服务集成测试
- docs(api): 更新API文档,标注限流变更
- docs: 添加CHANGELOG记录breaking changes
## 修复文件
Backend:
- backend/internal/server/middleware/logger.go
- backend/internal/handler/admin/ops_handler.go
- backend/internal/handler/admin/ops_ws_handler.go
- backend/internal/server/middleware/admin_auth.go
- backend/internal/service/ops_alert_service.go
- backend/internal/service/ops_metrics_collector.go
- backend/internal/service/wire.go
Frontend:
- frontend/src/views/admin/ops/OpsDashboard.vue
- frontend/src/router/index.ts
- frontend/src/api/admin/ops.ts
Tests:
- backend/internal/handler/admin/ops_ws_handler_test.go (新增)
- backend/internal/service/ops_alert_service_integration_test.go (新增)
Docs:
- CHANGELOG.md (新增)
- docs/API-运维监控中心2.0.md (更新)
* fix(migrations): 修复calculate_health_score函数类型匹配问题
在ops_latest_metrics视图中添加显式类型转换,确保参数类型与函数签名匹配
* fix(lint): 修复golangci-lint检查发现的所有问题
- 将Redis依赖从service层移到repository层
- 添加错误检查(WebSocket连接和读取超时)
- 运行gofmt格式化代码
- 添加nil指针检查
- 删除未使用的alertService字段
修复问题:
- depguard: 3个(service层不应直接import redis)
- errcheck: 3个(未检查错误返回值)
- gofmt: 2个(代码格式问题)
- staticcheck: 4个(nil指针解引用)
- unused: 1个(未使用字段)
代码统计:
- 修改文件:11个
- 删除代码:490行
- 新增代码:105行
- 净减少:385行
2026-01-02 20:01:12 +08:00
|
|
|
|
apiKeyRepo APIKeyRepository,
|
2025-12-25 17:15:01 +08:00
|
|
|
|
redeemCodeRepo RedeemCodeRepository,
|
2025-12-19 21:26:19 +08:00
|
|
|
|
billingCacheService *BillingCacheService,
|
2025-12-20 11:56:11 +08:00
|
|
|
|
proxyProber ProxyExitInfoProber,
|
2025-12-19 21:26:19 +08:00
|
|
|
|
) AdminService {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
return &adminServiceImpl{
|
2025-12-19 21:26:19 +08:00
|
|
|
|
userRepo: userRepo,
|
|
|
|
|
|
groupRepo: groupRepo,
|
|
|
|
|
|
accountRepo: accountRepo,
|
|
|
|
|
|
proxyRepo: proxyRepo,
|
|
|
|
|
|
apiKeyRepo: apiKeyRepo,
|
|
|
|
|
|
redeemCodeRepo: redeemCodeRepo,
|
2025-12-19 00:01:43 +08:00
|
|
|
|
billingCacheService: billingCacheService,
|
2025-12-20 11:56:11 +08:00
|
|
|
|
proxyProber: proxyProber,
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// User management implementations
|
2026-01-01 18:59:38 +08:00
|
|
|
|
func (s *adminServiceImpl) ListUsers(ctx context.Context, page, pageSize int, filters UserListFilters) ([]User, int64, error) {
|
2025-12-19 21:26:19 +08:00
|
|
|
|
params := pagination.PaginationParams{Page: page, PageSize: pageSize}
|
2026-01-01 18:59:38 +08:00
|
|
|
|
users, result, err := s.userRepo.ListWithFilters(ctx, params, filters)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, 0, err
|
|
|
|
|
|
}
|
|
|
|
|
|
return users, result.Total, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) GetUser(ctx context.Context, id int64) (*User, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
return s.userRepo.GetByID(ctx, id)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) CreateUser(ctx context.Context, input *CreateUserInput) (*User, error) {
|
|
|
|
|
|
user := &User{
|
|
|
|
|
|
Email: input.Email,
|
|
|
|
|
|
Username: input.Username,
|
|
|
|
|
|
Notes: input.Notes,
|
|
|
|
|
|
Role: RoleUser, // Always create as regular user, never admin
|
|
|
|
|
|
Balance: input.Balance,
|
|
|
|
|
|
Concurrency: input.Concurrency,
|
|
|
|
|
|
Status: StatusActive,
|
|
|
|
|
|
AllowedGroups: input.AllowedGroups,
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
if err := user.SetPassword(input.Password); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
if err := s.userRepo.Create(ctx, user); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
return user, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) UpdateUser(ctx context.Context, id int64, input *UpdateUserInput) (*User, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
user, err := s.userRepo.GetByID(ctx, id)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// Protect admin users: cannot disable admin accounts
|
|
|
|
|
|
if user.Role == "admin" && input.Status == "disabled" {
|
|
|
|
|
|
return nil, errors.New("cannot disable admin user")
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
oldConcurrency := user.Concurrency
|
|
|
|
|
|
|
|
|
|
|
|
if input.Email != "" {
|
|
|
|
|
|
user.Email = input.Email
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Password != "" {
|
|
|
|
|
|
if err := user.SetPassword(input.Password); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
}
|
2025-12-23 11:26:22 +08:00
|
|
|
|
|
|
|
|
|
|
if input.Username != nil {
|
|
|
|
|
|
user.Username = *input.Username
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Notes != nil {
|
|
|
|
|
|
user.Notes = *input.Notes
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-18 13:50:39 +08:00
|
|
|
|
if input.Status != "" {
|
|
|
|
|
|
user.Status = input.Status
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
if input.Concurrency != nil {
|
|
|
|
|
|
user.Concurrency = *input.Concurrency
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
if input.AllowedGroups != nil {
|
|
|
|
|
|
user.AllowedGroups = *input.AllowedGroups
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
if err := s.userRepo.Update(ctx, user); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
concurrencyDiff := user.Concurrency - oldConcurrency
|
|
|
|
|
|
if concurrencyDiff != 0 {
|
2025-12-26 15:40:24 +08:00
|
|
|
|
code, err := GenerateRedeemCode()
|
2025-12-20 15:29:52 +08:00
|
|
|
|
if err != nil {
|
|
|
|
|
|
log.Printf("failed to generate adjustment redeem code: %v", err)
|
|
|
|
|
|
return user, nil
|
|
|
|
|
|
}
|
2025-12-26 15:40:24 +08:00
|
|
|
|
adjustmentRecord := &RedeemCode{
|
2025-12-20 15:29:52 +08:00
|
|
|
|
Code: code,
|
2025-12-26 15:40:24 +08:00
|
|
|
|
Type: AdjustmentTypeAdminConcurrency,
|
2025-12-18 13:50:39 +08:00
|
|
|
|
Value: float64(concurrencyDiff),
|
2025-12-26 15:40:24 +08:00
|
|
|
|
Status: StatusUsed,
|
2025-12-18 13:50:39 +08:00
|
|
|
|
UsedBy: &user.ID,
|
|
|
|
|
|
}
|
|
|
|
|
|
now := time.Now()
|
|
|
|
|
|
adjustmentRecord.UsedAt = &now
|
|
|
|
|
|
if err := s.redeemCodeRepo.Create(ctx, adjustmentRecord); err != nil {
|
2025-12-20 15:29:52 +08:00
|
|
|
|
log.Printf("failed to create concurrency adjustment redeem code: %v", err)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
return user, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
func (s *adminServiceImpl) DeleteUser(ctx context.Context, id int64) error {
|
|
|
|
|
|
// Protect admin users: cannot delete admin accounts
|
|
|
|
|
|
user, err := s.userRepo.GetByID(ctx, id)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return err
|
|
|
|
|
|
}
|
|
|
|
|
|
if user.Role == "admin" {
|
|
|
|
|
|
return errors.New("cannot delete admin user")
|
|
|
|
|
|
}
|
2025-12-29 16:57:50 +08:00
|
|
|
|
if err := s.userRepo.Delete(ctx, id); err != nil {
|
|
|
|
|
|
log.Printf("delete user failed: user_id=%d err=%v", id, err)
|
|
|
|
|
|
return err
|
|
|
|
|
|
}
|
|
|
|
|
|
return nil
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) UpdateUserBalance(ctx context.Context, userID int64, balance float64, operation string, notes string) (*User, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
user, err := s.userRepo.GetByID(ctx, userID)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-23 16:29:57 +08:00
|
|
|
|
oldBalance := user.Balance
|
|
|
|
|
|
|
2025-12-18 13:50:39 +08:00
|
|
|
|
switch operation {
|
|
|
|
|
|
case "set":
|
|
|
|
|
|
user.Balance = balance
|
|
|
|
|
|
case "add":
|
|
|
|
|
|
user.Balance += balance
|
|
|
|
|
|
case "subtract":
|
|
|
|
|
|
user.Balance -= balance
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-23 16:29:57 +08:00
|
|
|
|
if user.Balance < 0 {
|
|
|
|
|
|
return nil, fmt.Errorf("balance cannot be negative, current balance: %.2f, requested operation would result in: %.2f", oldBalance, user.Balance)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-18 13:50:39 +08:00
|
|
|
|
if err := s.userRepo.Update(ctx, user); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
if s.billingCacheService != nil {
|
|
|
|
|
|
go func() {
|
|
|
|
|
|
cacheCtx, cancel := context.WithTimeout(context.Background(), 5*time.Second)
|
|
|
|
|
|
defer cancel()
|
2025-12-20 15:29:52 +08:00
|
|
|
|
if err := s.billingCacheService.InvalidateUserBalance(cacheCtx, userID); err != nil {
|
|
|
|
|
|
log.Printf("invalidate user balance cache failed: user_id=%d err=%v", userID, err)
|
|
|
|
|
|
}
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}()
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-23 16:29:57 +08:00
|
|
|
|
balanceDiff := user.Balance - oldBalance
|
|
|
|
|
|
if balanceDiff != 0 {
|
2025-12-26 15:40:24 +08:00
|
|
|
|
code, err := GenerateRedeemCode()
|
2025-12-23 16:29:57 +08:00
|
|
|
|
if err != nil {
|
|
|
|
|
|
log.Printf("failed to generate adjustment redeem code: %v", err)
|
|
|
|
|
|
return user, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
adjustmentRecord := &RedeemCode{
|
2025-12-23 16:29:57 +08:00
|
|
|
|
Code: code,
|
2025-12-26 15:40:24 +08:00
|
|
|
|
Type: AdjustmentTypeAdminBalance,
|
2025-12-23 16:29:57 +08:00
|
|
|
|
Value: balanceDiff,
|
2025-12-26 15:40:24 +08:00
|
|
|
|
Status: StatusUsed,
|
2025-12-23 16:29:57 +08:00
|
|
|
|
UsedBy: &user.ID,
|
|
|
|
|
|
Notes: notes,
|
|
|
|
|
|
}
|
|
|
|
|
|
now := time.Now()
|
|
|
|
|
|
adjustmentRecord.UsedAt = &now
|
|
|
|
|
|
|
|
|
|
|
|
if err := s.redeemCodeRepo.Create(ctx, adjustmentRecord); err != nil {
|
|
|
|
|
|
log.Printf("failed to create balance adjustment redeem code: %v", err)
|
|
|
|
|
|
}
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-18 13:50:39 +08:00
|
|
|
|
return user, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
运维监控系统安全加固和功能优化 (#21)
* fix(ops): 修复运维监控系统的关键安全和稳定性问题
## 修复内容
### P0 严重问题
1. **DNS Rebinding防护** (ops_alert_service.go)
- 实现IP钉住机制防止验证后的DNS rebinding攻击
- 自定义Transport.DialContext强制只允许拨号到验证过的公网IP
- 扩展IP黑名单,包括云metadata地址(169.254.169.254)
- 添加完整的单元测试覆盖
2. **OpsAlertService生命周期管理** (wire.go)
- 在ProvideOpsMetricsCollector中添加opsAlertService.Start()调用
- 确保stopCtx正确初始化,避免nil指针问题
- 实现防御式启动,保证服务启动顺序
3. **数据库查询排序** (ops_repo.go)
- 在ListRecentSystemMetrics中添加显式ORDER BY updated_at DESC, id DESC
- 在GetLatestSystemMetric中添加排序保证
- 避免数据库返回顺序不确定导致告警误判
### P1 重要问题
4. **并发安全** (ops_metrics_collector.go)
- 为lastGCPauseTotal字段添加sync.Mutex保护
- 防止数据竞争
5. **Goroutine泄漏** (ops_error_logger.go)
- 实现worker pool模式限制并发goroutine数量
- 使用256容量缓冲队列和10个固定worker
- 非阻塞投递,队列满时丢弃任务
6. **生命周期控制** (ops_alert_service.go)
- 添加Start/Stop方法实现优雅关闭
- 使用context控制goroutine生命周期
- 实现WaitGroup等待后台任务完成
7. **Webhook URL验证** (ops_alert_service.go)
- 防止SSRF攻击:验证scheme、禁止内网IP
- DNS解析验证,拒绝解析到私有IP的域名
- 添加8个单元测试覆盖各种攻击场景
8. **资源泄漏** (ops_repo.go)
- 修复多处defer rows.Close()问题
- 简化冗余的defer func()包装
9. **HTTP超时控制** (ops_alert_service.go)
- 创建带10秒超时的http.Client
- 添加buildWebhookHTTPClient辅助函数
- 防止HTTP请求无限期挂起
10. **数据库查询优化** (ops_repo.go)
- 将GetWindowStats的4次独立查询合并为1次CTE查询
- 减少网络往返和表扫描次数
- 显著提升性能
11. **重试机制** (ops_alert_service.go)
- 实现邮件发送重试:最多3次,指数退避(1s/2s/4s)
- 添加webhook备用通道
- 实现完整的错误处理和日志记录
12. **魔法数字** (ops_repo.go, ops_metrics_collector.go)
- 提取硬编码数字为有意义的常量
- 提高代码可读性和可维护性
## 测试验证
- ✅ go test ./internal/service -tags opsalert_unit 通过
- ✅ 所有webhook验证测试通过
- ✅ 重试机制测试通过
## 影响范围
- 运维监控系统安全性显著提升
- 系统稳定性和性能优化
- 无破坏性变更,向后兼容
* feat(ops): 运维监控系统V2 - 完整实现
## 核心功能
- 运维监控仪表盘V2(实时监控、历史趋势、告警管理)
- WebSocket实时QPS/TPS监控(30s心跳,自动重连)
- 系统指标采集(CPU、内存、延迟、错误率等)
- 多维度统计分析(按provider、model、user等维度)
- 告警规则管理(阈值配置、通知渠道)
- 错误日志追踪(详细错误信息、堆栈跟踪)
## 数据库Schema (Migration 025)
### 扩展现有表
- ops_system_metrics: 新增RED指标、错误分类、延迟指标、资源指标、业务指标
- ops_alert_rules: 新增JSONB字段(dimension_filters, notify_channels, notify_config)
### 新增表
- ops_dimension_stats: 多维度统计数据
- ops_data_retention_config: 数据保留策略配置
### 新增视图和函数
- ops_latest_metrics: 最新1分钟窗口指标(已修复字段名和window过滤)
- ops_active_alerts: 当前活跃告警(已修复字段名和状态值)
- calculate_health_score: 健康分数计算函数
## 一致性修复(98/100分)
### P0级别(阻塞Migration)
- ✅ 修复ops_latest_metrics视图字段名(latency_p99→p99_latency_ms, cpu_usage→cpu_usage_percent)
- ✅ 修复ops_active_alerts视图字段名(metric→metric_type, triggered_at→fired_at, trigger_value→metric_value, threshold→threshold_value)
- ✅ 统一告警历史表名(删除ops_alert_history,使用ops_alert_events)
- ✅ 统一API参数限制(ListMetricsHistory和ListErrorLogs的limit改为5000)
### P1级别(功能完整性)
- ✅ 修复ops_latest_metrics视图未过滤window_minutes(添加WHERE m.window_minutes = 1)
- ✅ 修复数据回填UPDATE逻辑(QPS计算改为request_count/(window_minutes*60.0))
- ✅ 添加ops_alert_rules JSONB字段后端支持(Go结构体+序列化)
### P2级别(优化)
- ✅ 前端WebSocket自动重连(指数退避1s→2s→4s→8s→16s,最大5次)
- ✅ 后端WebSocket心跳检测(30s ping,60s pong超时)
## 技术实现
### 后端 (Go)
- Handler层: ops_handler.go(REST API), ops_ws_handler.go(WebSocket)
- Service层: ops_service.go(核心逻辑), ops_cache.go(缓存), ops_alerts.go(告警)
- Repository层: ops_repo.go(数据访问), ops.go(模型定义)
- 路由: admin.go(新增ops相关路由)
- 依赖注入: wire_gen.go(自动生成)
### 前端 (Vue3 + TypeScript)
- 组件: OpsDashboardV2.vue(仪表盘主组件)
- API: ops.ts(REST API + WebSocket封装)
- 路由: index.ts(新增/admin/ops路由)
- 国际化: en.ts, zh.ts(中英文支持)
## 测试验证
- ✅ 所有Go测试通过
- ✅ Migration可正常执行
- ✅ WebSocket连接稳定
- ✅ 前后端数据结构对齐
* refactor: 代码清理和测试优化
## 测试文件优化
- 简化integration test fixtures和断言
- 优化test helper函数
- 统一测试数据格式
## 代码清理
- 移除未使用的代码和注释
- 简化concurrency_cache实现
- 优化middleware错误处理
## 小修复
- 修复gateway_handler和openai_gateway_handler的小问题
- 统一代码风格和格式
变更统计: 27个文件,292行新增,322行删除(净减少30行)
* fix(ops): 运维监控系统安全加固和功能优化
## 安全增强
- feat(security): WebSocket日志脱敏机制,防止token/api_key泄露
- feat(security): X-Forwarded-Host白名单验证,防止CSRF绕过
- feat(security): Origin策略配置化,支持strict/permissive模式
- feat(auth): WebSocket认证支持query参数传递token
## 配置优化
- feat(config): 支持环境变量配置代理信任和Origin策略
- OPS_WS_TRUST_PROXY
- OPS_WS_TRUSTED_PROXIES
- OPS_WS_ORIGIN_POLICY
- fix(ops): 错误日志查询限流从5000降至500,优化内存使用
## 架构改进
- refactor(ops): 告警服务解耦,独立运行评估定时器
- refactor(ops): OpsDashboard统一版本,移除V2分离
## 测试和文档
- test(ops): 添加WebSocket安全验证单元测试(8个测试用例)
- test(ops): 添加告警服务集成测试
- docs(api): 更新API文档,标注限流变更
- docs: 添加CHANGELOG记录breaking changes
## 修复文件
Backend:
- backend/internal/server/middleware/logger.go
- backend/internal/handler/admin/ops_handler.go
- backend/internal/handler/admin/ops_ws_handler.go
- backend/internal/server/middleware/admin_auth.go
- backend/internal/service/ops_alert_service.go
- backend/internal/service/ops_metrics_collector.go
- backend/internal/service/wire.go
Frontend:
- frontend/src/views/admin/ops/OpsDashboard.vue
- frontend/src/router/index.ts
- frontend/src/api/admin/ops.ts
Tests:
- backend/internal/handler/admin/ops_ws_handler_test.go (新增)
- backend/internal/service/ops_alert_service_integration_test.go (新增)
Docs:
- CHANGELOG.md (新增)
- docs/API-运维监控中心2.0.md (更新)
* fix(migrations): 修复calculate_health_score函数类型匹配问题
在ops_latest_metrics视图中添加显式类型转换,确保参数类型与函数签名匹配
* fix(lint): 修复golangci-lint检查发现的所有问题
- 将Redis依赖从service层移到repository层
- 添加错误检查(WebSocket连接和读取超时)
- 运行gofmt格式化代码
- 添加nil指针检查
- 删除未使用的alertService字段
修复问题:
- depguard: 3个(service层不应直接import redis)
- errcheck: 3个(未检查错误返回值)
- gofmt: 2个(代码格式问题)
- staticcheck: 4个(nil指针解引用)
- unused: 1个(未使用字段)
代码统计:
- 修改文件:11个
- 删除代码:490行
- 新增代码:105行
- 净减少:385行
2026-01-02 20:01:12 +08:00
|
|
|
|
func (s *adminServiceImpl) GetUserAPIKeys(ctx context.Context, userID int64, page, pageSize int) ([]APIKey, int64, error) {
|
2025-12-19 21:26:19 +08:00
|
|
|
|
params := pagination.PaginationParams{Page: page, PageSize: pageSize}
|
2025-12-18 13:50:39 +08:00
|
|
|
|
keys, result, err := s.apiKeyRepo.ListByUserID(ctx, userID, params)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, 0, err
|
|
|
|
|
|
}
|
|
|
|
|
|
return keys, result.Total, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-20 16:19:40 +08:00
|
|
|
|
func (s *adminServiceImpl) GetUserUsageStats(ctx context.Context, userID int64, period string) (any, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
// Return mock data for now
|
2025-12-20 16:19:40 +08:00
|
|
|
|
return map[string]any{
|
2025-12-18 13:50:39 +08:00
|
|
|
|
"period": period,
|
|
|
|
|
|
"total_requests": 0,
|
|
|
|
|
|
"total_cost": 0.0,
|
|
|
|
|
|
"total_tokens": 0,
|
|
|
|
|
|
"avg_duration_ms": 0,
|
|
|
|
|
|
}, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// Group management implementations
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) ListGroups(ctx context.Context, page, pageSize int, platform, status string, isExclusive *bool) ([]Group, int64, error) {
|
2025-12-19 21:26:19 +08:00
|
|
|
|
params := pagination.PaginationParams{Page: page, PageSize: pageSize}
|
2025-12-18 13:50:39 +08:00
|
|
|
|
groups, result, err := s.groupRepo.ListWithFilters(ctx, params, platform, status, isExclusive)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, 0, err
|
|
|
|
|
|
}
|
|
|
|
|
|
return groups, result.Total, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) GetAllGroups(ctx context.Context) ([]Group, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
return s.groupRepo.ListActive(ctx)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) GetAllGroupsByPlatform(ctx context.Context, platform string) ([]Group, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
return s.groupRepo.ListActiveByPlatform(ctx, platform)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) GetGroup(ctx context.Context, id int64) (*Group, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
return s.groupRepo.GetByID(ctx, id)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) CreateGroup(ctx context.Context, input *CreateGroupInput) (*Group, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
platform := input.Platform
|
|
|
|
|
|
if platform == "" {
|
2025-12-26 15:40:24 +08:00
|
|
|
|
platform = PlatformAnthropic
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
subscriptionType := input.SubscriptionType
|
|
|
|
|
|
if subscriptionType == "" {
|
2025-12-26 15:40:24 +08:00
|
|
|
|
subscriptionType = SubscriptionTypeStandard
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-31 22:48:35 +08:00
|
|
|
|
// 限额字段:0 和 nil 都表示"无限制"
|
|
|
|
|
|
dailyLimit := normalizeLimit(input.DailyLimitUSD)
|
|
|
|
|
|
weeklyLimit := normalizeLimit(input.WeeklyLimitUSD)
|
|
|
|
|
|
monthlyLimit := normalizeLimit(input.MonthlyLimitUSD)
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
group := &Group{
|
2025-12-18 13:50:39 +08:00
|
|
|
|
Name: input.Name,
|
|
|
|
|
|
Description: input.Description,
|
|
|
|
|
|
Platform: platform,
|
|
|
|
|
|
RateMultiplier: input.RateMultiplier,
|
|
|
|
|
|
IsExclusive: input.IsExclusive,
|
2025-12-26 15:40:24 +08:00
|
|
|
|
Status: StatusActive,
|
2025-12-18 13:50:39 +08:00
|
|
|
|
SubscriptionType: subscriptionType,
|
2025-12-31 22:48:35 +08:00
|
|
|
|
DailyLimitUSD: dailyLimit,
|
|
|
|
|
|
WeeklyLimitUSD: weeklyLimit,
|
|
|
|
|
|
MonthlyLimitUSD: monthlyLimit,
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
if err := s.groupRepo.Create(ctx, group); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
return group, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-31 22:48:35 +08:00
|
|
|
|
// normalizeLimit 将 0 或负数转换为 nil(表示无限制)
|
|
|
|
|
|
func normalizeLimit(limit *float64) *float64 {
|
|
|
|
|
|
if limit == nil || *limit <= 0 {
|
|
|
|
|
|
return nil
|
|
|
|
|
|
}
|
|
|
|
|
|
return limit
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) UpdateGroup(ctx context.Context, id int64, input *UpdateGroupInput) (*Group, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
group, err := s.groupRepo.GetByID(ctx, id)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
if input.Name != "" {
|
|
|
|
|
|
group.Name = input.Name
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Description != "" {
|
|
|
|
|
|
group.Description = input.Description
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Platform != "" {
|
|
|
|
|
|
group.Platform = input.Platform
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.RateMultiplier != nil {
|
|
|
|
|
|
group.RateMultiplier = *input.RateMultiplier
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.IsExclusive != nil {
|
|
|
|
|
|
group.IsExclusive = *input.IsExclusive
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Status != "" {
|
|
|
|
|
|
group.Status = input.Status
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// 订阅相关字段
|
|
|
|
|
|
if input.SubscriptionType != "" {
|
|
|
|
|
|
group.SubscriptionType = input.SubscriptionType
|
|
|
|
|
|
}
|
2025-12-31 22:48:35 +08:00
|
|
|
|
// 限额字段:0 和 nil 都表示"无限制",正数表示具体限额
|
2025-12-18 13:50:39 +08:00
|
|
|
|
if input.DailyLimitUSD != nil {
|
2025-12-31 22:48:35 +08:00
|
|
|
|
group.DailyLimitUSD = normalizeLimit(input.DailyLimitUSD)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
if input.WeeklyLimitUSD != nil {
|
2025-12-31 22:48:35 +08:00
|
|
|
|
group.WeeklyLimitUSD = normalizeLimit(input.WeeklyLimitUSD)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
if input.MonthlyLimitUSD != nil {
|
2025-12-31 22:48:35 +08:00
|
|
|
|
group.MonthlyLimitUSD = normalizeLimit(input.MonthlyLimitUSD)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
if err := s.groupRepo.Update(ctx, group); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
return group, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
func (s *adminServiceImpl) DeleteGroup(ctx context.Context, id int64) error {
|
2025-12-25 20:52:47 +08:00
|
|
|
|
affectedUserIDs, err := s.groupRepo.DeleteCascade(ctx, id)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
if err != nil {
|
|
|
|
|
|
return err
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// 事务成功后,异步失效受影响用户的订阅缓存
|
|
|
|
|
|
if len(affectedUserIDs) > 0 && s.billingCacheService != nil {
|
|
|
|
|
|
groupID := id
|
|
|
|
|
|
go func() {
|
|
|
|
|
|
cacheCtx, cancel := context.WithTimeout(context.Background(), 30*time.Second)
|
|
|
|
|
|
defer cancel()
|
|
|
|
|
|
for _, userID := range affectedUserIDs {
|
2025-12-20 15:29:52 +08:00
|
|
|
|
if err := s.billingCacheService.InvalidateSubscription(cacheCtx, userID, groupID); err != nil {
|
|
|
|
|
|
log.Printf("invalidate subscription cache failed: user_id=%d group_id=%d err=%v", userID, groupID, err)
|
|
|
|
|
|
}
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
}()
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
return nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
运维监控系统安全加固和功能优化 (#21)
* fix(ops): 修复运维监控系统的关键安全和稳定性问题
## 修复内容
### P0 严重问题
1. **DNS Rebinding防护** (ops_alert_service.go)
- 实现IP钉住机制防止验证后的DNS rebinding攻击
- 自定义Transport.DialContext强制只允许拨号到验证过的公网IP
- 扩展IP黑名单,包括云metadata地址(169.254.169.254)
- 添加完整的单元测试覆盖
2. **OpsAlertService生命周期管理** (wire.go)
- 在ProvideOpsMetricsCollector中添加opsAlertService.Start()调用
- 确保stopCtx正确初始化,避免nil指针问题
- 实现防御式启动,保证服务启动顺序
3. **数据库查询排序** (ops_repo.go)
- 在ListRecentSystemMetrics中添加显式ORDER BY updated_at DESC, id DESC
- 在GetLatestSystemMetric中添加排序保证
- 避免数据库返回顺序不确定导致告警误判
### P1 重要问题
4. **并发安全** (ops_metrics_collector.go)
- 为lastGCPauseTotal字段添加sync.Mutex保护
- 防止数据竞争
5. **Goroutine泄漏** (ops_error_logger.go)
- 实现worker pool模式限制并发goroutine数量
- 使用256容量缓冲队列和10个固定worker
- 非阻塞投递,队列满时丢弃任务
6. **生命周期控制** (ops_alert_service.go)
- 添加Start/Stop方法实现优雅关闭
- 使用context控制goroutine生命周期
- 实现WaitGroup等待后台任务完成
7. **Webhook URL验证** (ops_alert_service.go)
- 防止SSRF攻击:验证scheme、禁止内网IP
- DNS解析验证,拒绝解析到私有IP的域名
- 添加8个单元测试覆盖各种攻击场景
8. **资源泄漏** (ops_repo.go)
- 修复多处defer rows.Close()问题
- 简化冗余的defer func()包装
9. **HTTP超时控制** (ops_alert_service.go)
- 创建带10秒超时的http.Client
- 添加buildWebhookHTTPClient辅助函数
- 防止HTTP请求无限期挂起
10. **数据库查询优化** (ops_repo.go)
- 将GetWindowStats的4次独立查询合并为1次CTE查询
- 减少网络往返和表扫描次数
- 显著提升性能
11. **重试机制** (ops_alert_service.go)
- 实现邮件发送重试:最多3次,指数退避(1s/2s/4s)
- 添加webhook备用通道
- 实现完整的错误处理和日志记录
12. **魔法数字** (ops_repo.go, ops_metrics_collector.go)
- 提取硬编码数字为有意义的常量
- 提高代码可读性和可维护性
## 测试验证
- ✅ go test ./internal/service -tags opsalert_unit 通过
- ✅ 所有webhook验证测试通过
- ✅ 重试机制测试通过
## 影响范围
- 运维监控系统安全性显著提升
- 系统稳定性和性能优化
- 无破坏性变更,向后兼容
* feat(ops): 运维监控系统V2 - 完整实现
## 核心功能
- 运维监控仪表盘V2(实时监控、历史趋势、告警管理)
- WebSocket实时QPS/TPS监控(30s心跳,自动重连)
- 系统指标采集(CPU、内存、延迟、错误率等)
- 多维度统计分析(按provider、model、user等维度)
- 告警规则管理(阈值配置、通知渠道)
- 错误日志追踪(详细错误信息、堆栈跟踪)
## 数据库Schema (Migration 025)
### 扩展现有表
- ops_system_metrics: 新增RED指标、错误分类、延迟指标、资源指标、业务指标
- ops_alert_rules: 新增JSONB字段(dimension_filters, notify_channels, notify_config)
### 新增表
- ops_dimension_stats: 多维度统计数据
- ops_data_retention_config: 数据保留策略配置
### 新增视图和函数
- ops_latest_metrics: 最新1分钟窗口指标(已修复字段名和window过滤)
- ops_active_alerts: 当前活跃告警(已修复字段名和状态值)
- calculate_health_score: 健康分数计算函数
## 一致性修复(98/100分)
### P0级别(阻塞Migration)
- ✅ 修复ops_latest_metrics视图字段名(latency_p99→p99_latency_ms, cpu_usage→cpu_usage_percent)
- ✅ 修复ops_active_alerts视图字段名(metric→metric_type, triggered_at→fired_at, trigger_value→metric_value, threshold→threshold_value)
- ✅ 统一告警历史表名(删除ops_alert_history,使用ops_alert_events)
- ✅ 统一API参数限制(ListMetricsHistory和ListErrorLogs的limit改为5000)
### P1级别(功能完整性)
- ✅ 修复ops_latest_metrics视图未过滤window_minutes(添加WHERE m.window_minutes = 1)
- ✅ 修复数据回填UPDATE逻辑(QPS计算改为request_count/(window_minutes*60.0))
- ✅ 添加ops_alert_rules JSONB字段后端支持(Go结构体+序列化)
### P2级别(优化)
- ✅ 前端WebSocket自动重连(指数退避1s→2s→4s→8s→16s,最大5次)
- ✅ 后端WebSocket心跳检测(30s ping,60s pong超时)
## 技术实现
### 后端 (Go)
- Handler层: ops_handler.go(REST API), ops_ws_handler.go(WebSocket)
- Service层: ops_service.go(核心逻辑), ops_cache.go(缓存), ops_alerts.go(告警)
- Repository层: ops_repo.go(数据访问), ops.go(模型定义)
- 路由: admin.go(新增ops相关路由)
- 依赖注入: wire_gen.go(自动生成)
### 前端 (Vue3 + TypeScript)
- 组件: OpsDashboardV2.vue(仪表盘主组件)
- API: ops.ts(REST API + WebSocket封装)
- 路由: index.ts(新增/admin/ops路由)
- 国际化: en.ts, zh.ts(中英文支持)
## 测试验证
- ✅ 所有Go测试通过
- ✅ Migration可正常执行
- ✅ WebSocket连接稳定
- ✅ 前后端数据结构对齐
* refactor: 代码清理和测试优化
## 测试文件优化
- 简化integration test fixtures和断言
- 优化test helper函数
- 统一测试数据格式
## 代码清理
- 移除未使用的代码和注释
- 简化concurrency_cache实现
- 优化middleware错误处理
## 小修复
- 修复gateway_handler和openai_gateway_handler的小问题
- 统一代码风格和格式
变更统计: 27个文件,292行新增,322行删除(净减少30行)
* fix(ops): 运维监控系统安全加固和功能优化
## 安全增强
- feat(security): WebSocket日志脱敏机制,防止token/api_key泄露
- feat(security): X-Forwarded-Host白名单验证,防止CSRF绕过
- feat(security): Origin策略配置化,支持strict/permissive模式
- feat(auth): WebSocket认证支持query参数传递token
## 配置优化
- feat(config): 支持环境变量配置代理信任和Origin策略
- OPS_WS_TRUST_PROXY
- OPS_WS_TRUSTED_PROXIES
- OPS_WS_ORIGIN_POLICY
- fix(ops): 错误日志查询限流从5000降至500,优化内存使用
## 架构改进
- refactor(ops): 告警服务解耦,独立运行评估定时器
- refactor(ops): OpsDashboard统一版本,移除V2分离
## 测试和文档
- test(ops): 添加WebSocket安全验证单元测试(8个测试用例)
- test(ops): 添加告警服务集成测试
- docs(api): 更新API文档,标注限流变更
- docs: 添加CHANGELOG记录breaking changes
## 修复文件
Backend:
- backend/internal/server/middleware/logger.go
- backend/internal/handler/admin/ops_handler.go
- backend/internal/handler/admin/ops_ws_handler.go
- backend/internal/server/middleware/admin_auth.go
- backend/internal/service/ops_alert_service.go
- backend/internal/service/ops_metrics_collector.go
- backend/internal/service/wire.go
Frontend:
- frontend/src/views/admin/ops/OpsDashboard.vue
- frontend/src/router/index.ts
- frontend/src/api/admin/ops.ts
Tests:
- backend/internal/handler/admin/ops_ws_handler_test.go (新增)
- backend/internal/service/ops_alert_service_integration_test.go (新增)
Docs:
- CHANGELOG.md (新增)
- docs/API-运维监控中心2.0.md (更新)
* fix(migrations): 修复calculate_health_score函数类型匹配问题
在ops_latest_metrics视图中添加显式类型转换,确保参数类型与函数签名匹配
* fix(lint): 修复golangci-lint检查发现的所有问题
- 将Redis依赖从service层移到repository层
- 添加错误检查(WebSocket连接和读取超时)
- 运行gofmt格式化代码
- 添加nil指针检查
- 删除未使用的alertService字段
修复问题:
- depguard: 3个(service层不应直接import redis)
- errcheck: 3个(未检查错误返回值)
- gofmt: 2个(代码格式问题)
- staticcheck: 4个(nil指针解引用)
- unused: 1个(未使用字段)
代码统计:
- 修改文件:11个
- 删除代码:490行
- 新增代码:105行
- 净减少:385行
2026-01-02 20:01:12 +08:00
|
|
|
|
func (s *adminServiceImpl) GetGroupAPIKeys(ctx context.Context, groupID int64, page, pageSize int) ([]APIKey, int64, error) {
|
2025-12-19 21:26:19 +08:00
|
|
|
|
params := pagination.PaginationParams{Page: page, PageSize: pageSize}
|
2025-12-18 13:50:39 +08:00
|
|
|
|
keys, result, err := s.apiKeyRepo.ListByGroupID(ctx, groupID, params)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, 0, err
|
|
|
|
|
|
}
|
|
|
|
|
|
return keys, result.Total, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// Account management implementations
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) ListAccounts(ctx context.Context, page, pageSize int, platform, accountType, status, search string) ([]Account, int64, error) {
|
2025-12-19 21:26:19 +08:00
|
|
|
|
params := pagination.PaginationParams{Page: page, PageSize: pageSize}
|
2025-12-18 13:50:39 +08:00
|
|
|
|
accounts, result, err := s.accountRepo.ListWithFilters(ctx, params, platform, accountType, status, search)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, 0, err
|
|
|
|
|
|
}
|
|
|
|
|
|
return accounts, result.Total, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) GetAccount(ctx context.Context, id int64) (*Account, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
return s.accountRepo.GetByID(ctx, id)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2026-01-01 15:07:16 +08:00
|
|
|
|
func (s *adminServiceImpl) GetAccountsByIDs(ctx context.Context, ids []int64) ([]*Account, error) {
|
|
|
|
|
|
if len(ids) == 0 {
|
|
|
|
|
|
return []*Account{}, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
accounts, err := s.accountRepo.GetByIDs(ctx, ids)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, fmt.Errorf("failed to get accounts by IDs: %w", err)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
return accounts, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) CreateAccount(ctx context.Context, input *CreateAccountInput) (*Account, error) {
|
|
|
|
|
|
account := &Account{
|
2025-12-18 13:50:39 +08:00
|
|
|
|
Name: input.Name,
|
|
|
|
|
|
Platform: input.Platform,
|
|
|
|
|
|
Type: input.Type,
|
2025-12-26 15:40:24 +08:00
|
|
|
|
Credentials: input.Credentials,
|
|
|
|
|
|
Extra: input.Extra,
|
2025-12-18 13:50:39 +08:00
|
|
|
|
ProxyID: input.ProxyID,
|
|
|
|
|
|
Concurrency: input.Concurrency,
|
|
|
|
|
|
Priority: input.Priority,
|
2025-12-26 15:40:24 +08:00
|
|
|
|
Status: StatusActive,
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
if err := s.accountRepo.Create(ctx, account); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
2025-12-29 03:17:25 +08:00
|
|
|
|
|
2025-12-18 13:50:39 +08:00
|
|
|
|
// 绑定分组
|
2025-12-29 03:17:25 +08:00
|
|
|
|
groupIDs := input.GroupIDs
|
|
|
|
|
|
// 如果没有指定分组,自动绑定对应平台的默认分组
|
|
|
|
|
|
if len(groupIDs) == 0 {
|
|
|
|
|
|
defaultGroupName := input.Platform + "-default"
|
|
|
|
|
|
groups, err := s.groupRepo.ListActiveByPlatform(ctx, input.Platform)
|
|
|
|
|
|
if err == nil {
|
|
|
|
|
|
for _, g := range groups {
|
|
|
|
|
|
if g.Name == defaultGroupName {
|
|
|
|
|
|
groupIDs = []int64{g.ID}
|
|
|
|
|
|
log.Printf("[CreateAccount] Auto-binding account %d to default group %s (ID: %d)", account.ID, defaultGroupName, g.ID)
|
|
|
|
|
|
break
|
|
|
|
|
|
}
|
|
|
|
|
|
}
|
|
|
|
|
|
}
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
if len(groupIDs) > 0 {
|
|
|
|
|
|
if err := s.accountRepo.BindGroups(ctx, account.ID, groupIDs); err != nil {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
}
|
2025-12-29 03:17:25 +08:00
|
|
|
|
|
2025-12-18 13:50:39 +08:00
|
|
|
|
return account, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) UpdateAccount(ctx context.Context, id int64, input *UpdateAccountInput) (*Account, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
account, err := s.accountRepo.GetByID(ctx, id)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
if input.Name != "" {
|
|
|
|
|
|
account.Name = input.Name
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Type != "" {
|
|
|
|
|
|
account.Type = input.Type
|
|
|
|
|
|
}
|
2025-12-20 15:29:52 +08:00
|
|
|
|
if len(input.Credentials) > 0 {
|
2025-12-26 15:40:24 +08:00
|
|
|
|
account.Credentials = input.Credentials
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
2025-12-20 15:29:52 +08:00
|
|
|
|
if len(input.Extra) > 0 {
|
2025-12-26 15:40:24 +08:00
|
|
|
|
account.Extra = input.Extra
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
if input.ProxyID != nil {
|
|
|
|
|
|
account.ProxyID = input.ProxyID
|
2025-12-25 21:58:09 +08:00
|
|
|
|
account.Proxy = nil // 清除关联对象,防止 GORM Save 时根据 Proxy.ID 覆盖 ProxyID
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
// 只在指针非 nil 时更新 Concurrency(支持设置为 0)
|
|
|
|
|
|
if input.Concurrency != nil {
|
|
|
|
|
|
account.Concurrency = *input.Concurrency
|
|
|
|
|
|
}
|
|
|
|
|
|
// 只在指针非 nil 时更新 Priority(支持设置为 0)
|
|
|
|
|
|
if input.Priority != nil {
|
|
|
|
|
|
account.Priority = *input.Priority
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Status != "" {
|
|
|
|
|
|
account.Status = input.Status
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-27 14:57:43 +08:00
|
|
|
|
// 先验证分组是否存在(在任何写操作之前)
|
|
|
|
|
|
if input.GroupIDs != nil {
|
|
|
|
|
|
for _, groupID := range *input.GroupIDs {
|
|
|
|
|
|
if _, err := s.groupRepo.GetByID(ctx, groupID); err != nil {
|
|
|
|
|
|
return nil, fmt.Errorf("get group: %w", err)
|
|
|
|
|
|
}
|
|
|
|
|
|
}
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-18 13:50:39 +08:00
|
|
|
|
if err := s.accountRepo.Update(ctx, account); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-27 14:57:43 +08:00
|
|
|
|
// 绑定分组
|
2025-12-18 13:50:39 +08:00
|
|
|
|
if input.GroupIDs != nil {
|
|
|
|
|
|
if err := s.accountRepo.BindGroups(ctx, account.ID, *input.GroupIDs); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-25 21:58:09 +08:00
|
|
|
|
// 重新查询以确保返回完整数据(包括正确的 Proxy 关联对象)
|
|
|
|
|
|
return s.accountRepo.GetByID(ctx, id)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-24 17:16:19 -08:00
|
|
|
|
// BulkUpdateAccounts updates multiple accounts in one request.
|
|
|
|
|
|
// It merges credentials/extra keys instead of overwriting the whole object.
|
|
|
|
|
|
func (s *adminServiceImpl) BulkUpdateAccounts(ctx context.Context, input *BulkUpdateAccountsInput) (*BulkUpdateAccountsResult, error) {
|
|
|
|
|
|
result := &BulkUpdateAccountsResult{
|
|
|
|
|
|
Results: make([]BulkUpdateAccountResult, 0, len(input.AccountIDs)),
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
if len(input.AccountIDs) == 0 {
|
|
|
|
|
|
return result, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// Prepare bulk updates for columns and JSONB fields.
|
2025-12-25 17:15:01 +08:00
|
|
|
|
repoUpdates := AccountBulkUpdate{
|
2025-12-24 17:16:19 -08:00
|
|
|
|
Credentials: input.Credentials,
|
|
|
|
|
|
Extra: input.Extra,
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Name != "" {
|
|
|
|
|
|
repoUpdates.Name = &input.Name
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.ProxyID != nil {
|
|
|
|
|
|
repoUpdates.ProxyID = input.ProxyID
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Concurrency != nil {
|
|
|
|
|
|
repoUpdates.Concurrency = input.Concurrency
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Priority != nil {
|
|
|
|
|
|
repoUpdates.Priority = input.Priority
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Status != "" {
|
|
|
|
|
|
repoUpdates.Status = &input.Status
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// Run bulk update for column/jsonb fields first.
|
|
|
|
|
|
if _, err := s.accountRepo.BulkUpdate(ctx, input.AccountIDs, repoUpdates); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// Handle group bindings per account (requires individual operations).
|
|
|
|
|
|
for _, accountID := range input.AccountIDs {
|
|
|
|
|
|
entry := BulkUpdateAccountResult{AccountID: accountID}
|
|
|
|
|
|
|
|
|
|
|
|
if input.GroupIDs != nil {
|
|
|
|
|
|
if err := s.accountRepo.BindGroups(ctx, accountID, *input.GroupIDs); err != nil {
|
|
|
|
|
|
entry.Success = false
|
|
|
|
|
|
entry.Error = err.Error()
|
|
|
|
|
|
result.Failed++
|
|
|
|
|
|
result.Results = append(result.Results, entry)
|
|
|
|
|
|
continue
|
|
|
|
|
|
}
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
entry.Success = true
|
|
|
|
|
|
result.Success++
|
|
|
|
|
|
result.Results = append(result.Results, entry)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
return result, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-18 13:50:39 +08:00
|
|
|
|
func (s *adminServiceImpl) DeleteAccount(ctx context.Context, id int64) error {
|
|
|
|
|
|
return s.accountRepo.Delete(ctx, id)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) RefreshAccountCredentials(ctx context.Context, id int64) (*Account, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
account, err := s.accountRepo.GetByID(ctx, id)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
// TODO: Implement refresh logic
|
|
|
|
|
|
return account, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) ClearAccountError(ctx context.Context, id int64) (*Account, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
account, err := s.accountRepo.GetByID(ctx, id)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
2025-12-26 15:40:24 +08:00
|
|
|
|
account.Status = StatusActive
|
2025-12-18 13:50:39 +08:00
|
|
|
|
account.ErrorMessage = ""
|
|
|
|
|
|
if err := s.accountRepo.Update(ctx, account); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
return account, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) SetAccountSchedulable(ctx context.Context, id int64, schedulable bool) (*Account, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
if err := s.accountRepo.SetSchedulable(ctx, id, schedulable); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
return s.accountRepo.GetByID(ctx, id)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// Proxy management implementations
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) ListProxies(ctx context.Context, page, pageSize int, protocol, status, search string) ([]Proxy, int64, error) {
|
2025-12-19 21:26:19 +08:00
|
|
|
|
params := pagination.PaginationParams{Page: page, PageSize: pageSize}
|
2025-12-18 13:50:39 +08:00
|
|
|
|
proxies, result, err := s.proxyRepo.ListWithFilters(ctx, params, protocol, status, search)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, 0, err
|
|
|
|
|
|
}
|
|
|
|
|
|
return proxies, result.Total, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) GetAllProxies(ctx context.Context) ([]Proxy, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
return s.proxyRepo.ListActive(ctx)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) GetAllProxiesWithAccountCount(ctx context.Context) ([]ProxyWithAccountCount, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
return s.proxyRepo.ListActiveWithAccountCount(ctx)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) GetProxy(ctx context.Context, id int64) (*Proxy, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
return s.proxyRepo.GetByID(ctx, id)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) CreateProxy(ctx context.Context, input *CreateProxyInput) (*Proxy, error) {
|
|
|
|
|
|
proxy := &Proxy{
|
2025-12-18 13:50:39 +08:00
|
|
|
|
Name: input.Name,
|
|
|
|
|
|
Protocol: input.Protocol,
|
|
|
|
|
|
Host: input.Host,
|
|
|
|
|
|
Port: input.Port,
|
|
|
|
|
|
Username: input.Username,
|
|
|
|
|
|
Password: input.Password,
|
2025-12-26 15:40:24 +08:00
|
|
|
|
Status: StatusActive,
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
if err := s.proxyRepo.Create(ctx, proxy); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
return proxy, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) UpdateProxy(ctx context.Context, id int64, input *UpdateProxyInput) (*Proxy, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
proxy, err := s.proxyRepo.GetByID(ctx, id)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
if input.Name != "" {
|
|
|
|
|
|
proxy.Name = input.Name
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Protocol != "" {
|
|
|
|
|
|
proxy.Protocol = input.Protocol
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Host != "" {
|
|
|
|
|
|
proxy.Host = input.Host
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Port != 0 {
|
|
|
|
|
|
proxy.Port = input.Port
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Username != "" {
|
|
|
|
|
|
proxy.Username = input.Username
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Password != "" {
|
|
|
|
|
|
proxy.Password = input.Password
|
|
|
|
|
|
}
|
|
|
|
|
|
if input.Status != "" {
|
|
|
|
|
|
proxy.Status = input.Status
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
if err := s.proxyRepo.Update(ctx, proxy); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
return proxy, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
func (s *adminServiceImpl) DeleteProxy(ctx context.Context, id int64) error {
|
|
|
|
|
|
return s.proxyRepo.Delete(ctx, id)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) GetProxyAccounts(ctx context.Context, proxyID int64, page, pageSize int) ([]Account, int64, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
// Return mock data for now - would need a dedicated repository method
|
2025-12-26 15:40:24 +08:00
|
|
|
|
return []Account{}, 0, nil
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
func (s *adminServiceImpl) CheckProxyExists(ctx context.Context, host string, port int, username, password string) (bool, error) {
|
|
|
|
|
|
return s.proxyRepo.ExistsByHostPortAuth(ctx, host, port, username, password)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
// Redeem code management implementations
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) ListRedeemCodes(ctx context.Context, page, pageSize int, codeType, status, search string) ([]RedeemCode, int64, error) {
|
2025-12-19 21:26:19 +08:00
|
|
|
|
params := pagination.PaginationParams{Page: page, PageSize: pageSize}
|
2025-12-18 13:50:39 +08:00
|
|
|
|
codes, result, err := s.redeemCodeRepo.ListWithFilters(ctx, params, codeType, status, search)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, 0, err
|
|
|
|
|
|
}
|
|
|
|
|
|
return codes, result.Total, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) GetRedeemCode(ctx context.Context, id int64) (*RedeemCode, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
return s.redeemCodeRepo.GetByID(ctx, id)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) GenerateRedeemCodes(ctx context.Context, input *GenerateRedeemCodesInput) ([]RedeemCode, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
// 如果是订阅类型,验证必须有 GroupID
|
2025-12-26 15:40:24 +08:00
|
|
|
|
if input.Type == RedeemTypeSubscription {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
if input.GroupID == nil {
|
|
|
|
|
|
return nil, errors.New("group_id is required for subscription type")
|
|
|
|
|
|
}
|
|
|
|
|
|
// 验证分组存在且为订阅类型
|
|
|
|
|
|
group, err := s.groupRepo.GetByID(ctx, *input.GroupID)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, fmt.Errorf("group not found: %w", err)
|
|
|
|
|
|
}
|
|
|
|
|
|
if !group.IsSubscriptionType() {
|
|
|
|
|
|
return nil, errors.New("group must be subscription type")
|
|
|
|
|
|
}
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
codes := make([]RedeemCode, 0, input.Count)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
for i := 0; i < input.Count; i++ {
|
2025-12-26 15:40:24 +08:00
|
|
|
|
codeValue, err := GenerateRedeemCode()
|
2025-12-20 15:29:52 +08:00
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
2025-12-26 15:40:24 +08:00
|
|
|
|
code := RedeemCode{
|
2025-12-20 15:29:52 +08:00
|
|
|
|
Code: codeValue,
|
2025-12-18 13:50:39 +08:00
|
|
|
|
Type: input.Type,
|
|
|
|
|
|
Value: input.Value,
|
2025-12-26 15:40:24 +08:00
|
|
|
|
Status: StatusUnused,
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}
|
|
|
|
|
|
// 订阅类型专用字段
|
2025-12-26 15:40:24 +08:00
|
|
|
|
if input.Type == RedeemTypeSubscription {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
code.GroupID = input.GroupID
|
|
|
|
|
|
code.ValidityDays = input.ValidityDays
|
|
|
|
|
|
if code.ValidityDays <= 0 {
|
|
|
|
|
|
code.ValidityDays = 30 // 默认30天
|
|
|
|
|
|
}
|
|
|
|
|
|
}
|
|
|
|
|
|
if err := s.redeemCodeRepo.Create(ctx, &code); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
codes = append(codes, code)
|
|
|
|
|
|
}
|
|
|
|
|
|
return codes, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
func (s *adminServiceImpl) DeleteRedeemCode(ctx context.Context, id int64) error {
|
|
|
|
|
|
return s.redeemCodeRepo.Delete(ctx, id)
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
func (s *adminServiceImpl) BatchDeleteRedeemCodes(ctx context.Context, ids []int64) (int64, error) {
|
|
|
|
|
|
var deleted int64
|
|
|
|
|
|
for _, id := range ids {
|
|
|
|
|
|
if err := s.redeemCodeRepo.Delete(ctx, id); err == nil {
|
|
|
|
|
|
deleted++
|
|
|
|
|
|
}
|
|
|
|
|
|
}
|
|
|
|
|
|
return deleted, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
2025-12-26 15:40:24 +08:00
|
|
|
|
func (s *adminServiceImpl) ExpireRedeemCode(ctx context.Context, id int64) (*RedeemCode, error) {
|
2025-12-18 13:50:39 +08:00
|
|
|
|
code, err := s.redeemCodeRepo.GetByID(ctx, id)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
2025-12-26 15:40:24 +08:00
|
|
|
|
code.Status = StatusExpired
|
2025-12-18 13:50:39 +08:00
|
|
|
|
if err := s.redeemCodeRepo.Update(ctx, code); err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
return code, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
func (s *adminServiceImpl) TestProxy(ctx context.Context, id int64) (*ProxyTestResult, error) {
|
|
|
|
|
|
proxy, err := s.proxyRepo.GetByID(ctx, id)
|
|
|
|
|
|
if err != nil {
|
|
|
|
|
|
return nil, err
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
proxyURL := proxy.URL()
|
2025-12-20 11:56:11 +08:00
|
|
|
|
exitInfo, latencyMs, err := s.proxyProber.ProbeProxy(ctx, proxyURL)
|
2025-12-18 13:50:39 +08:00
|
|
|
|
if err != nil {
|
|
|
|
|
|
return &ProxyTestResult{
|
|
|
|
|
|
Success: false,
|
2025-12-20 11:56:11 +08:00
|
|
|
|
Message: err.Error(),
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}, nil
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
return &ProxyTestResult{
|
|
|
|
|
|
Success: true,
|
|
|
|
|
|
Message: "Proxy is accessible",
|
|
|
|
|
|
LatencyMs: latencyMs,
|
2025-12-20 11:56:11 +08:00
|
|
|
|
IPAddress: exitInfo.IP,
|
|
|
|
|
|
City: exitInfo.City,
|
|
|
|
|
|
Region: exitInfo.Region,
|
|
|
|
|
|
Country: exitInfo.Country,
|
2025-12-18 13:50:39 +08:00
|
|
|
|
}, nil
|
|
|
|
|
|
}
|