Skip to content

数据源

数据源管理是OraAI平台的核心功能,提供统一的数据连接、配置和管理能力,支持多种类型数据源的接入和使用。

🗄️ 数据源概述

核心功能

  • 统一连接:提供统一的数据源连接接口
  • 多源支持:支持多种类型的数据源
  • 连接池管理:智能的数据库连接池管理
  • 安全认证:多种安全认证方式支持
  • 性能监控:实时监控数据源性能状态

支持类型

  • 关系型数据库:MySQL、PostgreSQL、SQL Server等
  • 大数据平台:StarRocks、ClickHouse、Hadoop等
  • 云数据仓库:Amazon Redshift、Snowflake、BigQuery等
  • NoSQL数据库:MongoDB、Redis、Elasticsearch等
  • 文件数据源:CSV、Excel、JSON、Parquet等
  • API数据源:REST API、GraphQL、WebSocket等

🔌 数据源类型

关系型数据库

MySQL

  • 连接参数:主机地址、端口、数据库名
  • 认证方式:用户名密码、SSL证书认证
  • 连接选项:字符集、时区、连接超时设置
  • 高级配置:连接池大小、查询超时、事务隔离级别

PostgreSQL

  • 连接配置:支持标准和SSL连接
  • 模式支持:多Schema支持和切换
  • 扩展功能:支持PostgreSQL特有功能
  • 版本兼容:支持多个PostgreSQL版本

SQL Server

  • 实例连接:支持默认和命名实例
  • Windows认证:支持Windows集成认证
  • 数据库选择:支持多数据库切换
  • 加密连接:支持TLS/SSL加密连接

大数据平台

StarRocks

  • 集群连接:FE节点和BE节点配置
  • 负载均衡:多FE节点的负载均衡
  • 分区感知:智能分区路由和查询优化
  • 流式导入:支持实时数据流式导入

ClickHouse

  • 集群配置:支持ClickHouse集群连接
  • 副本设置:读写分离和副本配置
  • 压缩选项:数据传输压缩设置
  • 批量写入:高效的批量数据写入

云数据仓库

Amazon Redshift

  • 集群信息:集群端点和端口配置
  • IAM认证:支持AWS IAM角色认证
  • SSL连接:强制SSL连接设置
  • 查询优化:Redshift特有的查询优化

Snowflake

  • 账户配置:Snowflake账户和区域设置
  • 仓库选择:虚拟仓库的选择和配置
  • 角色管理:Snowflake角色和权限配置
  • 缓存优化:结果缓存和查询优化

文件数据源

本地文件

  • 文件格式:支持CSV、Excel、JSON、XML等格式
  • 编码检测:自动检测文件编码格式
  • 分隔符配置:可配置的字段分隔符
  • 数据预览:文件内容预览和验证

云存储

  • AWS S3:支持S3存储桶文件访问
  • 阿里云OSS:支持OSS对象存储
  • 腾讯云COS:支持COS对象存储
  • Azure Blob:支持Azure Blob存储

⚙️ 连接配置

基本配置

  • 数据源名称:便于识别的数据源名称
  • 数据源类型:选择数据源类型
  • 连接地址:主机地址和端口号
  • 数据库名称:目标数据库名称
  • 描述信息:数据源的详细描述

认证配置

  • 用户名密码:传统的用户名密码认证
  • 集成认证:Windows集成认证
  • 密钥认证:SSH密钥或API密钥认证
  • OAuth认证:OAuth 2.0认证流程
  • 令牌认证:JWT或其他令牌认证

高级配置

  • 连接池设置:最大连接数、最小连接数
  • 超时设置:连接超时、查询超时时间
  • SSL配置:SSL证书和加密设置
  • 字符集设置:数据库字符集配置
  • 时区设置:时区转换和处理设置

🔐 安全管理

连接安全

  • SSL/TLS加密:启用数据传输加密
  • 证书验证:客户端和服务器证书验证
  • IP白名单:限制允许连接的IP地址
  • 端口限制:限制数据库访问端口
  • VPN连接:通过VPN安全连接

权限控制

  • 用户权限:数据库用户权限管理
  • 角色分配:数据源访问角色分配
  • 表级权限:细粒度的表级访问控制
  • 列级权限:敏感字段的访问控制
  • 时间限制:数据源访问时间限制

审计监控

  • 连接日志:详细的连接日志记录
  • 查询审计:所有查询操作的审计
  • 异常监控:异常连接和查询监控
  • 性能监控:连接性能和资源使用监控
  • 告警通知:异常情况的自动告警

📊 性能优化

连接优化

  • 连接池配置:优化连接池参数设置
  • 连接复用:智能连接复用机制
  • 负载均衡:多节点负载均衡
  • 故障转移:主备切换和故障转移
  • 心跳检测:连接健康状态检测

查询优化

  • 查询缓存:查询结果缓存机制
  • 预编译语句:SQL预编译优化
  • 批量操作:批量查询和数据操作
  • 分页查询:大数据集的分页处理
  • 并行查询:并行查询执行

数据传输优化

  • 压缩传输:数据压缩传输
  • 增量同步:增量数据同步机制
  • 流式处理:大数据流式处理
  • 分片传输:大文件分片传输
  • 断点续传:网络中断的断点续传

🔧 管理功能

数据源列表

显示所有已配置的数据源:

  • 数据源名称:显示数据源的友好名称
  • 类型:数据源类型图标和名称
  • 状态:连接状态(正常、异常、未测试)
  • 最后测试:最后连接测试时间
  • 创建者:数据源的创建人
  • 使用情况:数据源的使用频率

连接测试

  • 连接验证:验证数据源连接配置
  • 权限测试:测试数据库访问权限
  • 查询测试:执行简单查询测试
  • 性能测试:测试连接性能指标
  • 全面检查:综合连接健康检查

数据探索

  • Schema浏览:浏览数据库结构
  • 表列表:查看数据库表列表
  • 表结构:查看表结构和字段信息
  • 数据预览:预览表数据内容
  • 统计信息:表和字段的统计信息

📈 监控与维护

状态监控

  • 连接状态:实时连接状态监控
  • 性能指标:查询响应时间、吞吐量
  • 资源使用:CPU、内存、网络使用率
  • 错误统计:连接错误和查询错误统计
  • 可用性监控:数据源可用性监控

使用统计

  • 访问频率:数据源访问频率统计
  • 用户分布:使用数据源的用户分布
  • 查询分析:常见查询模式分析
  • 时间分布:使用时间分布分析
  • 热门表:最常访问的表统计

维护任务

  • 定期测试:自动定期连接测试
  • 配置备份:数据源配置备份
  • 版本更新:数据源驱动版本更新
  • 清理任务:清理过期连接和缓存
  • 健康检查:定期健康状态检查

💡 最佳实践

配置建议

  1. 合理命名:使用清晰明确的数据源名称
  2. 安全配置:启用SSL和访问控制
  3. 性能调优:合理设置连接池和超时参数
  4. 定期维护:定期检查和更新数据源配置

安全建议

  1. 最小权限:使用最小必要权限的数据库用户
  2. 密码安全:使用强密码和定期更换
  3. 网络安全:使用VPN或专线连接
  4. 审计监控:启用完整的审计和监控

性能建议

  1. 连接复用:合理配置连接池参数
  2. 查询优化:优化SQL查询性能
  3. 缓存策略:合理使用查询缓存
  4. 监控告警:设置性能监控和告警

重要提醒:数据源配置涉及敏感的连接信息,请确保配置的安全性。建议定期检查数据源的安全设置和访问日志,及时发现和处理安全风险。