Skip to content

数据集

数据集是OraAI平台中数据分析的基础,提供了统一的数据管理和访问接口。通过数据集功能,您可以轻松管理、配置和使用各种数据源中的数据。

📊 功能概述

数据集管理

  • 创建数据集:从各种数据源创建新的数据集
  • 编辑配置:修改数据集的配置和元数据
  • 版本控制:管理数据集的不同版本
  • 权限控制:设置数据集的访问权限

数据访问

  • SQL编辑器:使用SQL语句查询数据集
  • 预览功能:快速预览数据集内容
  • 下载导出:导出数据集到本地文件
  • API接口:通过API程序化访问数据

🗂️ 数据集类型

按数据源分类

  • 关系型数据库:MySQL、PostgreSQL、SQL Server等
  • 大数据平台:StarRocks、ClickHouse、Hadoop等
  • 云数据仓库:Amazon Redshift、Snowflake等
  • 文件数据源:CSV、Excel、JSON、Parquet等
  • API数据源:REST API、GraphQL等

按业务域分类

  • 销售数据:订单、销售业绩、客户信息
  • 财务数据:收入、成本、利润分析
  • 营销数据:推广活动、用户行为、转化率
  • 运营数据:库存、物流、供应链
  • 人力资源:员工信息、绩效考核、薪资

按数据特征分类

  • 实时数据:实时更新的流式数据
  • 批量数据:定期批量更新的数据
  • 历史数据:长期保存的历史记录
  • 主数据:企业核心主数据
  • 参考数据:字典表、配置数据

📋 数据集详情

基本信息

  • 数据集名称:数据集的唯一标识名称
  • 显示名称:用户友好的显示名称
  • 描述信息:数据集的详细描述和用途
  • 创建者:数据集的创建人信息
  • 创建时间:数据集的创建和更新时间
  • 数据源:数据集对应的数据源信息

元数据信息

  • 字段列表:数据集包含的所有字段
  • 字段类型:每个字段的数据类型
  • 字段描述:字段的业务含义说明
  • 主键信息:主键和唯一键设置
  • 索引信息:数据库索引配置
  • 约束条件:数据完整性约束

统计信息

  • 数据行数:数据集的总记录数
  • 数据大小:数据集占用的存储空间
  • 更新频率:数据的更新频率和周期
  • 使用统计:数据集的访问和使用统计
  • 查询性能:常见查询的性能指标

🔧 数据集操作

创建数据集

  1. 选择数据源:选择要连接的数据源
  2. 配置连接:设置数据库连接参数
  3. 选择表/文件:选择要创建数据集的表或文件
  4. 配置字段:设置字段映射和类型转换
  5. 设置权限:配置数据集的访问权限
  6. 保存发布:保存并发布数据集

SQL编辑器

  • 语法高亮:SQL语法高亮显示
  • 智能提示:字段名和函数的智能提示
  • 查询历史:保存和管理查询历史
  • 结果预览:实时预览查询结果
  • 性能分析:显示查询执行计划和性能
  • 导出功能:导出查询结果到文件

数据预览

  • 快速预览:快速查看数据集前几行
  • 分页浏览:分页浏览大型数据集
  • 字段过滤:按字段值过滤数据
  • 排序功能:按任意字段排序显示
  • 搜索功能:在数据中搜索特定内容

权限管理

  • 查看权限:控制谁可以查看数据集
  • 查询权限:控制谁可以查询数据
  • 下载权限:控制数据的下载导出
  • 管理权限:控制数据集的管理操作
  • 字段级权限:控制敏感字段的访问

📈 数据质量

质量检查

  • 完整性检查:检查数据的完整性
  • 一致性检查:检查数据的一致性
  • 准确性检查:验证数据的准确性
  • 唯一性检查:检查数据的唯一性约束
  • 格式检查:验证数据格式的正确性

质量报告

  • 质量评分:数据质量的综合评分
  • 问题统计:数据质量问题的统计分析
  • 趋势分析:数据质量的变化趋势
  • 改进建议:数据质量改进的建议
  • 监控告警:数据质量异常的告警

数据清洗

  • 重复数据处理:识别和处理重复记录
  • 缺失值处理:处理数据中的空值
  • 异常值检测:识别和处理异常数据
  • 格式标准化:统一数据格式标准
  • 数据转换:数据类型和格式转换

🔄 版本管理

版本控制

  • 版本创建:创建数据集的新版本
  • 版本比较:比较不同版本的差异
  • 版本回滚:回滚到历史版本
  • 版本标签:为版本添加标签和说明
  • 版本发布:发布稳定版本供使用

变更管理

  • 变更记录:记录所有数据集变更
  • 影响分析:分析变更对下游的影响
  • 变更审批:重要变更的审批流程
  • 变更通知:通知相关用户数据变更
  • 回滚计划:制定变更回滚计划

📊 使用统计

访问统计

  • 访问次数:数据集的访问频率统计
  • 用户分布:使用数据集的用户分布
  • 时间分布:访问时间的分布分析
  • 查询模式:常见的查询模式分析
  • 热门字段:最常用字段的统计

性能监控

  • 查询性能:查询响应时间统计
  • 系统负载:数据集对系统的负载影响
  • 存储使用:数据集的存储空间使用
  • 网络传输:数据传输量统计
  • 错误监控:查询错误和异常监控

🛠️ 高级功能

数据血缘

  • 上游依赖:数据集的上游数据依赖
  • 下游使用:数据集的下游使用情况
  • 影响分析:数据变更的影响范围分析
  • 依赖图谱:可视化的数据依赖关系

自动化

  • 定时刷新:设置数据集的定时刷新
  • 增量更新:配置数据的增量更新策略
  • 监控告警:数据异常的自动告警
  • 自动备份:数据集的自动备份机制

集成接口

  • REST API:提供标准的REST API接口
  • GraphQL:支持GraphQL查询接口
  • JDBC/ODBC:标准数据库连接接口
  • 数据导出:多种格式的数据导出功能

💡 最佳实践

数据集设计

  1. 合理命名:使用清晰明确的命名规范
  2. 完整描述:提供详细的数据集描述信息
  3. 字段文档:为每个字段提供业务含义说明
  4. 版本管理:建立完善的版本管理机制

性能优化

  1. 索引优化:为常用查询字段建立索引
  2. 分区策略:对大表使用合适的分区策略
  3. 缓存配置:配置合理的查询结果缓存
  4. 查询优化:编写高效的SQL查询语句

安全管理

  1. 权限最小化:遵循最小权限原则
  2. 敏感数据保护:对敏感字段进行特殊保护
  3. 访问审计:记录所有数据访问行为
  4. 定期审查:定期审查数据访问权限

注意:数据集的修改可能会影响依赖它的查询和报表。在进行重要变更前,请先在测试环境验证,并通知相关用户。