Appearance
数据集
数据集是OraAI平台中数据分析的基础,提供了统一的数据管理和访问接口。通过数据集功能,您可以轻松管理、配置和使用各种数据源中的数据。
📊 功能概述
数据集管理
- 创建数据集:从各种数据源创建新的数据集
- 编辑配置:修改数据集的配置和元数据
- 版本控制:管理数据集的不同版本
- 权限控制:设置数据集的访问权限
数据访问
- SQL编辑器:使用SQL语句查询数据集
- 预览功能:快速预览数据集内容
- 下载导出:导出数据集到本地文件
- API接口:通过API程序化访问数据
🗂️ 数据集类型
按数据源分类
- 关系型数据库:MySQL、PostgreSQL、SQL Server等
- 大数据平台:StarRocks、ClickHouse、Hadoop等
- 云数据仓库:Amazon Redshift、Snowflake等
- 文件数据源:CSV、Excel、JSON、Parquet等
- API数据源:REST API、GraphQL等
按业务域分类
- 销售数据:订单、销售业绩、客户信息
- 财务数据:收入、成本、利润分析
- 营销数据:推广活动、用户行为、转化率
- 运营数据:库存、物流、供应链
- 人力资源:员工信息、绩效考核、薪资
按数据特征分类
- 实时数据:实时更新的流式数据
- 批量数据:定期批量更新的数据
- 历史数据:长期保存的历史记录
- 主数据:企业核心主数据
- 参考数据:字典表、配置数据
📋 数据集详情
基本信息
- 数据集名称:数据集的唯一标识名称
- 显示名称:用户友好的显示名称
- 描述信息:数据集的详细描述和用途
- 创建者:数据集的创建人信息
- 创建时间:数据集的创建和更新时间
- 数据源:数据集对应的数据源信息
元数据信息
- 字段列表:数据集包含的所有字段
- 字段类型:每个字段的数据类型
- 字段描述:字段的业务含义说明
- 主键信息:主键和唯一键设置
- 索引信息:数据库索引配置
- 约束条件:数据完整性约束
统计信息
- 数据行数:数据集的总记录数
- 数据大小:数据集占用的存储空间
- 更新频率:数据的更新频率和周期
- 使用统计:数据集的访问和使用统计
- 查询性能:常见查询的性能指标
🔧 数据集操作
创建数据集
- 选择数据源:选择要连接的数据源
- 配置连接:设置数据库连接参数
- 选择表/文件:选择要创建数据集的表或文件
- 配置字段:设置字段映射和类型转换
- 设置权限:配置数据集的访问权限
- 保存发布:保存并发布数据集
SQL编辑器
- 语法高亮:SQL语法高亮显示
- 智能提示:字段名和函数的智能提示
- 查询历史:保存和管理查询历史
- 结果预览:实时预览查询结果
- 性能分析:显示查询执行计划和性能
- 导出功能:导出查询结果到文件
数据预览
- 快速预览:快速查看数据集前几行
- 分页浏览:分页浏览大型数据集
- 字段过滤:按字段值过滤数据
- 排序功能:按任意字段排序显示
- 搜索功能:在数据中搜索特定内容
权限管理
- 查看权限:控制谁可以查看数据集
- 查询权限:控制谁可以查询数据
- 下载权限:控制数据的下载导出
- 管理权限:控制数据集的管理操作
- 字段级权限:控制敏感字段的访问
📈 数据质量
质量检查
- 完整性检查:检查数据的完整性
- 一致性检查:检查数据的一致性
- 准确性检查:验证数据的准确性
- 唯一性检查:检查数据的唯一性约束
- 格式检查:验证数据格式的正确性
质量报告
- 质量评分:数据质量的综合评分
- 问题统计:数据质量问题的统计分析
- 趋势分析:数据质量的变化趋势
- 改进建议:数据质量改进的建议
- 监控告警:数据质量异常的告警
数据清洗
- 重复数据处理:识别和处理重复记录
- 缺失值处理:处理数据中的空值
- 异常值检测:识别和处理异常数据
- 格式标准化:统一数据格式标准
- 数据转换:数据类型和格式转换
🔄 版本管理
版本控制
- 版本创建:创建数据集的新版本
- 版本比较:比较不同版本的差异
- 版本回滚:回滚到历史版本
- 版本标签:为版本添加标签和说明
- 版本发布:发布稳定版本供使用
变更管理
- 变更记录:记录所有数据集变更
- 影响分析:分析变更对下游的影响
- 变更审批:重要变更的审批流程
- 变更通知:通知相关用户数据变更
- 回滚计划:制定变更回滚计划
📊 使用统计
访问统计
- 访问次数:数据集的访问频率统计
- 用户分布:使用数据集的用户分布
- 时间分布:访问时间的分布分析
- 查询模式:常见的查询模式分析
- 热门字段:最常用字段的统计
性能监控
- 查询性能:查询响应时间统计
- 系统负载:数据集对系统的负载影响
- 存储使用:数据集的存储空间使用
- 网络传输:数据传输量统计
- 错误监控:查询错误和异常监控
🛠️ 高级功能
数据血缘
- 上游依赖:数据集的上游数据依赖
- 下游使用:数据集的下游使用情况
- 影响分析:数据变更的影响范围分析
- 依赖图谱:可视化的数据依赖关系
自动化
- 定时刷新:设置数据集的定时刷新
- 增量更新:配置数据的增量更新策略
- 监控告警:数据异常的自动告警
- 自动备份:数据集的自动备份机制
集成接口
- REST API:提供标准的REST API接口
- GraphQL:支持GraphQL查询接口
- JDBC/ODBC:标准数据库连接接口
- 数据导出:多种格式的数据导出功能
💡 最佳实践
数据集设计
- 合理命名:使用清晰明确的命名规范
- 完整描述:提供详细的数据集描述信息
- 字段文档:为每个字段提供业务含义说明
- 版本管理:建立完善的版本管理机制
性能优化
- 索引优化:为常用查询字段建立索引
- 分区策略:对大表使用合适的分区策略
- 缓存配置:配置合理的查询结果缓存
- 查询优化:编写高效的SQL查询语句
安全管理
- 权限最小化:遵循最小权限原则
- 敏感数据保护:对敏感字段进行特殊保护
- 访问审计:记录所有数据访问行为
- 定期审查:定期审查数据访问权限
注意:数据集的修改可能会影响依赖它的查询和报表。在进行重要变更前,请先在测试环境验证,并通知相关用户。