ETL概念
ETL:E抽取 T 转换 L装载,主要实现异构数据源数据集成,集成后的数据都将被置入数据库的数据表或数据仓库的维度表中。适用于小数据量集。
根据转换和装载的顺序不同可以分为ETL和ELT
ELT使用于大数据量集但需注意安全管控防止出现数据泄露
数据湖(DL)是一个数据存储库
对每一个数据元素分配一个唯一标识符并通过元素数据进行标注
数据仓库(DW):主要分为1、企业数据仓库 2、操作数据存储3、数据集市
企业数据仓库(EDW):提供对跨组织信息的访问,一种数据表示的集成方法并且可以运行复杂的查询
操作数据存储(ODS):实时刷新并用于运行例行任务
数据集市:是数据仓库的子集。
ETL流程:抽取→清洗→转换→加载 数据从源端同步然后在缓冲区进行转换标准化处理最后入库
ELT处理流程则是从源系统同步数据直接入仓
数据清洗工作:
数据清洗如果数据来源是功能较为强大的数据库管理系统(DBMS)则可以使用SQL语句先进行一部分清洗但若数据来源是外部文件则需要直接从数据源中抽取在数据转换的时候进行数据清洗的工作,不能使用SQL语句。
精彩文章
发表评论