ETL (Extract - Transform - Load) và ELT (Extract - Load - Transform)


1. ETL (Extract - Transform - Load)
ETL là viết tắt của 3 bước trong quy trình xử lý dữ liệu:
Extract: Thu thập dữ liệu từ nhiều nguồn khác nhau (cơ sở dữ liệu, API, file, web,…).
Transform: Làm sạch, chuẩn hóa, tính toán, thay đổi định dạng dữ liệu.
Load: Nạp dữ liệu đã xử lý vào hệ thống lưu trữ chính (Data Warehouse)
2. ELT (Extract - Load - Transform)
ELT là viết tắt của 3 bước trong quy trình xử lý dữ liệu:
Extract: Thu thập dữ liệu từ nhiều nguồn khác nhau (cơ sở dữ liệu, API, file, web,…).
Load: Nạp dữ liệu thô vào Data Warehouse hoặc Data Lake (cloud)
Transform: Dùng các công cụ/SQL để xử lý trực tiếp dữ liệu trên hệ thống lưu trữ
3. So sánh
ETL | ELT | |
Trình tự | Trích xuất - Xử lý - Nạp | Trích xuất - Nạp - Xử lý |
Xử lý dữ liệu | Trên server trung gian | Trực tiếp trong hệ thống lưu trữ (Data Warehouse, Data Lake) |
Lưu dữ liệu thô | Không lưu — chỉ lưu dữ liệu đã xử lý | Có lưu dữ liệu thô |
Phù hợp kiểu dữ liệu | Truyền thống, vừa và nhỏ | Hiện đại, cloud, dữ liệu lớn (Big Data) |
Thời gian xử lý | Chậm nếu là dữ liệu lớn | Nhanh hơn do xử lý trực tiếp trên nền tảng mạnh |
4. Tổng quát
ETL (Extract - Trasform - Load) trích xuất dữ liệu từ nguồn, biến đổi (làm sạch, chuẩn hóa) trên server trung gian rồi nạp vào kho dữ liệu, còn ELT (Extract - Load - Trasform) trích xuất rồi nạp toàn bộ dữ liệu thô lên kho (thường là cloud Data Warehouse/Data Lake) và thực hiện biến đổi ngay tại đó để tận dụng sức mạnh tính toán và lưu trữ của nền tảng.
Subscribe to my newsletter
Read articles from Duong Thi Kim Ngan directly inside your inbox. Subscribe to the newsletter, and don't miss out.
Written by