ETL (Extract - Transform - Load) và ELT (Extract - Load - Transform)

1. ETL (Extract - Transform - Load)

ETL là viết tắt của 3 bước trong quy trình xử lý dữ liệu:

  • Extract: Thu thập dữ liệu từ nhiều nguồn khác nhau (cơ sở dữ liệu, API, file, web,…).

  • Transform: Làm sạch, chuẩn hóa, tính toán, thay đổi định dạng dữ liệu.

  • Load: Nạp dữ liệu đã xử lý vào hệ thống lưu trữ chính (Data Warehouse)

2. ELT (Extract - Load - Transform)

ELT là viết tắt của 3 bước trong quy trình xử lý dữ liệu:

  • Extract: Thu thập dữ liệu từ nhiều nguồn khác nhau (cơ sở dữ liệu, API, file, web,…).

  • Load: Nạp dữ liệu thô vào Data Warehouse hoặc Data Lake (cloud)

  • Transform: Dùng các công cụ/SQL để xử lý trực tiếp dữ liệu trên hệ thống lưu trữ

3. So sánh

ETLELT
Trình tựTrích xuất - Xử lý - NạpTrích xuất - Nạp - Xử lý
Xử lý dữ liệuTrên server trung gianTrực tiếp trong hệ thống lưu trữ (Data Warehouse, Data Lake)
Lưu dữ liệu thôKhông lưu — chỉ lưu dữ liệu đã xử lýCó lưu dữ liệu thô
Phù hợp kiểu dữ liệuTruyền thống, vừa và nhỏHiện đại, cloud, dữ liệu lớn (Big Data)
Thời gian xử lýChậm nếu là dữ liệu lớnNhanh hơn do xử lý trực tiếp trên nền tảng mạnh

4. Tổng quát

ETL (Extract - Trasform - Load) trích xuất dữ liệu từ nguồn, biến đổi (làm sạch, chuẩn hóa) trên server trung gian rồi nạp vào kho dữ liệu, còn ELT (Extract - Load - Trasform) trích xuất rồi nạp toàn bộ dữ liệu thô lên kho (thường là cloud Data Warehouse/Data Lake) và thực hiện biến đổi ngay tại đó để tận dụng sức mạnh tính toán và lưu trữ của nền tảng.

0
Subscribe to my newsletter

Read articles from Duong Thi Kim Ngan directly inside your inbox. Subscribe to the newsletter, and don't miss out.

Written by

Duong Thi Kim Ngan
Duong Thi Kim Ngan