Tag Cloud (Word Cloud)

Tag Cloud (hay còn gọi là Word Cloud) là một biểu đồ hiển thị các từ có tần suất xuất hiện cao trong dữ liệu, với kích thước chữ tỷ lệ thuận với độ phổ biến của từ đó. Word Cloud được sử dụng trong phân tích logs, dữ liệu tìm kiếm, chatbot, hoặc phân tích nội dung người dùng.
Để tạo được Word Cloud, ta có thể sử dụng chức năng Tag Cloud Visualization của Kibana. Hoặc trong một số dự án cụ thể cần vẽ lên giao diện màn hình của người dùng, ta có thể sử dụng API của Elasticsearch để query lấy ra các từ phổ biến và kết hợp với các thư viện của front-end để vẽ lên Word Cloud layout (ví dụ như thư viện d3-cloud của Javascript)
Có 2 loại aggregations trong Elasticsearch được sử dụng để lấy các từ phổ biến cho Word Cloud, đó là Terms Aggregation và Significant Terms Aggregation
1. Terms Aggregation (Tìm các từ phổ biến nhất)
Mục đích: Lấy danh sách các từ hoặc thuật ngữ xuất hiện nhiều nhất trong dữ liệu.
Cách hoạt động: Đếm số lần một từ xuất hiện và trả về danh sách theo thứ tự giảm dần.
Khi nào dùng?
Khi bạn chỉ cần biết những từ xuất hiện nhiều nhất.
Ví dụ: Đếm số lần xuất hiện của các từ khóa trong log, tìm top sản phẩm được tìm kiếm nhiều nhất.
📌 Nhược điểm: Không phân biệt giữa từ phổ biến chung chung và từ đặc trưng của một tập dữ liệu cụ thể.
Ví dụ truy vấn:
GET products/_search
{
"size": 0,
"aggs": {
"popular_words": {
"terms": {
"field": "description",
"size": 10
}
}
}
}
2. Significant Terms Aggregation (Tìm các từ đặc trưng, có ý nghĩa)
Mục đích: Tìm các từ có tần suất xuất hiện đáng kể so với tổng thể dữ liệu.
Cách hoạt động: So sánh tần suất xuất hiện của một từ trong tập dữ liệu con so với toàn bộ dữ liệu, sử dụng chỉ số thống kê như Mutual Information hoặc Chi-square.
Khi nào dùng?
Khi bạn muốn tìm các từ mang tính đặc trưng (không chỉ là từ phổ biến).
Ví dụ:
Phân tích log lỗi để tìm các từ đặc biệt xuất hiện nhiều trong lỗi nghiêm trọng.
Tìm hiểu xu hướng mới trong các truy vấn tìm kiếm của người dùng.
📌 Ưu điểm: Phát hiện các từ khóa quan trọng hơn thay vì chỉ liệt kê từ phổ biến.
📌 Nhược điểm: Tốn tài nguyên hơn vì cần tính toán thống kê.Ví dụ truy vấn:
GET products/_search { "size": 0, "query": { "term": { "category": "clothing" } }, "aggs": { "significant_words": { "significant_terms": { "field": "description", "size": 10 } } } }
Các cách tạo Word Cloud
Chú ý: Để có thể sử dụng aggregation trên field có type text
, thì cần phải add thêm thuộc tính "fielddata": true
(Ngoải ra có thể sử dụng subfield dạng keyword, sẽ nói sau)
PUT products/_mapping
{
"properties": {
"description": {
"type": "text",
"fielddata": true
}
}
}
1. Tạo Word Cloud bằng Kibana
Visualize Library → Create new visualization → Aggregation based → Tag Cloud
Chọn source (index cần aggregate) và đi tới màn hình tạo visualization
Nếu sử dụng Terms Aggregation thì ta sẽ có một Word Cloud như sau
Tại đây, nếu sử dụng Signifcation Terms Aggregation thì sẽ cần add thêm filter để lọc chỉ phân tích một tập con dữ liệu
Trong
Field
, chọn trường chứa văn bản (ví dụ:message
,text
,logs
).Trong
Size
, chọn số lượng từ khóa hiển thị (ví dụ:50
).Thay đổi
Order
: ChọnCount
để hiển thị từ có tần suất cao nhất.Sử dụng
Exclude
hoặcInclude
: Để loại bỏ các từ vô nghĩa như "the", "and", "is".
2. Tạo Word Cloud bằng source code
Với truy vấn terms aggregation
GET products/_search
{
"size": 0,
"aggs": {
"popular_words": {
"terms": {
"field": "description",
"size": 10
}
}
}
}
-------------------------------------------------------------------------------------------------
{
"took": 6,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"skipped": 0,
"failed": 0
},
"hits": {
"total": {
"value": 1000,
"relation": "eq"
},
"max_score": null,
"hits": []
},
"aggregations": {
"popular_words": {
"doc_count_error_upper_bound": 0,
"sum_other_doc_count": 21523,
"buckets": [
{
"key": "dream",
"doc_count": 39
},
{
"key": "market",
"doc_count": 38
},
{
"key": "care",
"doc_count": 37
},
{
"key": "idea",
"doc_count": 37
},
{
"key": "allow",
"doc_count": 36
},
{
"key": "away",
"doc_count": 36
},
{
"key": "deal",
"doc_count": 36
},
{
"key": "per",
"doc_count": 36
},
{
"key": "establish",
"doc_count": 35
},
{
"key": "tonight",
"doc_count": 35
}
]
}
}
}
API trả ra ta lấy 10 buckets để vẽ Word Cloud, sử dụng thư viện d3-cloud của JS
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Word Cloud</title>
<script src="https://d3js.org/d3.v6.min.js"></script>
<script src="https://unpkg.com/d3-cloud/build/d3.layout.cloud.js"></script>
<style>
body { font-family: Arial, sans-serif; text-align: center; }
svg { width: 100%; height: 500px; }
</style>
</head>
<body>
<h2>Word Cloud with D3.js</h2>
<svg></svg>
<script>
const words = [
{ text: "dream", size: 39 },
{ text: "market", size: 38 },
{ text: "care", size: 37 },
{ text: "idea", size: 37 },
{ text: "allow", size: 36 },
{ text: "away", size: 36 },
{ text: "deal", size: 36 },
{ text: "per", size: 36 },
{ text: "establish", size: 35 },
{ text: "tonight", size: 35 }
];
const width = 600;
const height = 400;
const maxSize = d3.max(words, d => d.size);
const minSize = d3.min(words, d => d.size);
const sizeScale = d3.scaleLinear().domain([minSize, maxSize]).range([20, 80]);
const layout = d3.layout.cloud()
.size([width, height])
.words(words.map(d => ({ ...d, size: sizeScale(d.size) })))
.padding(5)
.rotate(0) // Không xoay chữ
.fontSize(d => d.size)
.on("end", draw);
layout.start();
function draw(words) {
d3.select("svg")
.attr("width", width)
.attr("height", height)
.append("g")
.attr("transform", `translate(${width / 2}, ${height / 2})`)
.selectAll("text")
.data(words)
.enter().append("text")
.style("font-size", d => `${d.size}px`)
.style("fill", () => d3.schemeCategory10[Math.floor(Math.random() * 10)])
.attr("text-anchor", "middle")
.attr("transform", d => `translate(${d.x}, ${d.y})`)
.text(d => d.text);
}
</script>
</body>
</html>
Tương tự với Signification terms aggregation
GET products/_search
{
"size": 0,
"query": {
"term": { "category": "clothing" }
},
"aggs": {
"significant_words": {
"significant_terms": {
"field": "description",
"size": 10
}
}
}
}
-------------------------------------------------------------------------------------------------
{
"took": 2,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"skipped": 0,
"failed": 0
},
"hits": {
"total": {
"value": 188,
"relation": "eq"
},
"max_score": null,
"hits": []
},
"aggregations": {
"significant_words": {
"doc_count": 188,
"bg_count": 1000,
"buckets": [
{
"key": "performance",
"doc_count": 12,
"score": 0.15060398846822803,
"bg_count": 19
},
{
"key": "customer",
"doc_count": 12,
"score": 0.07197827071072883,
"bg_count": 30
},
{
"key": "development",
"doc_count": 9,
"score": 0.06671570846536894,
"bg_count": 20
},
{
"key": "case",
"doc_count": 10,
"score": 0.06469744982646748,
"bg_count": 24
},
{
"key": "beat",
"doc_count": 12,
"score": 0.05963208362484051,
"bg_count": 33
},
{
"key": "father",
"doc_count": 11,
"score": 0.059540906323660256,
"bg_count": 29
},
{
"key": "also",
"doc_count": 8,
"score": 0.05804536995120971,
"bg_count": 18
},
{
"key": "market",
"doc_count": 13,
"score": 0.056681994710633544,
"bg_count": 38
},
{
"key": "exist",
"doc_count": 10,
"score": 0.05562906988891598,
"bg_count": 26
},
{
"key": "tv",
"doc_count": 9,
"score": 0.0517694412187297,
"bg_count": 23
}
]
}
}
}
Nếu muốn vẽ Word Cloud theo score
thì ta sẽ được hình như sau:
Nếu muốn vẽ Word Cloud theo doc_count
thì ta sẽ được hình như sau:
Kết luận
Có 2 cách aggregate để tạo Tag Cloud (Word Cloud) là sử dụng Terms Aggregation hoặc Signification Terms Aggregation
Visualize Tag Cloud có thể sử dụng trực tiếp Kibana hoặc tùy chỉnh câu query và aggregate để được các words mong muốn theo điều kiện nghiệp vụ và hiển thị thông qua các thư viện front-end.
Đối với Terms Aggregation → Vẽ Word Cloud dựa theo
doc_count
Đối với Signification Terms Aggregation → Vẽ Word Cloud dựa theo
doc_count
hoặcscore
Subscribe to my newsletter
Read articles from littlenotes directly inside your inbox. Subscribe to the newsletter, and don't miss out.
Written by
