Khám Phá Mạng Nơ-ron Nhân Tạo

Mạng nơ-ron nhân tạo (Neural Network) là nền tảng cốt lõi của Deep Learning – một lĩnh vực quan trọng trong Trí tuệ nhân tạo (AI). Lấy cảm hứng từ hoạt động của não bộ con người, mạng nơ-ron giúp máy tính học hỏi từ dữ liệu, suy luận và đưa ra dự đoán.

Bài viết này sẽ cung cấp một cái nhìn tổng quan, dễ hiểu về những thành phần cơ bản của mạng nơ-ron: từ một nơ-ron đơn lẻ, các lớp (layer), đến cách huấn luyện toàn bộ mạng.

1. Nơ-ron: Sự kết hợp giữa hàm tuyến tính và phi tuyến

Hàm tuyến tính là gì?

Về cơ bản, hàm tuyến tính (linear function) là một hàm mô tả mối quan hệ bậc nhất giữa đầu vào và đầu ra. Với một đầu vào duy nhất, ta có:

$$y = ax + b$$

Khi có nhiều đầu vào, ta có:

$$y = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + w_0$$

Để biểu diễn ngắn gọn hơn, ta đưa thêm một biến giả định x₀ = 1, lúc đó:

$$y = \sum_{i=0}^{n} w_i x_i$$

Trong đó, w_i được gọi là trọng số (weight) – thể hiện mức độ ảnh hưởng của mỗi input đến output.

Hàm phi tuyến là gì?

Hàm phi tuyến mô tả mối quan hệ phức tạp hơn, ví dụ như bậc hai, bậc ba, hoặc dạng hàm mũ. Trong AI, những hàm này được dùng để "kích hoạt" đầu ra của một nơ-ron, gọi là hàm kích hoạt (activation function). Một vài hàm kích hoạt ví dụ phổ biến:

Sigmoid:

$$\sigma(x) = \frac{1}{1 + e^{-x}}$$
ReLU:

$$f(x) = \max(0, x)$$
Tanh:

$$\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$$

Kết Hợp Thành Nơ-ron

Một nơ-ron sẽ nhận các giá trị đầu vào, kết hợp với trọng số qua một hàm tuyến tính, sau đó đưa kết quả qua hàm kích hoạt:

$$y = \sigma \left( \sum_{i=0}^{n} w_i x_i \right)$$

Trong đó ϕ là một hàm phi tuyến. Đây chính là công thức tổng quát của một nơ-ron.

2. Layer: Lớp các nơ-ron

Khi nhiều nơ-ron hoạt động song song, cùng nhận một bộ input nhưng với trọng số khác nhau, ta có một layer. Mỗi nơ-ron trong layer này sẽ đưa ra một output riêng. Các layer được chia thành:

Input Layer: nhận dữ liệu đầu vào (ví dụ: pixel ảnh).
Hidden Layer: thực hiện các phép tính toán để trích xuất đặc trưng.
Output Layer: tạo ra kết quả dự đoán cuối cùng (ví dụ: xác suất thuộc các lớp).

3. Mạng nơ-ron: Neural Network

Một mạng nơ-ron nhân tạo (Artificial Neural Network) là một hệ thống gồm nhiều layer được xếp nối tiếp nhau. Đầu ra của layer này là đầu vào của layer kế tiếp. Cấu trúc nhiều lớp giúp mô hình học được cả đặc trưng đơn giản và phức tạp.

Ví dụ trong bài toán nhận diện khuôn mặt:

Layer đầu: học đặc trưng đơn giản như đường viền, góc cạnh.
Layer giữa: học hình dạng mắt, mũi, miệng.
Layer sâu: học được khái niệm trừu tượng như “khuôn mặt người”.

4. Huấn luyện mạng: Cập nhật trọng số

Quá trình huấn luyện (training) là việc điều chỉnh lại các trọng số w_i sao cho dự đoán của mô hình ngày càng chính xác hơn. Quá trình này bao gồm:

Tính toán sai số: giữa đầu ra dự đoán và giá trị thực (gọi là loss).
Lan truyền ngược (Backpropagation): sai số để tính ảnh hưởng của từng trọng số.
Cập nhật trọng: số bằng một thuật toán tối ưu (như Gradient Descent).

Giải thích Cơ Bản về Mạng Nơ-ron Nhân Tạo

Table of contents