Game Theory

Table of contents
Giới thiệu về Lý thuyết trò chơi (Game Theory):
Lý thuyết trò chơi là một lĩnh vực liên ngành nghiên cứu các mô hình toán học về tương tác chiến lược giữa các cá nhân hoặc tập thể. Ban đầu phát triển trong toán học và kinh tế học, lý thuyết trò chơi ngày nay đã mở rộng ứng dụng sang nhiều lĩnh vực như sinh học, chính trị, khoa học máy tính, và xã hội học. Mục tiêu chính của bộ môn này là phân tích cách các “người chơi” đưa ra quyết định tối ưu trong môi trường mà kết quả của họ phụ thuộc không chỉ vào lựa chọn của bản thân mà còn vào lựa chọn của những người khác.
Các khái niệm cơ bản:
Lý thuyết trò chơi dựa trên một số khái niệm then chốt, giúp xác định cấu trúc và cách phân tích một trò chơi:
Người chơi (Players): Đây là các cá nhân, nhóm, hay tổ chức tham gia trò chơi, mỗi người đều có mục tiêu riêng.
Chiến lược (Strategies): Là tập hợp các hành động mà mỗi người chơi có thể lựa chọn trong suốt trò chơi.
Kết quả (Outcomes): Kết quả cuối cùng của trò chơi, phụ thuộc vào quyết định của tất cả người chơi.
Phần thưởng (Payoff): Lợi ích mà mỗi người chơi nhận được từ một kết quả nhất định.
Thông tin (Information): Mức độ biết trước về các hành động hoặc chiến lược của những người chơi khác.
Phân loại trò chơi:
Lý thuyết trò chơi phân biệt nhiều loại trò chơi dựa trên các yếu tố về thông tin, số lượng người chơi, và đặc điểm tương tác:
Trò chơi hợp tác và không hợp tác: Trong trò chơi hợp tác, người chơi có thể thương lượng và hình thành liên minh. Trong trò chơi không hợp tác, mỗi người chơi hành động độc lập.
Trò chơi tổng bằng không và tổng khác không: Trò chơi tổng bằng không là khi lợi ích của người này tương ứng với thiệt hại của người khác, $$\sum_{i=1}^n \text{Payoff}_i = 0$$. Tổng khác không là khi tổng lợi ích hoặc thiệt hại không nhất thiết bằng không.
Trò chơi tĩnh và động: Trò chơi tĩnh là các quyết định được thực hiện đồng thời, trong khi trò chơi động diễn ra theo chuỗi thời gian, cho phép người chơi phản ứng với các hành động trước đó.
Trò chơi thông tin hoàn chỉnh và không hoàn chỉnh: Ở trò chơi thông tin hoàn chỉnh, mọi người chơi đều biết toàn bộ cấu trúc trò chơi. Ngược lại, trong trò chơi thông tin không hoàn chỉnh, một số thông tin bị che giấu hoặc không chắc chắn.
Cân bằng Nash:
Một trong những khái niệm quan trọng nhất của lý thuyết trò chơi là cân bằng Nash, đặt theo tên nhà toán học John Nash. Đây là trạng thái mà không người chơi nào có thể cải thiện phần thưởng của mình bằng cách đơn phương thay đổi chiến lược, với điều kiện các người chơi khác giữ nguyên chiến lược:
$$s_i^* \in S_i \text{ sao cho } u_i(s_i^, s_{-i}^) \geq u_i(s_i, s_{-i}^*) \quad \forall s_i \in S_i, \forall i$$
Trong đó, $s_i^$ là chiến lược tối ưu của người chơi $i$, $s_{-i}^$ là chiến lược của tất cả những người chơi còn lại, và $u_i$ là hàm phần thưởng của người chơi $i$.
Ứng dụng thực tiễn của lý thuyết trò chơi:
Lý thuyết trò chơi có rất nhiều ứng dụng thực tiễn trong đời sống và khoa học:
Kinh tế học: Sử dụng để mô hình hóa cạnh tranh, đấu giá, thương lượng, định giá sản phẩm, và các quyết định đầu tư.
Chính trị: Phân tích chiến lược tranh cử, ngoại giao, và các xung đột quốc tế.
Sinh học tiến hóa: Giải thích sự phát triển của các hành vi hợp tác hoặc cạnh tranh giữa các loài.
Tin học: Thiết kế thuật toán, bảo mật mạng, và phát triển trí tuệ nhân tạo.
Xã hội học: Nghiên cứu các hiện tượng như hợp tác, lòng tin, và sự tuân thủ trong cộng đồng.
Một số ví dụ kinh điển:
Thế tiến thoái lưỡng nan của tù nhân (Prisoner's Dilemma): Hai nghi phạm bị bắt và đối diện với lựa chọn: hợp tác với nhau hoặc phản bội. Kết quả tối ưu nhất cho cả hai là hợp tác, nhưng do thiếu lòng tin, họ thường chọn phản bội, dẫn đến kết quả kém hơn.
Trò chơi con gà (Chicken Game): Mô phỏng các tình huống đối đầu, nơi hai bên đều muốn tránh nhượng bộ nhưng kết quả tồi tệ nhất xảy ra nếu cả hai đều cứng đầu.
Trò chơi phối hợp (Coordination Game): Hai hay nhiều người chơi cần phối hợp để đạt được lợi ích cao nhất, ví dụ như quyết định bên nào sẽ lái bên phải hay bên trái đường.
Kết luận:
Lý thuyết trò chơi là một công cụ mạnh mẽ để phân tích và dự đoán hành vi chiến lược trong nhiều lĩnh vực khác nhau. Bằng cách xây dựng các mô hình toán học về tương tác giữa các chủ thể, lý thuyết này không chỉ giúp hiểu rõ hơn về động lực quyết định mà còn cung cấp nền tảng để thiết kế các chính sách, chiến lược tối ưu trong thực tế. Việc tiếp tục nghiên cứu và phát triển lý thuyết trò chơi hứa hẹn mang lại nhiều đóng góp quan trọng cho khoa học và xã hội hiện đại.
Thế tiến thoái lưỡng nan của tù nhân (Prisoner's Dilemma):
Thế tiến thoái lưỡng nan của tù nhân là một trong những mô hình nổi tiếng nhất trong lý thuyết trò chơi, minh họa cho tình huống hai cá nhân phải quyết định giữa việc hợp tác hoặc phản bội nhau, trong bối cảnh mỗi người đều muốn tối đa hóa lợi ích của bản thân. Mặc dù hợp tác sẽ mang lại kết quả tốt nhất cho cả hai, nhưng lo sợ bị đối phương phản bội thường khiến cả hai chọn phản bội, dẫn đến kết quả kém hơn cho cả hai.
Mô tả chi tiết:
Giả sử có hai nghi phạm bị bắt vì một tội danh. Họ được hỏi riêng biệt và không thể liên lạc với nhau. Mỗi người có hai lựa chọn: im lặng (cooperate/hợp tác với nhau) hoặc khai ra (defect/phản bội đối phương). Các lựa chọn này tạo thành bảng thưởng (payoff matrix) như sau:
Tù nhân B im lặng | Tù nhân B khai ra | |
Tù nhân A im lặng | (R, R) | (S, T) |
Tù nhân A khai ra | (T, S) | (P, P) |
Trong đó:
R (Reward): Phần thưởng cho cả hai khi cùng im lặng (hợp tác).
T (Temptation): Sự cám dỗ dành cho người phản bội khi đối phương im lặng.
S (Sucker): Giá trị cho người hợp tác khi bị phản bội.
P (Punishment): Hình phạt cho cả hai khi đều phản bội.
Các điều kiện của thế tiến thoái lưỡng nan: $$ T > R > P > S $$ Và để duy trì tính lặp lại của trò chơi (Iterated Prisoner's Dilemma): $$ 2R > T + S $$
Công thức bảng thưởng điển hình:
Một ví dụ với các giá trị cụ thể:
Nếu cả hai cùng im lặng: mỗi người bị 1 năm tù (R = -1)
Nếu một người khai, một người im lặng: người khai được thả tự do (T = 0), người im lặng bị 3 năm tù (S = -3)
Nếu cả hai cùng khai: mỗi người bị 2 năm tù (P = -2)
Bảng thưởng:
B im lặng | B khai ra | |
A im lặng | (-1, -1) | (-3, 0) |
A khai ra | (0, -3) | (-2, -2) |
Ứng dụng trong tâm lý học:
Thế tiến thoái lưỡng nan của tù nhân được sử dụng rộng rãi trong tâm lý học để nghiên cứu các chủ đề như:
Niềm tin và sự hợp tác: Mô hình này giải thích vì sao trong đời sống thực, con người thường gặp khó khăn khi hợp tác, dù biết rằng sự hợp tác sẽ mang lại lợi ích lớn hơn.
Xung đột nội tâm: Nó còn được sử dụng để phân tích những mâu thuẫn giữa lợi ích cá nhân và lợi ích tập thể, hiện tượng thường thấy trong các nhóm xã hội, tổ chức, hoặc thậm chí trong quyết định của từng cá nhân.
Tâm lý trừng phạt và tha thứ: Các biến thể lặp lại (Iterated Prisoner's Dilemma) cho phép nghiên cứu hành vi trừng phạt, tha thứ, xây dựng lòng tin và phát triển các chiến lược như “ăn miếng trả miếng” (tit-for-tat).
Học tập xã hội: Trò chơi này được dùng để kiểm tra cách con người học hỏi, thích nghi và lựa chọn chiến lược trong môi trường xã hội phức tạp.
Các biến thể của Prisoner's Dilemma:
Có nhiều biến thể của thế tiến thoái lưỡng nan này, mỗi biến thể lại mở rộng hoặc điều chỉnh các yếu tố để phù hợp với ứng dụng nghiên cứu cụ thể:
Iterated Prisoner's Dilemma (Trò chơi lặp lại): Thay vì chỉ chơi một lần, trò chơi được lặp lại nhiều vòng. Điều này cho phép các chiến lược phức tạp hơn xuất hiện, như hợp tác lâu dài, trừng phạt hoặc tha thứ.
N-person Prisoner's Dilemma (N người): Mô phỏng các tình huống hợp tác hoặc phản bội trong nhóm lớn, điển hình như vấn đề “kẻ ăn bám” (free rider problem) trong xã hội.
Asymmetric Prisoner's Dilemma (Bất đối xứng): Các phần thưởng (payoff) không giống nhau cho từng người chơi.
Stag Hunt (Săn nai): Một biến thể nhấn mạnh yếu tố phối hợp thay vì xung đột trực tiếp giữa hợp tác và phản bội.
Public Goods Game (Trò chơi hàng hóa công cộng): Mở rộng cho nhiều người, mô phỏng tình huống cùng đóng góp vào lợi ích chung.
Công thức tổng quát của Prisoner's Dilemma:
Để tổng quát hóa, với hai người chơi A và B, mỗi người có hai lựa chọn: hợp tác (C) hoặc phản bội (D). Bảng thưởng là:
B: C | B: D | |
A: C | (R, R) | (S, T) |
A: D | (T, S) | (P, P) |
Với điều kiện:
$$T > R > P > S$$
$$2R > T + S$$
(đảm bảo hợp tác lặp lại có lợi hơn luân phiên phản bội-hợp tác)
Kết luận:
Thế tiến thoái lưỡng nan của tù nhân không chỉ là một công cụ quan trọng trong lý thuyết trò chơi mà còn là một mô hình nền tảng cho việc nghiên cứu tâm lý học xã hội, hành vi hợp tác, và xung đột lợi ích. Các biến thể và mở rộng của nó giúp các nhà nghiên cứu hiểu sâu hơn về sự phức tạp trong quyết định của con người, từ đó ứng dụng vào thực tiễn quản lý, giáo dục, xây dựng cộng đồng và phát triển các chiến lược tương tác xã hội.
Subscribe to my newsletter
Read articles from Cường Đoàn Ngọc directly inside your inbox. Subscribe to the newsletter, and don't miss out.
Written by

Cường Đoàn Ngọc
Cường Đoàn Ngọc
Name: Cường Educational Background: Data Science and Artificial Intelligence Current Role: AI Engineering at an AI Production company, specializing in Education AI Career Interests: Natural Language Processing (NLP), Large Language Models (LLMs), Retrieval-Augmented Generation (RAG), Workflow Systems, and AI Agents Personal Interests: Lifelong learning, personal development, speed-hacking (accelerated learning/productivity), and networking