Blog posts

2025

Reinforcement learning 5 - Trust Region Policy Optimization

5 minute read

Published:

Trust Region Policy Optimization (TRPO) tối ưu chính sách một cách ổn định bằng cách giới hạn bước cập nhật trong một vùng tin cậy. Điều này giúp tránh việc thay đổi chính sách quá đột ngột, từ đó cải thiện hiệu suất và độ ổn định.

Reinforcement learning 4 - Actor Critic

7 minute read

Published:

Actor-Critic là một phương pháp học tăng cường kết hợp giữa hai thành phần Actor và Critic. Mô hình này tận dụng ưu điểm của cả Policy-based và Value-based để học nhanh và ổn định hơn trong các môi trường phức tạp.

Reinforcement learning 3 - Policy Gradient

7 minute read

Published:

Policy Gradient cho phép mô hình học trực tiếp chính sách hành động thông qua tối ưu hóa gradient. Kỹ thuật này đặc biệt hiệu quả trong các bài toán có không gian hành động liên tục hoặc phức tạp.

Reinforcement learning 2 - Deep Q-Learning

8 minute read

Published:

Deep Q-Learning là sự kết hợp giữa Q-Learning và mạng nơ-ron, cho phép tác nhân học các hành động tối ưu trong môi trường phức tạp có không gian trạng thái lớn.

Reinforcement learning 1 - Q-Learning

14 minute read

Published:

Q-Learning là một thuật toán học tăng cường nền tảng, giúp các tác nhân học được hành động tốt nhất cần thực hiện trong một môi trường nhất định bằng cách tối đa hóa phần thưởng theo thời gian.