Nguyễn Thái Tân

Reinforcement learning 5 - Trust Region Policy Optimization

2025-07-31T00:00:00+00:00

Các phương pháp Policy Gradient có thể dẫn đến các cập nhật chính sách quá lớn, khiến cho mô hình bị “lạc” khỏi những gì đã học được trong quá khứ và trở nên không ổn định. Điều này có thể làm cho quá trình huấn luyện trở nên kém hiệu quả.

Giống như trong gradient descent hay gradient ascent, nếu bước đi quá nhỏ, mô hình sẽ học rất chậm; còn nếu bước đi quá lớn, nó có thể đi sai hướng và mất ổn định.

Natural policy gradients

Nói chung, ta muốn chính sách được cập nhật sao cho \(\underbrace{\text{hàm mục tiêu thì vừa tăng}}_{1}\), vừa đảm bảo \(\underbrace{\text{chính sách mới và cũ không quá khác biệt}}_{2}\).

1 - \(\mathcal{L}_{\theta}(\theta’)\)

Gọi \(\mathcal{L}_{\theta}(\theta')\) là hàm mục tiêu ước tính sự cải thiện trong phần thưởng kỳ vọng khi chuyển từ \(\pi_\theta\) sang \(\pi_{\theta’}\). Với \(A(s_t,a_t)\) là hàm lợi thế thì

\[\mathcal{L}_{\theta}(\theta') = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T} \gamma^t \dfrac{\pi_{\theta'}(a_t \mid s_t)}{\pi_{\theta}(a_t \mid s_t)} A^{\pi_{\theta}}(s_t, a_t)\right]\]

2 - \(\mathcal{\bar{D}}_{KL}\)

Vấn đề ở bước đi quá nhỏ hay quá lớn là vì ta lấy đạo hàm bậc nhất, nó chỉ cho chúng ta biết nên bước theo hướng nào, nhưng không cho biết bước đi đó phải lớn bao nhiêu \(\Rightarrow\) Nếu đang ở một đường cong, đạo hàm bậc nhất đưa ta đi rất xa \(\Rightarrow\) Để khắc phục vấn đề đó, Natural policy gradients tính luôn đạo hàm bậc hai.

Để làm điều này, chúng ta tính toán sự khác biệt giữa chính sách trước và sau khi cập nhật, mà chính sách là phân phối xác suất, nên sự khác biệt này chính là KL-divergence. Như đã nói, ta không muốn bước cập nhật khiến cho chính sách trở nên quá khác biệt, nên ta giới hạn KL-divergence lại bằng \(\delta\).

\[\theta_{k+1} = \underset{\theta_k + \Delta \theta}{\operatorname{argmax}} \mathcal{L}_{\theta_k}(\theta_k + \Delta \theta)\] \[\text{s.t. } \mathcal{\bar{D}}_{KL}(\theta_k + \Delta \theta \mid \mid \theta_k) \leq \delta\] \[\text{với } \mathcal{\bar{D}}_{KL}(\theta \mid \mid \theta_k) = \mathbb{E}_{s \sim \pi_{\theta_k}} \mathcal{D}_{KL}(\pi_{\theta}(. | s) \mid \mid \pi_{\theta_k}(. | s))\]

Để giải quyết phương trình này, ta có thể sử dụng chuỗi Taylor để mở rộng cả hai hạng tử trên đến bậc hai.

Dưới đây ta quy ước \(f(x) \mid _{x_0}\) là \(f(x_0)\)

\[\mathcal{L}_{\theta_k}(\theta) = \mathcal{L}_{\theta_k}(\theta_k) + (\nabla_\theta \mathcal{L}_{\theta_k}(\theta) \mid_{\theta_k})^\top \cdot (\theta - \theta_k)\] \[= (\nabla_\theta \mathcal{L}_{\theta_k}(\theta) \mid_{\theta_k})^\top \cdot (\theta - \theta_k)\] \[\mathcal{\bar{D}}_{KL}(\theta \mid \mid \theta_k) = \mathcal{\bar{D}}_{KL}(\theta_k \mid \mid \theta_k) + \nabla_\theta \mathcal{\bar{D}}_{KL}(\theta \mid \mid \theta_k)\mid_{\theta_k} \cdot (\theta - \theta_k) + \dfrac{1}{2}(\theta - \theta_k)^\top \cdot \nabla^2_\theta \mathcal{\bar{D}}_{KL}(\theta \mid \mid \theta_k)\mid_{\theta_k} \cdot (\theta - \theta_k)\] \[= \dfrac{1}{2}(\theta - \theta_k)^\top \cdot \nabla^2_\theta \mathcal{\bar{D}}_{KL}(\theta \mid \mid \theta_k)\mid_{\theta_k} \cdot (\theta - \theta_k)\]

Bài toán trên trở thành

\[\theta_{k+1} = \underset{\theta}{\operatorname{argmax} \,} (\underbrace{\nabla_\theta \mathcal{L}_{\theta_k}(\theta) \mid_{\theta_k}}_{\textcolor{blue}{g}})^\top \cdot (\theta - \theta_k)\] \[\text{s.t. } \quad \dfrac{1}{2}(\theta - \theta_k)^\top \cdot \underbrace{\nabla^2_\theta \mathcal{\bar{D}}_{KL}(\theta \mid \mid \theta_k) \mid_{\theta_k}}_{\textcolor{purple}{H}} \cdot (\theta - \theta_k) \leq \delta\]

Giải phương trình trên, ta thu được

\[\theta_{k+1} = \theta_k + \textcolor{orange}{\sqrt{\dfrac{2 \delta}{g^\top H^{-1} g}} H^{-1}g}\]

Về mặt tính toán, tính \(H\) đã khó, tính \(H^{-1}\) còn khó hơn, \(\mathcal{O}(n^3)\), nên người ta dùng Truncated Natural Policy Gradient để ước tính \(x = H^{-1}g\). Cụ thể hơn, ta giải phương trình \(Hx = g\) với thuật toán Conjugate Gradient.

Thuật toán Conjugate Gradient để giải \(Ax=b\)

Reinforcement learning 4 - Actor Critic

2025-07-10T00:00:00+00:00

Ta đã biết hai cách học tăng cường:

Dựa trên chính sách (Policy-Based): như REINFORCE
Dựa trên giá trị (Value-Based): như Q-learning, Deep Q-learning

Value-based có vài vấn đề, Policy-based giải quyết được vấn đề đó, nhưng lại gặp vấn đề khác về phương sai, vậy ta giải quyết như thế nào? Kết hợp chúng lại!

Hàm cơ sở - Baseline function

Trước hết, ta tìm hiểu một cách cơ bản để giảm phương sai: chèn một hàm cơ sở \(b\) vào trong kỳ vọng

\[\nabla_\theta J(\theta) = \nabla_\theta \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)] = \mathbb{E}_{\tau \sim \pi_\theta} \left[\sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t \mid s_t) R(\tau) \right]\]

Với \(R(\tau) = \sum_{t=0}^{T} \gamma^t r_t \) và chèn hàm cơ sở \(b\) vào, ta thu được

\[\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[\sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t \mid s_t) \left( R(\tau) - b\right) \right]\] \[= \mathbb{E}_{\tau \sim \pi_\theta} \left[\sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t \mid s_t) \left( \sum_{t'=0}^{T} \gamma^{t'} r_{t'} - b\right) \right]\]

Hàm cơ sở không gây sai lệch (unbiased)

\[\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t \mid s_t) \sum_{t'=0}^{T} \gamma^{t'} r_{t'} - \textcolor{blue}{\mathbb{E}_{\tau \sim \pi_\theta} \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t \mid s_t) b}\]

Ta có

\[\textcolor{blue}{\mathbb{E}_{\tau \sim \pi_\theta} \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t \mid s_t) b} = \sum_{a_t}^{} \pi_\theta(a_t \mid s_t) \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t \mid s_t) b\] \[= \sum_{a_t}^{} \sum_{t=0}^{T} \textcolor{purple}{\pi_\theta(a_t \mid s_t) \nabla_\theta \log \pi_\theta(a_t \mid s_t)} b = \sum_{a_t}^{} \sum_{t=0}^{T} \textcolor{purple}{\nabla_\theta \pi_\theta(a_t \mid s_t)} b\] \[= b \nabla_\theta \sum_{t=0}^{T} \sum_{a_t}^{} \pi_\theta(a_t \mid s_t) = b \nabla_\theta \sum_{t=0}^{T} 1 = 0\]

Biểu thức này chứng minh rằng việc thêm một hàm cơ sở không gây sai lệch cho ước lượng đạo hàm, tức là không thay đổi giá trị kỳ vọng của biểu thức.

Hàm cơ sở làm giảm phương sai

Nhắc lại

\[\text{Var} \left[ X \right] = \mathbb{E} \left[ X^2 \right] - \left( \mathbb{E} \left[ X \right]\right)^2\] \[\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[\underbrace{\sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t \mid s_t)}_{\textcolor{red}{p(\tau)}} \left( R(\tau) - b\right) \right]\]

Ta suy ra

\[\text{Var} \left[ \nabla_\theta J(\theta) \right] = \mathbb{E}_{\tau} \left[\left(\textcolor{red}{p(\tau)} \left( R(\tau) - b\right)\right)^2 \right] - \left( \mathbb{E}_{\tau} \left[ \textcolor{red}{p(\tau)} \left( R(\tau) - b\right) \right]\right)^2\] \[= \mathbb{E}_{\tau} \left[\left(\textcolor{red}{p(\tau)} \left( R(\tau) - b\right)\right)^2 \right] - \left( \mathbb{E}_{\tau} \left[ \textcolor{red}{p(\tau)} R(\tau) \right]\right)^2 \quad \text{(} b \text{ không gây sai lệch)}\]

Ta muốn tìm giá trị nhỏ nhất của phương sai này, nên ta tính

\[\dfrac{d}{db} \text{Var} \left[ \nabla_\theta J(\theta) \right] = \dfrac{d}{db} \mathbb{E}_{\tau} \left[\left(\textcolor{red}{p(\tau)} \left( R(\tau) - b\right)\right)^2 \right]\] \[= \dfrac{d}{db} \left[ \mathbb{E}_{\tau} \left[\textcolor{red}{p(\tau)}^2 R(\tau)^2 \right] -2 \mathbb{E}_{\tau} \left[\textcolor{red}{p(\tau)}^2 R(\tau) b\right] + \mathbb{E}_{\tau} \left[\textcolor{red}{p(\tau)}^2 b^2 \right] \right]\] \[= -2 \mathbb{E}_{\tau} \left[\textcolor{red}{p(\tau)}^2 R(\tau) \right] + 2 b \mathbb{E}_{\tau} \left[\textcolor{red}{p(\tau)}^2 \right]\]

Giải phương trình

\[\dfrac{d}{db} \text{Var} \left[ \nabla_\theta J(\theta) \right] = 0 \Leftrightarrow \mathbb{E}_{\tau} \left[\textcolor{red}{p(\tau)}^2 R(\tau) \right] = b \mathbb{E}_{\tau} \left[\textcolor{red}{p(\tau)}^2 \right]\] \[\Leftrightarrow b = \dfrac{\mathbb{E}_{\tau} \left[\textcolor{red}{p(\tau)}^2 R(\tau) \right]}{\mathbb{E}_{\tau} \left[\textcolor{red}{p(\tau)}^2 \right]}\]

Vậy hàm cơ sở làm tối thiểu hóa phương sai chính là kỳ vọng của lợi nhuận trên các quỹ đạo được trọng số bởi độ lớn gradient. Tuy nhiên, chi phí tính toán độ lớn gradient lớn nên việc giảm phương sai không hiệu quả.

Do đó, người ta thường dùng một hàm cơ sở khác, là giá trị trạng thái.

\[\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[\sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t \mid s_t) \left( R(\tau) - b(s_t)\right) \right]\]

Actor-Critic

Một cách khác để giảm phương sai là dùng Actor-Critic.

Ý tưởng chính là kết hợp hai mạng: Actor - học chính sách trực tiếp để quyết định hành động và Critic - đánh giá chất lượng hành động của Actor. Qua phản hồi từ Critic, Actor cải thiện chính sách. Cả hai mạng đều học song song, cải thiện lẫn nhau qua thời gian.

Rất giống với Generative Adversarial Network (GAN): Generator ra tạo ra các hình ảnh giả, còn discriminator đánh giá mức độ tốt của hình ảnh giả so với hình ảnh thực. Theo thời gian, generator có thể tạo ra những hình ảnh giả mà discriminator không thể phân biệt được.

\[\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[\sum_{t=0}^{T} \nabla_\theta \log \underbrace{\pi_\theta(a_t \mid s_t)}_{\text{Actor}} \cdot \underbrace{\hat{q}_{\omega} (s_t, a_t)}_{\text{Critic}} \right]\]

Điều này giúp giảm phương sai và đồng thời tạo ra một chút độ lệch trong ước tính đạo hàm.

Các bước thực hiện của Actor-Critic là

Tại mỗi \(t\), đưa trạng thái hiện tại \(s_t\) làm đầu vào cho cả Actor và Critic.
Actor nhận trạng thái \(s_t\) và xuất ra một hành động \(a_t\)
Critic lấy trạng thái \(s_t\) và hành động \(a_t\) đấy làm đầu vào, tính giá trị của việc thực hiện hành động đó tại trạng thái đó \(\hat{q}_{\omega} (s_t, a_t)\).

\(\Rightarrow\) Trạng thái mới \(s_{t+1}\) và một phần thưởng \(r_{t+1}\)
Cập nhật Actor theo công thức
\[\theta \leftarrow \theta + \alpha \cdot \nabla_\theta \log \pi_\theta (a_t \mid s_t) \cdot \hat{q}_{\omega} (s_t, a_t)\]
Dựa trên tham số đã được cập nhật, Actor tạo ra hành động tiếp theo cần thực hiện \(a_{t+1}\) dựa trên trạng thái mới \(s_{t+1}\).
Cập nhật Critic dựa trên MSE và semi-gradient
\[\omega \leftarrow \textcolor{lightgray}{\omega - \dfrac{\beta}{2} \cdot \nabla_\omega \left(r_{t+1} + \gamma \hat{q}_{\omega} (s_{t+1}, a_{t+1}) - \hat{q}_{\omega} (s_t, a_t) \right)^2}\] \[= \omega + \beta \cdot \left(r_{t+1} + \gamma \hat{q}_{\omega} (s_{t+1}, a_{t+1}) - \hat{q}_{\omega} (s_t, a_t) \right) \cdot \nabla_\omega \hat{q}_{\omega} (s_t, a_t)\]

Advantage Actor-Critic (A2C)

Ta có thể “nâng cấp” Actor-Critic để làm ổn định quá trình học, bằng cách dùng hàm lợi thế (Advantage function) làm Critic thay vì hàm giá trị hành động đơn giản. Hàm lợi thế này sẽ có dạng như baseline \(A(s_t,a_t) = R(\tau) - b(s_t)\)

\[\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[\sum_{t=0}^{T} \nabla_\theta \log \underbrace{\pi_\theta(a_t \mid s_t)}_{\text{Actor}} \underbrace{A(s_t, a_t)}_{\text{Critic - Advantage}} \right]\]

Câu hỏi tiếp theo là, làm thế nào để ước tính lợi thế khi thực hiện một hành động cụ thể trong một trạng thái cụ thể.

\(A(s_t,a_t) = Q(s_t,a_t) - V(s_t)\): Hàm lợi thế sẽ tính toán lợi thế tương đối của một hành động so với các hành động khác có thể thực hiện tại một trạng thái
Tuy nhiên, cách trên yêu cầu tính hai hàm giá trị \(Q(s_t, a_t)\) và \(V(s_t)\). Do đó, ta dùng một cách khác, chỉ dùng một mạng \(\hat{V}_{\omega}(s_t)\) là \(A(s_t, a_t) = r_{t+1} + \gamma \hat{V}_{\omega}(s_{t+1}) - \hat{V}_{\omega}(s_t)\)

Các bước thực hiện cũng tương tự như Actor-Critic, chỉ có sự khác biệt về cách cập nhật tham số

\[\theta \leftarrow \theta + \alpha \cdot \nabla_\theta \log \pi_\theta (a_t \mid s_t) \cdot A(s_t, a_t)\]

và

\[\omega \leftarrow \textcolor{lightgray}{\omega - \dfrac{\beta}{2} \cdot \nabla_\omega \left(r_{t+1} + \gamma \hat{V}_{\omega} (s_{t+1}) - \hat{V}_{\omega} (s_t) \right)^2}\] \[= \omega + \beta \cdot \left(r_{t+1} + \gamma \hat{V}_{\omega} (s_{t+1}) - \hat{V}_{\omega} (s_t) \right) \cdot \nabla_\omega \hat{V}_{\omega} (s_t)\]

Nhận xét

Actor-Critic kết hợp policy-based và value-based để giải quyết các vấn đề của riêng chúng. Điều này cũng có nghĩa là nó cải thiện được hiệu quả mẫu (sample efficiency).
Advantage Actor-Critic (A2C) là bản nâng cấp của Actor-Critic, giúp nó ổn định hơn. Do giảm phương sai và hiệu quả mẫu tốt hơn, A2C thường hội tụ đến chính sách tối ưu nhanh hơn REINFORCE.
Hiển nhiên, Actor-Critic và A2C có độ phức tạp cao hơn so với các thuật toán đơn giản như REINFORCE.

Reinforcement learning 3 - Policy Gradient

2025-07-05T00:00:00+00:00

Nhắc lại về Q-learning và Deep Q-learning, chúng vẫn tuân theo chính sách nhất định

\[\pi(s) = \begin{cases} \text{argmax}_a Q(s, a) & \text{với xác suất } 1 - \epsilon \\ \text{random action} & \text{với xác suất } \epsilon \end{cases}\]

Có thể thấy, việc tối ưu hóa hàm giá trị Q không trực tiếp tối ưu chính sách hành động (gọi là off-policy). Hơn nữa, đôi khi phần thưởng không xuất hiện liên tục, nên việc điều chỉnh giá trị Q trở nên rất khó khăn.

Và quan trọng nhất, chúng chỉ hoạt động tốt trong không gian hành động rời rạc.

Policy Gradient

Đầu tiên, ta tham số hóa một chính sách ngẫu nhiên (stochastic policy). Cũng có nghĩa là, một mạng nơ-ron đưa ra một phân phối xác suất các hành động. Vậy thì mục tiêu là: tìm các tham số \(\theta\) để điều chỉnh phân phối các hành động này sao cho hành động đem lại nhiều phần thưởng nhất thì có xác suất chọn cao nhất \(\rightarrow\) tối đa hóa phần thưởng mong đợi.

Ta tối ưu hóa chính sách trực tiếp nên gọi là on-policy.

Ý tưởng là: Trong một tập (episode), nếu thắng thì mỗi hành động đã thực hiện là tốt, tăng xác suất xảy ra của chúng; nếu thua thì mỗi hành động đã thực hiện là không tốt, giảm xác suất xảy ra của chúng.

Do đó, hàm phần thưởng hay hàm mục tiêu được viết như là: phần thưởng tích lũy kỳ vọng trên một quỹ đạo (trajectory - dãy trạng thái và hành động).

\[J(\theta) = \mathbb{E}_{\tau \sim \pi} \left[ R(\tau)\right] = \sum_{\tau} \textcolor{blue}{P(\tau;\theta)} \textcolor{purple}{R(\tau)}\]

\(P(\tau;\theta)\): Xác suất mỗi quỹ đạo có thể xảy ra (xác suất này phụ thuộc vào \(\theta\))

Có thể hiểu rằng, nếu \(\theta\) thay đổi \(\rightarrow\) chính sách thay đổi \(\rightarrow\) cách tác nhân chọn hành động trong từng bước sẽ khác \(\rightarrow\) các trạng thái được ghé thăm sẽ khác \(\rightarrow\) các hành động được chọn tiếp theo cũng sẽ khác \(\rightarrow\) xác suất của quỹ đạo \(\tau\) cũng sẽ thay đổi.

\[\textcolor{blue}{P(\tau;\theta)} = \mu(s_0) \prod_{t=0}^{T} P(s_{t+1} \mid s_t, a_t) \pi_\theta (a_t \mid s_t)\]
trong đó \(\mu(s_0)\) là phân phối trạng thái ban đầu, \(\pi_\theta(a_t \mid s_t)\) là xác suất chính sách chọn hành động \(a_t\) từ trạng thái \(s_t\).
\(R(\tau)\): Phần thưởng tích lũy từ một quỹ đạo bất kỳ.
\[\textcolor{purple}{R(\tau)} = \sum_{t=0}^{T} \gamma^t r_t\]

Để tối đa hóa \(J(\theta)\) thì rất tự nhiên, ta dùng gradient ascent,

\[\theta \leftarrow \theta + \alpha \cdot \nabla_\theta J(\theta)\]

Tuy nhiên, có hai vấn đề khi tính đạo hàm của \(J(\theta)\):

Để đạo hàm, ta cũng cần biết đạo hàm của hàm phân phối trạng thái \(P(s_{t+1} \mid s_t, a_t)\), gọi là MDP dynamics. Điều này gắn liền với môi trường. Ta không lấy đạo hàm được vì ta có thể không biết về nó.

Ở Policy Gradient, ta tối ưu hóa chính sách trực tiếp, nên không thể bỏ qua hàm phân phối trạng thái như Q-learning được.

\(\Rightarrow\) Người ta chứng minh được rằng đạo hàm của hàm mục tiêu không liên quan đến đạo hàm của hàm phân phối trạng thái, gọi là Policy Gradient Theorem.
\[\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[\sum_{t=0}^T \left[ \textcolor{darkorange}{\nabla_\theta \log \pi_\theta (a_t \mid s_t) R(\tau)}\right]\right]\]
Không thể tính toán chính xác đạo hàm của hàm mục tiêu vì nó yêu cầu tính xác suất của mỗi quỹ đạo có thể xảy ra \(\rightarrow\) rất tốn kém về mặt tính toán.

\(\Rightarrow\) Ta ước lượng đạo hàm bằng cách sử dụng một tập quỹ đạo \(\mathcal{D} = \{\tau\}_{i=1,2,\dots,N}\), gọi là phương pháp Monte-Carlo.
\[\nabla_\theta J(\theta) \approx \dfrac{1}{N} \sum_{i=1}^{N} \sum_{t=0}^{T} \left[ \textcolor{darkorange}{\nabla_\theta \log \pi_\theta \left(a_t^{(i)} \mid s_t^{(i)}\right) R\left(\tau^{(i)}\right)} \right]\]

Đến đây, ta nhận thấy có một vấn đề khác: Môi trường có tính ngẫu nhiên (các hàm phân phối trạng thái \(P(s_{t+1} \mid s_t, a_t)\)) và chính sách cũng mang tính ngẫu nhiên \(\Rightarrow\) cùng một trạng thái bắt đầu có thể dẫn đến các giá trị phần thưởng rất khác nhau \(\Rightarrow\) phần thưởng bắt đầu từ cùng một trạng thái có thể thay đổi đáng kể giữa các tập (episode) \(\Rightarrow\) phương sai giữa các tập cao.

Giải pháp để giảm phương sai là sử dụng một số lượng lớn các quỹ đạo, tuy nhiên việc tăng kích thước (batch size) một cách đáng kể sẽ làm giảm hiệu quả sử dụng mẫu (sample efficiency).

Hiệu quả sử dụng mẫu có thể hiểu là mức độ hiệu quả mà một mô hình học được từ một số lượng mẫu (dữ liệu) nhất định.

Thuật toán REINFORCE

Kết hợp tất cả những thứ trên lại một cách đơn giản nhất, ta được thuật toán REINFORCE - là một dạng cụ thể của Policy Gradient.

Khởi tạo bộ tham số \(\theta\) bất kỳ
Sử dụng chính sách \(\pi_\theta\) để thu thập một tập (episode) \(\tau\).
Sử dụng tập này để ước tính gradient \(\nabla_\theta J(\theta)\).
Cập nhật trọng số của chính sách: \(\theta \leftarrow \theta + \alpha \cdot \nabla_\theta J(\theta)\)

Policy Gradient Theorem

Giờ ta quay lại chứng minh Policy Gradient Theorem nào!

\[\nabla_\theta J(\theta) = \nabla_\theta \sum_{\tau}P(\tau;\theta)R(\tau) = \sum_{\tau} \nabla_\theta \left(P(\tau;\theta)R(\tau)\right) = \sum_{\tau} \nabla_\theta P(\tau;\theta) R(\tau)\] \[= \sum_{\tau} P(\tau; \theta) \frac{\nabla_\theta P(\tau; \theta)}{P(\tau; \theta)} R(\tau) = \sum_{\tau} P(\tau; \theta) \nabla_\theta \log P(\tau; \theta) R(\tau)\] \[= \mathbb{E}_{\tau \sim \pi_\theta} \nabla_\theta \log \textcolor{blue}{P(\tau; \theta)} R(\tau)\]

Ta tiếp tục rút gọn \(\nabla_\theta \log \textcolor{blue}{P(\tau; \theta)}\).

Với \(\mu(s_0)\) là phân phối trạng thái ban đầu và \(P\left(s_{t+1}^{(i)} \mid s_{t}^{(i)}, a_{t}^{(i)}\right)\) là MDP dynamics của một quỹ đạo \(\tau^{(i)}\) nào đó,

\[\nabla_\theta \log \textcolor{blue}{P\left(\tau^{(i)}; \theta \right)} = \nabla_\theta \log \left[ \mu(s_0) \prod_{t=0}^{T} P\left(s_{t+1}^{(i)} \mid s_{t}^{(i)}, a_{t}^{(i)}\right) \pi_\theta \left(a_{t}^{(i)} \mid s_{t}^{(i)}\right) \right]\] \[= \nabla_\theta \left[ \log \mu(s_0) + \sum_{t=0}^{T} \log P\left(s_{t+1}^{(i)} \mid s_{t}^{(i)}, a_{t}^{(i)}\right) + \sum_{t=0}^{T} \log \pi_\theta\left(a_{t}^{(i)} \mid s_{t}^{(i)}\right) \right]\] \[= \nabla_\theta \log \mu(s_0) + \nabla_\theta \sum_{t=0}^{T} \log P\left(s_{t+1}^{(i)} \mid s_{t}^{(i)}, a_{t}^{(i)}\right) + \nabla_\theta \sum_{t=0}^{T} \log \pi_\theta\left(a_{t}^{(i)} \mid s_{t}^{(i)}\right)\] \[= 0 + 0 + \nabla_\theta \sum_{t=0}^{T} \log \pi_\theta\left(a_{t}^{(i)} \mid s_{t}^{(i)}\right) = \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta\left(a_{t}^{(i)} \mid s_{t}^{(i)}\right)\]

Vậy

\[\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[\sum_{t=0}^T \left[ \textcolor{darkorange}{\nabla_\theta \log \pi_\theta (a_t \mid s_t) R(\tau)}\right]\right]\]

Nhận xét

Policy gradient đã giải quyết được vấn đề về không gian hành động liên tục mà Q-learning hay Deep Q-learning không làm được.
Policy gradient có thể học một chính sách ngẫu nhiên. Ta không cần phải thực hiện đánh đổi khám phá/khai thác. Vì ta có một phân phối xác suất trên các hành động, nên tác nhân khám phá không gian trạng thái mà không phải lúc nào cũng đi theo cùng một quỹ đạo.
Tuy nhiên, Policy gradient rất hay hội tụ đến tối ưu cục bộ thay vì tối ưu toàn cục.
Có thể mất nhiều thời gian hơn để huấn luyện Policy gradient.
Có thể có phương sai cao.

Reinforcement learning 2 - Deep Q-Learning

2025-07-01T00:00:00+00:00

Trong Q-Learning, bảng Q phải được lưu trữ và cập nhật cho mọi trạng thái và hành động, điều này trở nên rất khó khăn khi không gian trạng thái rất lớn.

Các giá trị trạng thái trong trò chơi CartPoleBalance là liên tục, thực ra là không phù hợp với Q-learning.

Deep Learning + Q-learning = Deep Q-learning ra đời để giải quyết vấn đề này!

Deep Q-learning

Deep Q-Learning sử dụng một mạng nơ-ron (Neural network) để ước tính các giá trị Q, giúp mô hình có thể xử lý được các không gian trạng thái phức tạp và liên tục mà không cần phải lưu trữ tất cả các giá trị Q. Những gì cần làm chỉ là bỏ đi bảng Q(s,a) và thay thế bằng một mạng thần kinh đơn giản.

Trong mạng nơ-ron thì hàm mất mát là vô cùng quan trọng! Tất nhiên, hàm mất mát phải tính được sai số giữa giá trị Q dự đoán và giá trị Q mục tiêu (Q-target). Vậy thì đơn giản thôi, kết hợp TD và MSE lại. Với \(Q(s,a;\theta)\) là mạng cần học, hàm mất mát chính là

\[L(\theta) = \left( r + \gamma \cdot \max_{a'} Q(s', a'; \theta) - Q(s,a;\theta) \right)^2\]

Trong đó, \(\max_{a’} Q(s’, a’; \theta)\) là dự đoán về giá trị tối ưu cho hành động tiếp theo sau khi chuyển sang trạng thái mới (chính là Q-target).

Mặc dù \(Q(s’, a’; \theta)\) phụ thuộc vào \(\theta\), người ta coi đây là một giá trị hằng số khi tính hàm mất mát, tức là không có đạo hàm ở đại lượng này.

Đây gọi là semi-gradient. Có thể hiểu rằng, tính luôn đạo hàm cho \(Q(s’, a’; \theta)\) sẽ làm thay đổi chính mục tiêu mà ta đang cố gắng học theo. Điều này dẫn đến học không ổn định, vì mục tiêu luôn “di chuyển”.

Khi đó,

\[\nabla_\theta L(\theta) = -2 \left( r + \gamma \cdot \max_{a'} Q(s', a'; \theta) - Q(s,a;\theta) \right) \nabla_\theta Q(s,a;\theta)\]

Experience Replay

Trong Deep Q-Learning, Experience Replay là một kỹ thuật thường được dùng giúp cải thiện sự ổn định của quá trình huấn luyện.

Tác dụng

Tránh quên đi những trải nghiệm trước đây (hiện tượng catastrophic forgetting).

Catastrophic forgetting: Vấn đề gặp phải nếu ta cung cấp các mẫu trải nghiệm tuần tự cho mạng nơ-ron thì mạng có xu hướng quên các kinh nghiệm trước đó khi có được các kinh nghiệm mới.
Giảm mối tương quan giữa các trải nghiệm

Cách hiện thực

Ta dùng một bộ đệm (replay buffer) chứa các tuple (trạng thái, hành động, phần thưởng, trạng thái tiếp theo) để lưu các mẫu trải nghiệm mà ta có thể sử dụng lại trong quá trình huấn luyện. Bộ đệm này có giới hạn về kích thước. Khi bộ nhớ đầy, các trải nghiệm cũ nhất sẽ bị loại bỏ.

Trong mỗi bước huấn luyện, một nhóm trải nghiệm ngẫu nhiên (mini-batch) sẽ được lấy từ bộ nhớ để huấn luyện mô hình. Điều này giúp mô hình không học theo thứ tự các trải nghiệm, mà là từ một tập hợp các trải nghiệm đa dạng và không có sự phụ thuộc thời gian. Nếu tác nhân chỉ học từ các trải nghiệm liên tiếp, chúng có thể rất giống nhau và không cung cấp thông tin phong phú. Điều này cũng cho phép tác nhân học hỏi từ cùng một trải nghiệm nhiều lần.

Trong Q-learning, quá trình huấn luyện diễn ra theo các bước liên tiếp, nghĩa là mô hình học từ các trạng thái liên tiếp mà không có cơ chế lưu trữ hoặc trộn lẫn các trải nghiệm như Deep Q-learning.

Code

Code để dễ hình dung nhé!

Môi trường, Tác nhân, Mạng nơ-ron

Reinforcement learning 1 - Q-Learning

2025-06-30T00:00:00+00:00

Học tăng cường là một lĩnh vực con trong học máy, trong đó một tác nhân học cách tối ưu hóa hành động của mình trong một môi trường để đạt được mục tiêu lâu dài.

Khác với các phương pháp học có giám sát và không giám sát, học tăng cường không có tập dữ liệu đã được gán nhãn.

Tác nhân (Agent): Là người đưa ra quyết định.
Môi trường (Environment): Môi trường có thể thay đổi theo các hành động của tác nhân.
Hành động (Action): Những hành động mà tác nhân có thể thực hiện để tương tác với môi trường.
Trạng thái (State): Đại diện cho tình trạng hiện tại của môi trường tại một thời điểm cụ thể, bao gồm tất cả thông tin mà tác nhân cần để quyết định hành động tiếp theo.
Phần thưởng (Reward): Mỗi hành động của tác nhân trong môi trường sẽ nhận một phần thưởng hoặc hình phạt.
Chính sách (Policy): Chiến lược cho phép tác nhân chọn hành động ở mỗi trạng thái.

Ví dụ: Trong trò chơi CartPoleBalance, tác nhân là người điều khiển chiếc xe; môi trường là chiếc xe và cột; các hành động là di chuyển xe sang trái hoặc di chuyển xe sang phải; trạng thái bao gồm vị trí của xe, vận tốc của xe, góc của cột, vận tốc góc của cột; phần thưởng có thể được định nghĩa là +1 mỗi lần tác nhân giữ cột đứng trong một bước và +0 nếu cột ngã quá 15 độ.

Mục tiêu của học tăng cường là giúp tác nhân học được một chính sách tối ưu, tức là một chiến lược cho phép tác nhân chọn hành động tốt nhất ở mỗi trạng thái để tối đa hóa tổng phần thưởng tích lũy theo thời gian. Tức là

Tác nhân bắt đầu ở một trạng thái cụ thể.
Dựa trên trạng thái hiện tại, tác nhân chọn một hành động để thực hiện.
- Khám phá (exploration): Tác nhân thử những hành động mới.
- Khai thác (exploitation): Tác nhân tận dụng những hành động đã biết để đạt được phần thưởng cao nhất.
Môi trường thay đổi trạng thái theo hành động của tác nhân và trả về phần thưởng.
Tác nhân nhận phần thưởng và cập nhật chiến lược hành động của mình.

Q - learning

Một vấn đề quan trọng trong học tăng cường là cập nhật chiến lược như thế nào. Q-learning là một cách để giải quyết câu hỏi này.

Q-value (Q-value table): Giá trị dự đoán của tác nhân về phần thưởng mà nó sẽ nhận được khi thực hiện một hành động trong một trạng thái cụ thể. Mỗi cặp trạng thái và hành động có một giá trị Q được lưu trong bảng.

Với bài toán CartPoleBalance trên, Q-table được viết như thế nào? Giả sử ta chia mỗi thành phần của trạng thái thành 6 khoảng, tổng số trạng thái rời rạc là 6 (vị trí xe) × 6 (vận tốc xe) × 6 (góc của cột) × 6 (vận tốc góc của cột) = 1296 trạng thái.

Trạng thái (vị trí xe, vận tốc xe, góc của cột, vận tốc góc của cột)	Hành động 0 (di chuyển trái)	Hành động 1 (di chuyển phải)
(0, 0, 0, 0)	0.01	0.04
(0, 0, 0, 1)	0.03	0.07
(…, …, …, …)	…	…
(5, 5, 5, 5)	0.02	0.05

Nghĩa là, ví dụ khi gặp trạng thái (0,0,0,1), hành động được chọn là di chuyển sang phải bởi vì nó cho phần thưởng trung bình cao nhất.

Vậy cập nhật như thế nào để có các số như 0.01, 0.04,… trong bảng? Các giá trị ban đầu của Q-table thường được gán là 0 hoặc một giá trị ngẫu nhiên. Sau đó, công thức cập nhật Q-value là:

\[Q(s, a) \leftarrow Q(s, a) + \alpha \left( r + \gamma \cdot \max_{a'} Q(s', a') - Q(s, a) \right)\]

Trong đó:

\(Q(s, a)\): Giá trị Q hiện tại của cặp trạng thái \(s\) và hành động \(a\).
\(\alpha\): Tốc độ học (learning rate), giúp điều chỉnh mức độ cập nhật Q-value.
\(r\): Phần thưởng nhận được sau khi thực hiện hành động \(a\) tại trạng thái \(s\).
\(\gamma\): Hệ số chiết khấu (discount factor), dùng để điều chỉnh sự quan trọng của các phần thưởng trong tương lai.
\(\max_{a’} Q(s’, a’)\): Giá trị Q tối đa của các hành động có thể thực hiện tại trạng thái tiếp theo \(s’\).

Trong học tăng cường, có hai khái niệm là khám phá (exploration) và khai thác (exploitation), là cách mà tác nhân chọn một hành động để thực hiện. Để chọn hành động, thuật toán sử dụng chính sách epsilon-greedy. Nghĩa là, với Q-learning, với xác suất \(1−\epsilon\), tác nhân chọn hành động có giá trị Q cao nhất (khai thác); với xác suất \(\epsilon\), tác nhân chọn hành động ngẫu nhiên (khám phá) để khám phá môi trường.

Tóm lại, để bắt đầu học tăng cường, khởi đầu từ một trạng thái \(\rightarrow\) ta mô phỏng môi trường và hành động của tác nhân \(\rightarrow\) cập nhật bảng Q \(\rightarrow\) tiếp tục mô phỏng và cập nhật cho đến khi kết thúc trò chơi, hoặc đến số bước nhất định.

Code

Code để dễ hình dung nhé!

Môi trường, Tác nhân