Maze Q-Table 정보
이 앱은 대화형 방식으로 강화 학습을 소개합니다.
강화 학습을 통해 에이전트는 환경에서 시행착오를 통해 학습할 수 있습니다. 미로를 상상해 보세요. Q-테이블을 사용하여 에이전트는 미로(상태)를 탐색하고 다양한 작업(예: 위, 아래, 왼쪽 또는 오른쪽으로 이동)을 수행합니다. Q-테이블은 각 상태의 각 행동에 대해 받은 보상(좋은 선택에 대해 긍정적, 나쁜 결정에 대해 부정적)을 추적합니다. 시간이 지남에 따라 에이전트는 Q-테이블을 업데이트하여 가장 높은 보상으로 이어지는 작업의 우선순위를 지정하고 결국 미로를 통과하는 최상의 경로를 학습합니다.
실천하면서 배우기
이 앱에서는 벽돌로 가득 찬 미로를 통해 에이전트를 안내하게 됩니다. 에이전트는 Q-learning이라는 기술을 사용하여 미로를 탐색하고 목표에 도달합니다. 에이전트의 탐색 및 학습 과정을 관찰함으로써 강화 학습 개념을 이해할 수 있습니다.
*조정 가능한 난이도
상담원을 위해 일을 더 쉽게 또는 더 어렵게 만들고 싶으신가요? 다음 두 가지 설정을 조정하여 미로의 난이도를 제어할 수 있습니다.
브릭 장애물 크기: 에이전트가 탐색해야 하는 브릭의 크기를 선택합니다. 벽돌이 클수록 미로가 더 넓어지고, 벽돌이 작을수록 공간이 더 좁아집니다.
에피소드 수: 이 설정은 에이전트가 미로 학습을 시도하는 횟수를 결정합니다. 에피소드가 많을수록 에이전트는 의사결정 전략을 탐색하고 개선할 수 있는 기회가 더 많아집니다.
통제권을 갖고 진행 상황을 추적하세요
앱은 시뮬레이션을 제어하기 위한 두 개의 버튼을 제공합니다.
미로 생성: 이 버튼은 선택한 벽돌 크기로 새 미로를 만듭니다.
학습 시작: 미로 레이아웃이 만족스러우면 이 버튼을 클릭하여 에이전트의 학습 프로세스를 시작하세요.
학습 진행 상황 시각화
에이전트가 미로를 탐색하는 것을 관찰하는 것 외에도 포함된 학습률 그래프를 사용하여 학습 진행 상황을 추적할 수도 있습니다. 이 그래프는 에이전트의 보상(긍정적 강화) 대 에피소드 수를 표시합니다. 이 그래프를 분석하면 에이전트의 학습률이 의사 결정에 어떤 영향을 미치고 시간이 지남에 따라 어떻게 향상되는지 확인할 수 있습니다.
강화 학습의 힘을 직접 목격할 준비를 하세요! 에이전트가 미로를 탐색하면서 최적의 선택을 하고 문제를 해결하는 방법을 학습하는 방법을 확인할 수 있습니다. 학습률 그래프는 훈련 과정 전반에 걸쳐 에이전트의 진행 상황을 시각화하여 이해를 더욱 향상시킵니다.