🎮 Q-Learning Path Finder

Crie um mapa, adicione obstáculos, defina o ponto inicial (vermelho) e final (verde), e o algoritmo Q-Learning encontrará o caminho mais rápido!

Modo:

Tamanho do Grid: 20x20

Episódios de Treinamento:

Q-Learning é um algoritmo de aprendizado por reforço que aprende a encontrar o melhor caminho através de tentativa e erro.

Estado: Cada célula do grid é um estado
Ação: Mover para cima, baixo, esquerda ou direita
Recompensa: Pontos ganhos ao alcançar o objetivo
- +100 ao chegar no objetivo
- -0.1 por cada passo
- Penalidade por distância do objetivo
Q-Table: Tabela que armazena valores Q para cada par estado-ação

Q(s,a) = Q(s,a) + α[R + γ·max(Q(s',a')) - Q(s,a)]

Com 10% de chance, o agente explora (tenta ações aleatórias). Com 90% de chance, o agente explora (usa o conhecimento aprendido).

Aguardando treinamento...