🎮 Q-Learning Path Finder

Crie um mapa, adicione obstáculos, defina o ponto inicial (vermelho) e final (verde), e o algoritmo Q-Learning encontrará o caminho mais rápido!

Mapa
Controles
20x20
📚 Como Funciona
🎯 O que é Q-Learning?

Q-Learning é um algoritmo de aprendizado por reforço que aprende a encontrar o melhor caminho através de tentativa e erro.

🔍 Processo:
  1. Estado: Cada célula do grid é um estado
  2. Ação: Mover para cima, baixo, esquerda ou direita
  3. Recompensa: Pontos ganhos ao alcançar o objetivo
    • +100 ao chegar no objetivo
    • -0.1 por cada passo
    • Penalidade por distância do objetivo
  4. Q-Table: Tabela que armazena valores Q para cada par estado-ação
🧠 Equação de Bellman:

Q(s,a) = Q(s,a) + α[R + γ·max(Q(s',a')) - Q(s,a)]

  • α (alpha): Taxa de aprendizado (0.1)
  • γ (gamma): Fator de desconto (0.95)
  • R: Recompensa recebida
🎲 Epsilon-Greedy:

Com 10% de chance, o agente explora (tenta ações aleatórias). Com 90% de chance, o agente explora (usa o conhecimento aprendido).


📝 Log em Tempo Real:
Aguardando treinamento...