Crie um mapa, adicione obstáculos, defina o ponto inicial (vermelho) e final (verde), e o algoritmo Q-Learning encontrará o caminho mais rápido!
Q-Learning é um algoritmo de aprendizado por reforço que aprende a encontrar o melhor caminho através de tentativa e erro.
Q(s,a) = Q(s,a) + α[R + γ·max(Q(s',a')) - Q(s,a)]
Com 10% de chance, o agente explora (tenta ações aleatórias). Com 90% de chance, o agente explora (usa o conhecimento aprendido).