Tutorial: Procuras Adversas

📖 Literatura 👓 Introdução 👓 MiniMax 👓 Monte Carlo ✏️ Galo MiniMax ✏️ Galo alfa/beta 💻 Jogo do Galo 💻 Jogo em Linha

⚡ Ação: Qual é a ideia fundamental da procura Monte Carlo?

👉 Simular muitos jogos completos e escolher a ação com maior utilidade média.

⚡ Ação: Em que difere o Monte Carlo do MiniMax?

👉 O Monte Carlo não explora a árvore completa; baseia-se em simulações rápidas de jogos completos.

⚡ Ação: Quando a simulação de jogo termina?

👉 Quando se atinge um estado final, retornando a utilidade desse estado.

⚡ Ação: O que é a política de jogo numa simulação Monte Carlo?

👉 A regra que define como escolher jogadas durante a simulação, podendo ser aleatória ou enviesada.

⚡ Ação: Porque é útil manter alguma aleatoriedade na política de jogo?

👉 Para gerar jogos distintos e estimar melhor a probabilidade de vitória.

⚡ Ação: Porque é que o Monte Carlo é vantajoso em jogos com elevada ramificação?

👉 Porque evita explorar a árvore completa, cujo tamanho cresce exponencialmente.

⚡ Ação: Como se calcula o valor de uma ação no Monte Carlo?

👉 Pela média das utilidades obtidas nas simulações dessa ação.

⚡ Ação: Porque é importante simular muitos jogos?

👉 Para obter uma estimativa mais precisa da utilidade esperada.

⚡ Ação: Porque simular mais vezes as melhores ações?

👉 Para aumentar a precisão onde mais importa, sem desperdiçar tempo em ações fracas.

⚡ Ação: Porque construir uma pequena árvore antes das simulações?

👉 Para distribuir as simulações pelas ações possíveis e começar o jogo num estado mais profundo.

⚡ Ação: No exemplo de Monte Carlo com 2 jogadores, como se escolhe o melhor lance?

👉 Somando os pontos das simulações (vitórias e empates) e escolhendo o lance com maior total.

⚡ Ação: Que pontuação foi usada para avaliar resultados no exemplo de Monte Carlo com 2 jogadores?

👉 Vitória vale 2 pontos e empate vale 1 ponto.

⚡ Ação: O que fazer se uma simulação demorar demasiado?

👉 Interromper e atribuir empate para não atrasar o processo.

⚡ Ação: Porque é útil reutilizar simulações de lances fortes?

👉 Porque esses lances são mais prováveis de serem escolhidos na jogada seguinte.

⚡ Ação: Porque é que o Monte Carlo funciona mesmo com políticas fracas?

👉 Porque a repetição de muitas simulações compensa decisões subótimas individuais.

⚡ Ação: Como se calcula a utilidade no exemplo de Monte Carlo de 3 jogadores?

👉 Somando vitórias e empates para cada jogador, atribuindo 2 pontos por vitória e 1 por empate.

⚡ Ação: No exemplo de Monte Carlo de 3 jogadores, porque é que o jogador 1 escolhe a terceira alternativa?

👉 Porque essa alternativa tem o maior total de pontos entre as simulações.

⚡ Ação: O Monte Carlo precisa de alterações para 3 jogadores?

👉 Não, apenas passa a somar utilidades para três jogadores em vez de dois.

⚡ Ação: O que caracteriza um jogo com ambiente aleatório?

👉 A existência de eventos não controlados pelos jogadores, como lançar dados.

⚡ Ação: O que é um nó de acaso numa árvore de jogo?

👉 Um estado onde ocorre um evento aleatório em vez de uma jogada de um jogador.

⚡ Ação: Como o MiniMax trata um nó de acaso?

👉 Calcula a utilidade média das alternativas, em vez de maximizar ou minimizar.

⚡ Ação: Porque não há cortes alfa/beta em nós de acaso?

👉 Porque não há jogador a maximizar ou minimizar; não se aplicam limites de decisão.

⚡ Ação: Porque é que o MiniMax sofre com aleatoriedade?

👉 Porque a ramificação aumenta muito, tornando a árvore demasiado grande.

⚡ Ação: Porque é que o Monte Carlo não é afetado pela aleatoriedade?

👉 Porque a simulação já é aleatória por natureza, e os nós de acaso são tratados como jogadas aleatórias.

⚡ Ação: Como se calcula o valor de um nó de acaso no exemplo do MiniMax aleatório?

👉 Pela média dos resultados finais das alternativas desse nó.

⚡ Ação: Porque o jogador 1 escolhe a segunda alternativa no exemplo do MiniMax aleatório?

👉 Porque essa alternativa tem a maior média de utilidade.

⚡ Ação: Como o Monte Carlo aleatório, trata um nó de acaso na simulação?

👉 Como uma jogada aleatória, tal como definido pela política de jogo.

⚡ Ação: De que depende a precisão do Monte Carlo?

👉 Da qualidade da política de jogo e do número de simulações realizadas.

⚡ Ação: O que caracteriza um jogo parcialmente observável?

👉 Parte do estado do jogo não é visível para alguns agentes.

⚡ Ação: Porque o estado é um subconjunto de S, em jogos parcialmente observáveis?

👉 Porque o agente só sabe que pode estar em alguns estados, compatíveis com o que observa, não sabe o estado exato em que está.

⚡ Ação: Porque gerar sucessores é pesado em jogos parcialmente observáveis?

👉 Porque é necessário aplicar cada ação a todos os estados possíveis do subconjunto.

⚡ Ação: Porque o MiniMax é impraticável em jogos parcialmente observáveis?

👉 Porque o número de estados possíveis cresce demasiado, tornando a árvore enorme.

⚡ Ação: Porque o Monte Carlo também é impraticável nesses jogos?

👉 Porque seria necessário simular jogos para muitos estados possíveis, tornando o processo demasiado pesado.

⚡ Ação: O que é um estado de crença?

👉 Uma estimativa do estado real, escolhida de entre os estados compatíveis com a informação observada.

⚡ Ação: Quando atualizar o estado de crença?

👉 Sempre que surgem novas evidências que eliminam estados possíveis.

⚡ Ação: Porque o estado de crença é uma solução subótima?

👉 Porque assume apenas um estado possível, ignorando que o estado real pode ser um entre muitos possíveis.

⚡ Ação: Qual é o exemplo clássico de jogo parcialmente observável?

👉 Jogos de cartas, onde cada jogador desconhece as cartas dos adversários.

⚡ Ação: Porque o dominó é parcialmente observável?

👉 Porque cada jogador vê apenas as suas peças, não as dos outros.

⚡ Ação: Porque jogos parcialmente observáveis são considerados difíceis atualmente?

👉 Porque o volume de estados possíveis é enorme e difícil de gerir computacionalmente.

⚡ Ação: Em que cenários o Monte Carlo é claramente superior ao MiniMax?

👉 Em jogos com elevada ramificação ou com elementos aleatórios, onde a árvore de jogo se torna demasiado grande.

📄 Ver slides (PDF)

Nova pergunta: 🎲

◀ Passo anterior Próximo passo ▶