⚡ Ação: Qual é a ideia fundamental da procura Monte Carlo?
👉 Simular muitos jogos completos e escolher a ação com maior utilidade média.
⚡ Ação: Em que difere o Monte Carlo do MiniMax?
👉 O Monte Carlo não explora a árvore completa; baseia-se em simulações rápidas de jogos completos.
⚡ Ação: Quando a simulação de jogo termina?
👉 Quando se atinge um estado final, retornando a utilidade desse estado.
⚡ Ação: O que é a política de jogo numa simulação Monte Carlo?
👉 A regra que define como escolher jogadas durante a simulação, podendo ser aleatória ou enviesada.
⚡ Ação: Porque é útil manter alguma aleatoriedade na política de jogo?
👉 Para gerar jogos distintos e estimar melhor a probabilidade de vitória.
⚡ Ação: Porque é que o Monte Carlo é vantajoso em jogos com elevada ramificação?
👉 Porque evita explorar a árvore completa, cujo tamanho cresce exponencialmente.
⚡ Ação: Como se calcula o valor de uma ação no Monte Carlo?
👉 Pela média das utilidades obtidas nas simulações dessa ação.
⚡ Ação: Porque é importante simular muitos jogos?
👉 Para obter uma estimativa mais precisa da utilidade esperada.
⚡ Ação: Porque simular mais vezes as melhores ações?
👉 Para aumentar a precisão onde mais importa, sem desperdiçar tempo em ações fracas.
⚡ Ação: Porque construir uma pequena árvore antes das simulações?
👉 Para distribuir as simulações pelas ações possíveis e começar o jogo num estado mais profundo.
⚡ Ação: No exemplo de Monte Carlo com 2 jogadores, como se escolhe o melhor lance?
👉 Somando os pontos das simulações (vitórias e empates) e escolhendo o lance com maior total.
⚡ Ação: Que pontuação foi usada para avaliar resultados no exemplo de Monte Carlo com 2 jogadores?
👉 Vitória vale 2 pontos e empate vale 1 ponto.
⚡ Ação: O que fazer se uma simulação demorar demasiado?
👉 Interromper e atribuir empate para não atrasar o processo.
⚡ Ação: Porque é útil reutilizar simulações de lances fortes?
👉 Porque esses lances são mais prováveis de serem escolhidos na jogada seguinte.
⚡ Ação: Porque é que o Monte Carlo funciona mesmo com políticas fracas?
👉 Porque a repetição de muitas simulações compensa decisões subótimas individuais.
⚡ Ação: Como se calcula a utilidade no exemplo de Monte Carlo de 3 jogadores?
👉 Somando vitórias e empates para cada jogador, atribuindo 2 pontos por vitória e 1 por empate.
⚡ Ação: No exemplo de Monte Carlo de 3 jogadores, porque é que o jogador 1 escolhe a terceira alternativa?
👉 Porque essa alternativa tem o maior total de pontos entre as simulações.
⚡ Ação: O Monte Carlo precisa de alterações para 3 jogadores?
👉 Não, apenas passa a somar utilidades para três jogadores em vez de dois.
⚡ Ação: O que caracteriza um jogo com ambiente aleatório?
👉 A existência de eventos não controlados pelos jogadores, como lançar dados.
⚡ Ação: O que é um nó de acaso numa árvore de jogo?
👉 Um estado onde ocorre um evento aleatório em vez de uma jogada de um jogador.
⚡ Ação: Como o MiniMax trata um nó de acaso?
👉 Calcula a utilidade média das alternativas, em vez de maximizar ou minimizar.
⚡ Ação: Porque não há cortes alfa/beta em nós de acaso?
👉 Porque não há jogador a maximizar ou minimizar; não se aplicam limites de decisão.
⚡ Ação: Porque é que o MiniMax sofre com aleatoriedade?
👉 Porque a ramificação aumenta muito, tornando a árvore demasiado grande.
⚡ Ação: Porque é que o Monte Carlo não é afetado pela aleatoriedade?
👉 Porque a simulação já é aleatória por natureza, e os nós de acaso são tratados como jogadas aleatórias.
⚡ Ação: Como se calcula o valor de um nó de acaso no exemplo do MiniMax aleatório?
👉 Pela média dos resultados finais das alternativas desse nó.
⚡ Ação: Porque o jogador 1 escolhe a segunda alternativa no exemplo do MiniMax aleatório?
👉 Porque essa alternativa tem a maior média de utilidade.
⚡ Ação: Como o Monte Carlo aleatório, trata um nó de acaso na simulação?
👉 Como uma jogada aleatória, tal como definido pela política de jogo.
⚡ Ação: De que depende a precisão do Monte Carlo?
👉 Da qualidade da política de jogo e do número de simulações realizadas.
⚡ Ação: O que caracteriza um jogo parcialmente observável?
👉 Parte do estado do jogo não é visível para alguns agentes.
⚡ Ação: Porque o estado é um subconjunto de S, em jogos parcialmente observáveis?
👉 Porque o agente só sabe que pode estar em alguns estados, compatíveis com o que observa, não sabe o estado exato em que está.
⚡ Ação: Porque gerar sucessores é pesado em jogos parcialmente observáveis?
👉 Porque é necessário aplicar cada ação a todos os estados possíveis do subconjunto.
⚡ Ação: Porque o MiniMax é impraticável em jogos parcialmente observáveis?
👉 Porque o número de estados possíveis cresce demasiado, tornando a árvore enorme.
⚡ Ação: Porque o Monte Carlo também é impraticável nesses jogos?
👉 Porque seria necessário simular jogos para muitos estados possíveis, tornando o processo demasiado pesado.
⚡ Ação: O que é um estado de crença?
👉 Uma estimativa do estado real, escolhida de entre os estados compatíveis com a informação observada.
⚡ Ação: Quando atualizar o estado de crença?
👉 Sempre que surgem novas evidências que eliminam estados possíveis.
⚡ Ação: Porque o estado de crença é uma solução subótima?
👉 Porque assume apenas um estado possível, ignorando que o estado real pode ser um entre muitos possíveis.
⚡ Ação: Qual é o exemplo clássico de jogo parcialmente observável?
👉 Jogos de cartas, onde cada jogador desconhece as cartas dos adversários.
⚡ Ação: Porque o dominó é parcialmente observável?
👉 Porque cada jogador vê apenas as suas peças, não as dos outros.
⚡ Ação: Porque jogos parcialmente observáveis são considerados difíceis atualmente?
👉 Porque o volume de estados possíveis é enorme e difícil de gerir computacionalmente.
⚡ Ação: Em que cenários o Monte Carlo é claramente superior ao MiniMax?
👉 Em jogos com elevada ramificação ou com elementos aleatórios, onde a árvore de jogo se torna demasiado grande.
📄 Ver slides (PDF)
Nova pergunta: 🎲