Reinforcement Learning

Pass@K Policy Optimization: Solving Harder Reinforcement Learning Problems

3D-Prover: Diversity Driven Theorem Proving With Determinantal Point Processes

Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities

TacticZero: Learning to Prove Theorems from Scratch with Deep Reinforcement Learning

New Tricks for Estimating Gradients of Expectations