DeepMind控制套件是一組具有標(biāo)準(zhǔn)化結(jié)構(gòu)和可解釋獎(jiǎng)勵(lì)的連續(xù)控制任務(wù),旨在作為強(qiáng)化學(xué)習(xí)代理的性能基準(zhǔn)。這些任務(wù)是用Python編寫(xiě)的,由MuJoCo物理引擎提供支持,使它們易于使用和修改。我們包括了幾種學(xué)習(xí)算法的基準(zhǔn)。