Reinforcement Learning Theory Book (rus)

Overview

Reinforcement Learning Theory Book (rus)

Full book on Arxiv: https://arxiv.org/abs/2201.09746

  • Ch. 1: Introduction
  • Ch. 2: Meta-heuristics
    • NEAT, WANN
    • CEM, OpenAI-ES, CMA-ES
  • Ch. 3: Classic theory
    • Bellman equations
    • RPI, policy improv. theorem
    • Value Iteration, Generalized Policy Iteration
    • Temporal Difference, Q-learning, SARSA
    • Eligibility Traces, TD-lambda, Retrace
  • Ch. 4: Value-based
    • DQN
    • Double DQN, Dueling DQN, PER, Noisy DQN, Multi-step DQN
    • c51, QR-DQN, IQN, Rainbow DQN
  • Ch. 5: Policy Gradient
    • REINFORCE, A2C, GAE
    • TRPO, PPO
  • Ch. 6: Continuous Control
    • DDPG, TD3
    • SAC
  • Ch. 7: Model-based
    • Bandits
    • MCTS, AlphaZero, MuZero
    • LQR
  • Ch. 8: Next Stage
    • Imitation Learning / Inverse Reinforcement Learning
    • Intrinsic Motivation
    • Multi-Task and Hindsight
    • Hierarchical RL
    • Partial observability
    • Multi-Agent RL
Comments
  • Опечатки

    Опечатки

    До главы 3: Стр. 20, вторая строка "...проблему наши алгоритмА обучения..." Стр. 21, пример "В общем случае MDP, заданное" --> -ый Стр. 23, определение мета-эвристики, в английском названии, кажется, лишние буквы: "stochastic zeroth-order" Стр. 23, после определения, 2 абзац, "В теории мета-эвристик опция «запросить оракул в одной и той же точке несколько раз»". Что имеется в виду под запросить оракул? Может "запросить оракула значение"? Стр. 27, орешек под графиком: "отвечающий за «силу мутаций», например дисперсия σ гауссовского шума в примере 33, а то есть тоже связанный ...". Запятая после "например", и непонятно выражение "а то есть" Стр. 27, самое начало параграфа про эволюционные алгоритмы: "Нам, вообще говоря, на очередном шаге нам доступна", нам Стр. 29, Пример 36 с топологической мутацией: "и выход одного подаётся добавляется к входу", что-то одно лишнее Стр. 29, второй абзац в Видовой специализации: "...выживать особям, оказавшихся в не исследующихся местах...", придирка, но "в не исследуемых местах" звучит лучше Стр. 32, Оценка вероятности редкого события, второй абзац: "Под словами «редкое событие» подразумевается, что выражение в индикаторе не равно нулю с вероятностью, крайне близкой к нулю.". Имелось в виду, что сам индикатор этого выражения равен единице (не равен нулю) с малой вероятностью? Стр. 34, абзац перед 2.2.4: "...Поскольку некоторая доля плохих точек было выкинуто из выборки..." - "доля ... была выкинута" Стр. 38, последний абзац: "Если мы попробуем проделать с данным подходом (оптимизацией (2.5)) проделать тот" - проделать

    opened by mrph2898 9
  • Опечатка в KL-дивергенции

    Опечатка в KL-дивергенции

    Добрый день!

    Как мне кажется, на странице 32 в пункте 2.2.2 сразу после утверждения 3 в формуле есть ошибка. Первое слагаемое не зависит от лямбды, а зависит только от q(x). Об этом говорится и дальше буквально в следующем предложении.

    Исправить это можно предположительно в следующей строчке - https://github.com/FortsAndMills/RL-Theory-book/blob/8d2ab4c1afef7a365af61570a43b0cda60a4d7c5/src/2.MetaHeuristics/2.2.EvolutionStrategies.tex#L55

    opened by hawkeoni 3
  • Опечатка в уравнениях Беллмана

    Опечатка в уравнениях Беллмана

    Добрый день! В примере 44 на странице 41 расписаны уравнения Беллмана. В предпоследнем уравнении V^{pi}(B) в последней скобке есть слагаемое \gamma * V^{pi}(C). Кажется, что вместо него должно было находиться терминальное состояние, т.е. \gamma * 0.

    opened by hawkeoni 2
  • Кажется что ошибка в главе 6

    Кажется что ошибка в главе 6

    Там, где описывается полный алгоритм DDPG (в рамочке) https://github.com/FortsAndMills/RL-Theory-book/blob/main/src/6.ContinuousControl/6.1.DDPG.tex , то там такое условие, что если t mod K == 0то обновляем веса актора и критика по формуле скользящего среднего, но такого нет в оригинальной статье https://arxiv.org/pdf/1509.02971.pdf (стр. 5), там просто на каждом шаге происходит обновление.

    opened by nor-code 1
  • Указание на формулу до её введения

    Указание на формулу до её введения

    5.1.6. Расцепление внешней и внутренней стохастики Итак, давайте попробуем формально понять, из какого распределения приходят состояния в формуле градиента (5.12), и отличается ли оно от µπ(s). Для этого мы сейчас придумаем, как можно записывать функционалы вида

    Кажется, что там должна быть не 5.12, а наверное 5.7, но вообще точно я сказать не могу какая формула имеется в виду.

    opened by CrafterKolyan 1
  • Ошибка в теореме 51

    Ошибка в теореме 51

    Первое выражение в доказательстве выписано непонятно, перепутаны функция распределения и обратная к ней, и к тому же выражение зачем-то приравнено к нулю ещё до взятия градиента. Надо переделать всё доказательство.

    opened by FortsAndMills 0
  • Согласованность термина

    Согласованность термина "стратегия"

    Здравствуйте! Благодарю вас за прекрасный материал!

    Во многих разделах книги переменная π (strategy) употребляется с разным переводом. Где-то "политика", а где-то "стратегия". На мой субъективный взгляд, вне зависимости от раздела термин следует употреблять один и тот же. Например, у издательства Цифра в книге Саттона и Барто такая согласованность соблюдается. Я думаю, их книгу можно считать достаточно авторитетной в плане согласованности с оригиналом.

    Заранее спасибо!

    opened by OlegBEZb 0
Owner
qbrick
qbrick
Numenta Platform for Intelligent Computing is an implementation of Hierarchical Temporal Memory (HTM), a theory of intelligence based strictly on the neuroscience of the neocortex.

NuPIC Numenta Platform for Intelligent Computing The Numenta Platform for Intelligent Computing (NuPIC) is a machine intelligence platform that implem

Numenta 6.3k Dec 30, 2022
Numenta Platform for Intelligent Computing is an implementation of Hierarchical Temporal Memory (HTM), a theory of intelligence based strictly on the neuroscience of the neocortex.

NuPIC Numenta Platform for Intelligent Computing The Numenta Platform for Intelligent Computing (NuPIC) is a machine intelligence platform that implem

Numenta 6.2k Feb 12, 2021
This repository builds a basic vision transformer from scratch so that one beginner can understand the theory of vision transformer.

vision-transformer-from-scratch This repository includes several kinds of vision transformers from scratch so that one beginner can understand the the

null 1 Dec 24, 2021
Code samples for my book "Neural Networks and Deep Learning"

Code samples for "Neural Networks and Deep Learning" This repository contains code samples for my book on "Neural Networks and Deep Learning". The cod

Michael Nielsen 13.9k Dec 26, 2022
Experimental solutions to selected exercises from the book [Advances in Financial Machine Learning by Marcos Lopez De Prado]

Advances in Financial Machine Learning Exercises Experimental solutions to selected exercises from the book Advances in Financial Machine Learning by

Brian 1.4k Jan 4, 2023
Repository for scripts and notebooks from the book: Programming PyTorch for Deep Learning

Repository for scripts and notebooks from the book: Programming PyTorch for Deep Learning

Ian Pointer 368 Dec 17, 2022
Jupyter notebooks for the code samples of the book "Deep Learning with Python"

Jupyter notebooks for the code samples of the book "Deep Learning with Python"

François Chollet 16.2k Dec 30, 2022
Official repository of my book: "Deep Learning with PyTorch Step-by-Step: A Beginner's Guide"

This is the official repository of my book "Deep Learning with PyTorch Step-by-Step". Here you will find one Jupyter notebook for every chapter in the book.

Daniel Voigt Godoy 340 Jan 1, 2023
Free Book about Deep-Learning approaches for Chess (like AlphaZero, Leela Chess Zero and Stockfish NNUE)

Free Book about Deep-Learning approaches for Chess (like AlphaZero, Leela Chess Zero and Stockfish NNUE)

Dominik Klein 189 Dec 21, 2022
A resource for learning about deep learning techniques from regression to LSTM and Reinforcement Learning using financial data and the fitness functions of algorithmic trading

A tour through tensorflow with financial data I present several models ranging in complexity from simple regression to LSTM and policy networks. The s

null 195 Dec 7, 2022
Sample code from the Neural Networks from Scratch book.

Neural Networks from Scratch (NNFS) book code Code from the NNFS book (https://nnfs.io) separated by chapter.

Harrison 172 Dec 31, 2022
MATLAB codes of the book "Digital Image Processing Fourth Edition" converted to Python

Digital Image Processing Python MATLAB codes of the book "Digital Image Processing Fourth Edition" converted to Python TO-DO: Refactor scripts, curren

Merve Noyan 24 Oct 16, 2022
Python Algorithm Interview Book Review

파이썬 알고리즘 인터뷰 책 리뷰 리뷰 IT 대기업에 들어가고 싶은 목표가 있다. 내가 꿈꿔온 회사에서 일하는 사람들의 모습을 보면 멋있다고 생각이 들고 나의 목표에 대한 열망이 강해지는 것 같다. 미래의 핵심 사업 중 하나인 SW 부분을 이끌고 발전시키는 우리나라의 I

SharkBSJ 1 Dec 14, 2021
Deep Learning and Reinforcement Learning Library for Scientists and Engineers 🔥

TensorLayer is a novel TensorFlow-based deep learning and reinforcement learning library designed for researchers and engineers. It provides an extens

TensorLayer Community 7.1k Dec 27, 2022
Learning to trade under the reinforcement learning framework

Trading Using Q-Learning In this project, I will present an adaptive learning model to trade a single stock under the reinforcement learning framework

Uirá Caiado 470 Nov 28, 2022
Learning to Communicate with Deep Multi-Agent Reinforcement Learning in PyTorch

Learning to Communicate with Deep Multi-Agent Reinforcement Learning This is a PyTorch implementation of the original Lua code release. Overview This

Minqi 297 Dec 12, 2022
PyBullet CartPole and Quadrotor environments—with CasADi symbolic a priori dynamics—for learning-based control and reinforcement learning

safe-control-gym Physics-based CartPole and Quadrotor Gym environments (using PyBullet) with symbolic a priori dynamics (using CasADi) for learning-ba

Dynamic Systems Lab 300 Dec 28, 2022
Deep Learning and Reinforcement Learning Library for Scientists and Engineers 🔥

TensorLayer is a novel TensorFlow-based deep learning and reinforcement learning library designed for researchers and engineers. It provides an extens

TensorLayer Community 7.1k Dec 29, 2022