Reinforcement Learning

데이블·2020년 6월 10일·00

Reinforcement Learning강화학습머신러닝PyTorchFrozen Lake

AI 요약

Beta

이 글은 강화학습(Reinforcement Learning)의 기본 개념을 설명하여 입문자가 기초를 이해하도록 돕습니다. 확률, 통계, 머신러닝, PyTorch 기초 지식이 필요합니다.

예시로 Frozen Lake 문제를 소개하며, 에이전트(로봇), 환경(얼어있는 호수), 행동(이동 명령), 보상(목표 달성 시 1, 그 외 0), 상태(로봇의 현재 위치)로 구성되는 강화학습의 일반적인 형태를 설명합니다. 에이전트가 환경에서 행동을 취하면, 환경은 에이전트에게 결과, 상태, 보상을 전달하는 방식으로 강화학습이 작동함을 보여줍니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다

LLMRLHFGPT-4
RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?
빅웨이브에이아이·2024년 1월 24일
LLMRLHF생성 모델
더 나은 생성모델을 위해 RLHF로 피드백 학습시키기
스캐터랩_핑퐁·2023년 8월 30일
LLMRLHF생성 모델
더 나은 생성모델을 위해 RLHF로 피드백 학습시키기
스캐터랩_핑퐁·2023년 8월 29일
Embodied AI로봇 학습Diffusion Policy
Embodied AI 블로그 시리즈, 파트 1: AWS Batch에서 로봇 학습 시작하기
AWS·2026년 3월 13일
LLMRLHFHuman Feedback
RLHF 외에 LLM이 피드백을 학습할 수 있는 방법은 무엇이 있을까?
스캐터랩_핑퐁·2023년 11월 16일

RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?

더 나은 생성모델을 위해 RLHF로 피드백 학습시키기

더 나은 생성모델을 위해 RLHF로 피드백 학습시키기

Embodied AI 블로그 시리즈, 파트 1: AWS Batch에서 로봇 학습 시작하기

RLHF 외에 LLM이 피드백을 학습할 수 있는 방법은 무엇이 있을까?