软件工程的项目管理

Github 配置ssh over https

秋招8Day无伤速通实况记录+面经

RL学习笔记

地面上最好用的Windows免费ocr软件

MID-360快速上手

使用ros分布式远程调试

在wsl2使用rviz

wsl2开发ros1项目clion配置

libpcl_io.so: undefined reference to `libusb_set_option'报错解决

使用clion开发ros项目cmake配置

将项目中指定目录转换为Git子模块的过程包括移除原目录、创建或使用新仓库、添加子模块并同步更新，实现模块的独立管理和版本控制。

将项目中的模块转换成git子模块

VDA5050协议

创建MQTT和ROS TOPIC的桥梁！

ipa路径覆盖算法包使用和魔改

浅谈CS饰品市场

（转）哲学与抑郁症

成为尊贵的Arch Linux用户——arch-win11双系统安装

任何拒开发票，都将绳之以法！

一次淘宝拒开发票维权经历

使用repkg解码wallpaper engine的壁纸格式

把wallpaper engine的壁纸保存为图片

完蛋，我被美女包围了——论肖鹿为什么是神

解决Microsoft store打不开

An encomium—in this case, a speech in praise of Love (Eros).

柏拉图《会饮篇》读书笔记（一）

Bonsai-Guide 盆栽不完全指南！

RubicJellyfish——ROS飞行机器人的任务控制for电赛

康德教你获得高级审美

vercel项目被墙解决办法

黑格尔告诉你爱情的本质是什么

What is love 什么是爱

Ubuntu pastebin是一个网页应用，可以让你把文本片段，通常是源代码或日志文件，粘贴到网上供公众查看。

使用Ubuntu Pastebin分享代码！

怎么还有人在拍屏怎么还有人在拍屏怎么还有人在拍屏怎么还有人在拍屏怎么还有人在拍屏怎么还有人在拍屏怎么还有人在拍屏怎么还有人在拍屏怎么还有人在拍屏

还在拍屏吗？这样在ubuntu截图！

使用麦当劳官方网站计算食物热量以及一些工具

欢迎成为忠实的麦门信徒

系统辨识云台PID调参

电控如何使用视觉套件拉波形调PID

电控使用上位机拉波形指南

经历了两年的大学生活，为何黑格尔派哲学不再贯穿我的生活，这是我的思考…

为什么重新审视黑格尔派哲学

使用NotionNext，将Notion笔记实时渲染成静态博客站，无需购买服务器，只要一个笔记即可搭建自己的独立网站。

基于Notion搭建个人博客教程

项目介绍

技术分享

杂谈

首页

搜索

文字

Github

关于我

友链

单页不会显示在博客列表，会在导航添加一个菜单。

留言板

更多帮助请访问手册 → https://tangly1024.com/article/notion-next-secondary-menu

留言

开发

MQTT

description

created_at

updated_at

visibility

author

image_url

email_contact

phone_number_contact

priority

related_links

password

icon

date

type

slug

status

title

summary

表格

类型为Notice的文章将被显示为公告，仅 hexo和next支持；仅限一个公告

State	agent的状态向量
State Space	所有可能state的集合
State Transition	状态转移
Action	agent的行动
Policy	策略是agent从环境的状态s映射到动作a的函数，即在状态s下选择动作a的概率π(a∣s)
Reward	a real number we get after taking an action
Trajectory	A trajectory is a state-action-reward chain
Return	The return of this trajectory is the sum of all the rewards collected along the trajectory
Discounted return	更远的reward加入衰减系数
Episode	When interactin with the environment following a policy, the agent may stop at som terminal states. The resulting trajectory is called an episode (or a trial).
Episodic Taska vs Continuing Tasks	有限任务和无限任务

基本概念

MDP

如何计算return？

Bootstrapping

the Bellman equation (for this specific deterministic problem)