【AI】强化学习常用算法小记(下)|AI
贝尔曼方程的艺术。
引子
上一篇文章主要讲了贝尔曼方程、TRPO和PPO算法。TRPO和PPO都是「基于信号进行优化的算法」。但是信号哪里给出?我们并不知道。也就是说,我们现在再假设存在打分机制的情况下,知道了如何优化。这篇文章讲一讲信号是如何得来的。
在游戏引擎中,信号可以通过A*算法等算法得来,但是再自然语言处理领域,信号则没有一个清晰的算法给出。但是,文本信号是符合马尔可夫性的,所以,可 ...
阅读更多
【AI】强化学习常用算法小记(上)|AI
贝尔曼方程的艺术。
引子
我在科研生涯的第一篇工作就已经接触过RL了,当时的需求是:从文本和图片中分别提取出三元组,通过一种训练方法让这两组三元组之间的相似度尽可能高。选择RL的原因也很简单——提取三元组是没办法进行反向传播的,所以,就用不了SFT,只能用RL。
在最近的工作中,也遇到了一些需要RL的情况,苦于理论知识不充足,吃了很多苦头,这篇文章就记录一下对于常有的RL算法的学习。
强化学习 ...
阅读更多
【拉丁语】「哦,命运女神」的歌词小记|拉丁语引子
笔者很久没有学习拉丁语了,最近在听古典音乐的时候偶然听到了「O Fortuna」这首,暂且根据模糊的拉丁语记忆,写一下歌词小记,主要集中在「每个单词的含义」和「英语中以这些词为词根的单词」等。
第一段
O Fortuna
在这句话中,使用了一种英语汉语没有的格——「呼格」,呼格通常用于称呼人或者事物。O就是「哦!」,Fortuna是第一变格法的阴性名词,以-a结尾。很容易看出来,现代英语 ...
阅读更多
【AI】Prompt设计的技巧与踩坑|AI引子
最近在跑实验的时候,深刻体会到了Prompt的设计对于模型性能的重大影响,这篇文章就来记录一下我所观察到的现象。
越长越好?
和一些初入AI的新手交流的过程中,我经常发现这样一个误区:人们会认为Prompt越长越好。但实际并不是这样。
如果在大量的数据集上做过实验,就容易发现,很多时候,模型依靠短且简略的Prompt的推理,可以比长且详细的Prompt,性能会提高,这个提高的点从0.1个点到 ...
阅读更多
2025年记|年度总结引子
一句话总结2025:苦中作乐。
健康
2025真是我的多病之年,这一年中一直受到恶心病的困扰,吃两口就犯恶心,腹胀,瘦了22斤多。在夏天,由于内蒙古蒿草茂密,导致我的过敏性鼻炎也尤其严重,几近引发更严重的呼吸道疾病。
年末去省中医药大学附属医院看病,第一次体验到了中药的作用,到目前为止,病情被控制得很好了。
我觉得健康这个东西,生活习惯占一部分原因,运气也要占一部分原因,可能某年的年运不佳, ...
阅读更多
【应用伪哲学】死亡驱力与否定论|应用伪哲学
人们会通过成为自己的对立面来成为自己。
死亡驱力
生命是一个艰难的事情,死亡在某些时候,是那样的美好和简单。大多数人们相信这样一种信条:死亡就是一了百了,不再有意识,什么都没有了。弗洛伊德认为,人的生命由两种力量组成——厄洛斯和塔纳托斯,也就是生之驱力和死亡驱力,在埃里希弗洛姆那里,就成为了创造和毁灭的两种力量。在吉尔德勒兹那里,就是结域和解域的过程。在「伪哲学」系列中,我提到过,创造和毁灭是 ...
阅读更多
【Python】Advent Of Code 2025代码实录|Python引子
Advent Of Code是一个年度编程习题活动,每年都会出一些编程题,今年也来试试。可以通过这里参与。
不给出题目的详细描述啦~
我的代码已经开源到https://github.com/coder109/Advent-Of-Code-2025。
最后几道题没时间做了,有机会再补吧,有点小难。
1-1:旋转结果为0的次数
我们的任务是这样的,给定一个0-99标号的转盘,初始位置在50,随后 ...
阅读更多
【应用伪哲学】性化公式与伪娘论|应用伪哲学引子
这个系列将使用伪哲学系列中的理论以及其他的实用的哲学理论,对一些现象进行分析。
伪娘的概念
伪娘这个概念倒不是很复杂,就是通过一些手段,希望让自己被别人认为是“女性”的男性。在这个概念中,有这么两个元素比较重要:手段和被认作女性。伪娘这一概念和药娘不同,是不使用雌激素的,而且他们的自我认同依然是男性。想要让他人将自己认作是女性,那么通常的手段包括:
伪音。模仿女性的声调。
女装。通过 ...
阅读更多
【STM32】TIM定时器中断与通用计时器+内部时钟源代码|STM32引子
STM32中的TIM能够让我们做一些定时操作,TIM就是定时器的简称,这次就来研究一下STM32中定时器是如何工作的。
基本定时器
基本定时器的结构是这样的:
通过来自RCC的时钟,输入到触发控制器。在一般情况下,触发控制器会输出一个计数的信号,然后让CNT计数器自增。当CNT计数器中的数字达到了自动重装载寄存器的值的时候,就产生一个中断或者事件。在这个结构中,预分频器、计数器和自动重装载 ...
阅读更多
【STM32】EXTI外部中断|STM32引子
EXTI是STM32中负责处理外部事件和中断的外设,它监听指定引脚的电平变化,出现符合预期的变化就产生一个中断或者事件。在STM32中,EXTI中断是受NVIC中断系统管理的,从而实现中断的排队或者嵌套。
EXTI的代码应用实际上非常简单,只需要遵循:使能->初始化AFIO引脚->初始化EXTI->初始化NVIC->GPIO中断配置->编写中断处理函数即可。
初 ...
阅读更多