摘要:以热网最小年费用作为目标函数,引入基于Q学习规则的蚁群算法,建立了热网优化算法。结合算例,比较了比摩阻算法、模拟退火算法、基于Q学习规则蚁群算法,基于Q学习规则蚁群算法的热网最小年费用最低。
关键词:Q学习;蚁群算法;供热管网优化
Optimization Method of Heat Supply Network with Ant Colony Algorithm Based on Q-learning Rule
CHEN Rui
Abstract:Taking the minimum annual cost of heat supply network as objective function,the optimization algorithm for heat supply network is developed by introducing ant colony algorithm based on Q-learuing rule. The specific frictional resistance algorithm,simulated annealing algorithm and ant colony algorithm based on Q-1earning rule are compared using an example. The ant colony algorithm based on Q-learning rule has the lowest minimum annual cost of heat supply network.
Key words:Q-learning;ant colony algorithm;optimization of heat supply network
1 热网优化模型
1.1 目标函数
随着我国城市化建设的推进和居民生活水平的提高,城市集中供热系统规模不断扩大。本文研究的热网优化模型以热网年费用最小作为目标函数,主要影响因素包括[1、2]:热网造价、循环泵运行费用、热网年热损失费用、热网年折旧费用,目标函数的表达式为:
Fmin=g(Fn+Fp+FL+Fd) (1)
式中Fmin——热网最小年费用,元/a
Fn——热网造价,元
Fp——循环泵年运行费用,元/a
FL——热网年热损失费用,元/a
Fd——热网年折旧费用,元/a
1.2 主要影响因素
① 热网造价
热网造价Fn的计算式为:
式中n——热网管段数量
fi——第i段管段单位长度造价,元/m
Li——第i段管段长度,m
B、D——回归系数
di——第i段管段管径,m
② 循环泵年运行费用
循环泵年运行费用Fp的计算式为:
式中ε1——换算系数
g——重力加速度,m/s2
qm,p——循环泵的计算质量流量,kg/h
H——循环泵扬程,m
Pp——电价,元/(kW·h)
tp——循环泵年运行时间,h/a
η——循环泵效率,取0.5~0.7
③ 热网年热损失费用
热网年热损失费用FL的计算式为:
式中ε2——换算系数
Ph——热价,元/J
tn——热网年运行时间,h/a
K——管道的平均传热系数,W/(m2·K)
θav——热网年平均水温,℃
θ0——管道周围介质的平均温度,℃
β——管道附件的热损失因数
④ 热网年折旧费用
热网年折旧费用Fd的计算式为:
Fd=λFn (5)
式中λ——折旧率
由式(1)~(5)可知,热网最小年费用F…可转变为管径和管段长度的函数。
1.3 约束条件
① 节点流量平衡条件
同一节点的流入、流出质量流量的代数和为零,即:
式中m——与该节点有关的管段数量
qm,r——与该节点有关的第r条管段的质量流量,kg/s
δr——阈值,当流入时为1,流出时为-1
② 质量流量与热负荷的关系
质量流量与热负荷关系的表达式为[3]:
式中μ——管网漏损系数,取1.05
Фr——与该节点有关的第r条管段的热负荷,kW
cp——水的比定压热容,kJ/(kg·K)
θs——供水温度,℃,取130℃
θr——回水温度,℃,取70℃
③ 管径与质量流量的关系
管径与质量流量关系的表达式为[4]:
式中dr——与该节点有关的第r条管段的管径,m
W——管道内表面的当量绝对粗糙度,mm,取0.5mm
ρ——热水密度,kg/m3
Rr——与该节点有关的第r条管段的比摩阻,Pa/m,取值范围为60~120Pa/m
2 Q学习蚁群算法
20世纪90年代,蚁群算法作为一种求解复杂组合优化问题的算法被提出[5],其应用范围已拓展到旅行问题[6]、车间调度问题[7]等领域。但传统蚁群算法存在运算时间较长、容易陷入局部极小、参数选取过程复杂、算法的智能化程度较低等弊病。
Q学习蚁群算法将Q函数的环境无关性、Agent的学习能力和蚁群算法的分布式计算、正反馈等优点相结合,避免了传统蚁群算法繁琐的参数选取过程,提高了运算效率[8]。蚂蚁对应Q学习算法中的Agent,所研究的多阶段决策问题对应Agent周围的环境。蚂蚁在当前状态s,通过行为选择系统选择状态s下合适的行为a,当前状态s则在行为a的作用下变化至s′。通过学习系统根据反馈信息(包括瞬时回报和期望回报)更新自身的知识(包括Q函数和相关策略知识)。这样的过程重复多次,直至学习过程收敛,此时蚂蚁对应的Agent的策略π*将是最优的。
假设信息素模型(包括信息素更新规则、强化信号等)和状态转移规则均未知,则对所优化问题的每一个节点j都赋以Q值(行为一状态对),用Q值取代蚂蚁信息素作为决策信息,通过对Q函数变化规律的学习不断逼近最优策略。
设当前状态πj={a1,a2,a3,…,aj}下蚂蚁k位于节点j,蚂蚁将按照ε-贪婪规则确定在节点j′要选择的行为a′,即以概率1-ε按贪婪策略选取当前状态下最大Q值对应的行为。而以概率ε随机选择一个当前状态下允许行为的表达式为:
式中aj——蚂蚁在节点,采取的行为
q——服从区间均匀分布随机数
ε——概率,一般取0.1
A——当前仍未被选择的任一项任务
在第x代循环中,当蚂蚁局构建一个可行解时,按下式更新所含节点的Q值:
式中α——学习率,0≤α<1
Eπj(aj)——蚂蚁在状态πj时采取行为aj获得的瞬时回报
rand(0,1)——(0,1)区间的一个随机数
v——问题的最大节点数
若第x代循环产生了新的当前最优解,则按下式更新所含节点的Q值,表达式为:
式中γ——折扣因子,0<y<1
G——当前状态下可能选择的行为集
π′——采取了最新行为之后的状态
Q*——函数的极限
π*——最优状态
由于强化信号模型未知,故以(0,1)区间的一个随机数作为当前最优解的瞬时回报值,而未来期望回报则可通过BP网络对Q*值进行估计求得。
3 算例研究
我们采用文献[1]中的算例进行对比计算,这是一个双热源的枝状供热管网,节点数为23个,运算环境为Java 1.4。
3.1 算法流程
取与节点j关联的某管段的管径、长度作为节点j的Q函数的行为-状态对——Q值,对所有Q值赋以(0,1)区间随机数。蚂蚁k从任一个热源节点j按式(9)开始搜索,每找到一个可行节点j′,就以当前阶段可行解的倒数作为瞬时回报值按式(10)、(11)更新节点j′的Q值。一旦完成搜索过程且有更好的可行解产生,就以当前最优解的倒数作为期望回报值按式(12)、(13)更新所有可行解节点的Q值。以此类推,直至当前最优解不能再优化。
3.2 计算结果
针对算例,分别采用比摩阻法、模拟退火法[1]、Q学习蚁群算法的热网优化结果见表1。由表1可知,采用Q学习蚁群算法的热网最小年费用最低。
表1 不同算法的优化结果
算法
|
比摩阻法
|
模拟退火法
|
Q学习蚁群算法
|
热网最小年费
用/(元·a-1)
|
246.76×104
|
227.61×104
|
221.43×104
|
4 结论
将Q学习规则引入蚁群算法,使蚂蚁具备自行寻优的能力,避免了传统蚁群算法复杂的参数选取过程,减少了人为干预,提高了算法的智能性和运算效率。算例研究表明,该算法在热网优化问题中的应用是有效的。
参考文献:
[1] 李祥立,邹平华.基于模拟退火算法的供热管网优化设计[J].暖通空调,2005,(4):77-81.
[2] 赵廷元.热力管道设计手册[M].太原:山西科学教育出版社,1986.
[3] 韦节廷,金洪文,姜洁.大型供热管网优化方案的确定[J].煤气与热力,2003,23(2):80-82.
[4] 师涌江,刘丽莉.供热管网布置的优化方法[J].河北建筑工程学院学报,2004,(4):31-34.
[5] COLORNI A,DORIGO M,MANIEZZO V,et al. Distributed optimization by ant colonies[A].Proceedings of the 1st European Conference on Artificial Life[C].Paris:European Conference on Artificial Life,1991.134-142.
[6] 刘心报,叶强,刘林,等.分支蚁群动态扰动算法求解TSP问题[J].中国管理科学,2005,(6):57-63.
[7] 叶强,刘心报,程浩.改进蚁群算法求解单机总加权延迟调度问题[J].系统仿真学报,2008,(8):2052-2055.
[8] 叶强.基于改进蚁群算法的一类单机调度问题研究(博士学位论文)[D].合肥:合肥工业大学,2008.
(本文作者:陈蕊 合肥热电工程公司 安徽合肥 230061)
您可以选择一种方式赞助本站
支付宝转账赞助
微信转账赞助