基于Q学习蚁群算法的热网优化方法

摘 要

摘要:以热网最小年费用作为目标函数,引入基于Q学习规则的蚁群算法,建立了热网优化算法。结合算例,比较了比摩阻算法、模拟退火算法、基于Q学习规则蚁群算法,基于Q学习规则蚁群算

摘要:以热网最小年费用作为目标函数,引入基于Q学习规则的蚁群算法,建立了热网优化算法。结合算例,比较了比摩阻算法、模拟退火算法、基于Q学习规则蚁群算法,基于Q学习规则蚁群算法的热网最小年费用最低。
关键词:Q学习;蚁群算法;供热管网优化
Optimization Method of Heat Supply Network with Ant Colony Algorithm Based on Q-learning Rule
CHEN Rui
AbstractTaking the minimum annual cost of heat supply network as objective function,the optimization algorithm for heat supply network is developed by introducing ant colony algorithm based on Q-learuing rule. The specific frictional resistance algorithm,simulated annealing algorithm and ant colony algorithm based on Q-1earning rule are compared using an example. The ant colony algorithm based on Q-learning rule has the lowest minimum annual cost of heat supply network.
Key wordsQ-learning;ant colony algorithm;optimization of heat supply network
1 热网优化模型
1.1 目标函数
    随着我国城市化建设的推进和居民生活水平的提高,城市集中供热系统规模不断扩大。本文研究的热网优化模型以热网年费用最小作为目标函数,主要影响因素包括[1、2]:热网造价、循环泵运行费用、热网年热损失费用、热网年折旧费用,目标函数的表达式为:
    Fmin=g(Fn+Fp+FL+Fd)    (1)
式中Fmin——热网最小年费用,元/a
    Fn——热网造价,元
    Fp——循环泵年运行费用,元/a
    FL——热网年热损失费用,元/a
    Fd——热网年折旧费用,元/a
1.2 主要影响因素
    ① 热网造价
热网造价Fn的计算式为:
 
式中n——热网管段数量
    fi——第i段管段单位长度造价,元/m
    Li——第i段管段长度,m
    B、D——回归系数
    di——第i段管段管径,m
   ② 循环泵年运行费用
   循环泵年运行费用Fp的计算式为:
   
式中ε1——换算系数
    g——重力加速度,m/s2
    qm,p——循环泵的计算质量流量,kg/h
    H——循环泵扬程,m
    Pp——电价,元/(kW·h)
    tp——循环泵年运行时间,h/a
    η——循环泵效率,取0.5~0.7
    ③ 热网年热损失费用
热网年热损失费用FL的计算式为:
 
式中ε2——换算系数
    Ph——热价,元/J
    tn——热网年运行时间,h/a
    K——管道的平均传热系数,W/(m2·K)
    θav——热网年平均水温,℃
    θ0——管道周围介质的平均温度,℃
   β——管道附件的热损失因数
    ④ 热网年折旧费用
热网年折旧费用Fd的计算式为:
Fd=λFn    (5)
式中λ——折旧率
    由式(1)~(5)可知,热网最小年费用F…可转变为管径和管段长度的函数。
1.3 约束条件
   ① 节点流量平衡条件
同一节点的流入、流出质量流量的代数和为零,即:
 
式中m——与该节点有关的管段数量
    qm,r——与该节点有关的第r条管段的质量流量,kg/s
    δr——阈值,当流入时为1,流出时为-1
   ② 质量流量与热负荷的关系
质量流量与热负荷关系的表达式为[3]
 
式中μ——管网漏损系数,取1.05
    Фr——与该节点有关的第r条管段的热负荷,kW
    cp——水的比定压热容,kJ/(kg·K)
    θs——供水温度,℃,取130℃
    θr——回水温度,℃,取70℃
   ③ 管径与质量流量的关系
管径与质量流量关系的表达式为[4]
 
式中dr——与该节点有关的第r条管段的管径,m
    W——管道内表面的当量绝对粗糙度,mm,取0.5mm
    ρ——热水密度,kg/m3
    Rr——与该节点有关的第r条管段的比摩阻,Pa/m,取值范围为60~120Pa/m
2 Q学习蚁群算法
    20世纪90年代,蚁群算法作为一种求解复杂组合优化问题的算法被提出[5],其应用范围已拓展到旅行问题[6]、车间调度问题[7]等领域。但传统蚁群算法存在运算时间较长、容易陷入局部极小、参数选取过程复杂、算法的智能化程度较低等弊病。
    Q学习蚁群算法将Q函数的环境无关性、Agent的学习能力和蚁群算法的分布式计算、正反馈等优点相结合,避免了传统蚁群算法繁琐的参数选取过程,提高了运算效率[8]。蚂蚁对应Q学习算法中的Agent,所研究的多阶段决策问题对应Agent周围的环境。蚂蚁在当前状态s,通过行为选择系统选择状态s下合适的行为a,当前状态s则在行为a的作用下变化至s′。通过学习系统根据反馈信息(包括瞬时回报和期望回报)更新自身的知识(包括Q函数和相关策略知识)。这样的过程重复多次,直至学习过程收敛,此时蚂蚁对应的Agent的策略π*将是最优的。
    假设信息素模型(包括信息素更新规则、强化信号等)和状态转移规则均未知,则对所优化问题的每一个节点j都赋以Q值(行为一状态对),用Q值取代蚂蚁信息素作为决策信息,通过对Q函数变化规律的学习不断逼近最优策略。
设当前状态πj={a1,a2,a3,…,aj}下蚂蚁k位于节点j,蚂蚁将按照ε-贪婪规则确定在节点j′要选择的行为a′,即以概率1-ε按贪婪策略选取当前状态下最大Q值对应的行为。而以概率ε随机选择一个当前状态下允许行为的表达式为:
 
式中aj——蚂蚁在节点,采取的行为
    q——服从区间均匀分布随机数
    ε——概率,一般取0.1
    A——当前仍未被选择的任一项任务
    在第x代循环中,当蚂蚁局构建一个可行解时,按下式更新所含节点的Q值:
 
式中α——学习率,0≤α<1
    Eπj(aj)——蚂蚁在状态πj时采取行为aj获得的瞬时回报
    rand(0,1)——(0,1)区间的一个随机数
    v——问题的最大节点数
    若第x代循环产生了新的当前最优解,则按下式更新所含节点的Q值,表达式为:
   
式中γ——折扣因子,0<y<1
    G——当前状态下可能选择的行为集
    π′——采取了最新行为之后的状态
    Q*——函数的极限
    π*——最优状态
    由于强化信号模型未知,故以(0,1)区间的一个随机数作为当前最优解的瞬时回报值,而未来期望回报则可通过BP网络对Q*值进行估计求得。
3 算例研究
    我们采用文献[1]中的算例进行对比计算,这是一个双热源的枝状供热管网,节点数为23个,运算环境为Java 1.4。
3.1 算法流程
    取与节点j关联的某管段的管径、长度作为节点j的Q函数的行为-状态对——Q值,对所有Q值赋以(0,1)区间随机数。蚂蚁k从任一个热源节点j按式(9)开始搜索,每找到一个可行节点j′,就以当前阶段可行解的倒数作为瞬时回报值按式(10)、(11)更新节点j′的Q值。一旦完成搜索过程且有更好的可行解产生,就以当前最优解的倒数作为期望回报值按式(12)、(13)更新所有可行解节点的Q值。以此类推,直至当前最优解不能再优化。
3.2 计算结果
   针对算例,分别采用比摩阻法、模拟退火法[1]、Q学习蚁群算法的热网优化结果见表1。由表1可知,采用Q学习蚁群算法的热网最小年费用最低。
表1 不同算法的优化结果
算法
比摩阻法
模拟退火法
Q学习蚁群算法
热网最小年费
用/(元·a-1)
246.76×104
227.61×104
221.43×104
4 结论
    将Q学习规则引入蚁群算法,使蚂蚁具备自行寻优的能力,避免了传统蚁群算法复杂的参数选取过程,减少了人为干预,提高了算法的智能性和运算效率。算例研究表明,该算法在热网优化问题中的应用是有效的。
参考文献:
[1] 李祥立,邹平华.基于模拟退火算法的供热管网优化设计[J].暖通空调,2005,(4):77-81.
[2] 赵廷元.热力管道设计手册[M].太原:山西科学教育出版社,1986.
[3] 韦节廷,金洪文,姜洁.大型供热管网优化方案的确定[J].煤气与热力,2003,23(2):80-82.
[4] 师涌江,刘丽莉.供热管网布置的优化方法[J].河北建筑工程学院学报,2004,(4):31-34.
[5] COLORNI A,DORIGO M,MANIEZZO V,et al. Distributed optimization by ant colonies[A].Proceedings of the 1st European Conference on Artificial Life[C].Paris:European Conference on Artificial Life,1991.134-142.
[6] 刘心报,叶强,刘林,等.分支蚁群动态扰动算法求解TSP问题[J].中国管理科学,2005,(6):57-63.
[7] 叶强,刘心报,程浩.改进蚁群算法求解单机总加权延迟调度问题[J].系统仿真学报,2008,(8):2052-2055.
[8] 叶强.基于改进蚁群算法的一类单机调度问题研究(博士学位论文)[D].合肥:合肥工业大学,2008.
 
(本文作者:陈蕊 合肥热电工程公司 安徽合肥 230061)