Identification and recovery of abnormal data in environmental monitoring
-
摘要:
为获取完整、可靠的环境监测数据,提出一种基于GeoHash算法的局部离群因子算法(GeoHash-LOF)。相较于传统的局部离群因子算法(LOF),GeoHash-LOF算法引入了地址划分和区域编码的思想,降低了算法计算量。针对识别出来的异常数据,采用基于遗传算法改进的灰色预测(GA-GM)算法进行修复,通过对灰色预测中的背景值和初值进行择优,从而提高预测值的准确度。以欧洲核能机构所提供的数据为例,将本文所提出的GeoHash-LOF算法、GA-GM算法与其他算法进行比较,结果表明本文所提出的算法异常数据识别效率更高且缺失数据修复拟合度更好。
-
关键词:
- 环境监测 /
- 数据修复 /
- GeoHash-LOF算法 /
- GA-GM算法
Abstract:A local outlier factor algorithm based on GeoHash approach (GeoHash-LOF) was proposed to obtain comprehensive and reliable environmental monitoring data. Compared to the traditional LOF algorithm, GeoHash-LOF introduced the concepts of address partitioning and region encoding, significantly reducing computational overhead. Identified outlier data was repaired using Genetic Algorithm-improved Grey Model (GA-GM) prediction technique. By optimizing the background value and initial value in the grey prediction model, the accuracy of prediction was enhanced. Taking the data provided by European Nuclear Energy Agency (ENEA) as an example, the proposed GeoHash-LOF algorithm and GA-GM technique were compared with other algorithms. The results demonstrated that the proposed algorithms exhibited higher efficiency in identifying anomaly data and achieved better fit in missing data restoration.
-
Keywords:
- environmental monitoring /
- data recovery /
- GeoHash-LOF algorithm /
- GA-GM algorithm
-
随着我国生态文明建设的推进,环境保护任务越来越艰巨,标准也越来越高[1]。环境监测在环境保护和治理中发挥了重要作用,监测数据可为环境保护部门治理污染问题提供有力的数据支持[2]。然而,环境监测设备在数据采集和传输时可能会发生故障,产生异常数据,从而降低环境监测数据的可靠性和准确度。因此,对异常数据进行识别显得极为重要。
异常数据识别作为数据挖掘领域中一项重要的技术,广泛应用于金融、网络、保险、股票等多个领域[3]。Birant等[4]在2006年首次提出局部离群因子算法(LOF),其核心思想是利用数据之间的密度关系来对异常值进行识别。相较于其他识别算法,LOF算法能够有效识别数据集中的局部异常,但计算量较大。杨风召等[5]在LOF算法的基础上提出了InLOF算法,用于在动态环境下实现局部异常的识别。相较于LOF算法,InLOF算法可以降低动态数据集计算量,而对静态数据集效果不明显。鲁树武等[6]提出了一种基于DFLOF的数据可信度评价模型,利用动态融合局部异常因子算法评估数据的可信度,保证异常数据识别的准确率,但仍需要较大的计算量。
为了降低LOF算法的计算量,可以通过对数据区间进行降维来处理。GeoHash是Gustavo Niemeyer提出的一种经纬度地理编码方法,核心思想是沿着经度和纬度的方向交替二分地球表面,从而将二维经纬度编码为一维字符串[7]。因此,GeoHash可以将二维空间查询转换为一维空间查询[8]。利用此优势,GeoHash可以进行空间目标的快速定位。本文在LOF算法的基础上进行了改进,通过引入GeoHash算法来对数据集进行区域划分和地址编码,在异常数据识别时仅需要对待识别数据所在区域和相邻区域进行运算,减掉了大量无用数据,降低了算法计算量。
同时,对于识别出来的异常数据可以用数据预测的方式进行修复。灰色预测作为一种小数据预测方法,自1982年问世以来就获得了飞速发展[9]。灰色预测方程GM(1,1)通常较为简单,只需要较少的样本量就可以进行预测,故已成为诸多工程领域预测研究中的主导模型[10-11]。在灰色预测模型中,GM(1,1)模型应用较为广泛,其表示一阶的、单个变量的微分方程预测模型[12]。但由于灰色预测模型样本少,公式简单,通常仅适用于短期预测,且预测精确度较低。为了提高GM(1,1)模型的精度和广泛性,许多学者对GM(1,1)模型进行了改进[13],如吴永强等[14]依据灰色模型理论构造了由5个GM(1,1)模型组成的灰色动态模型群,降低了GM(1,1)模型的预测误差;张英芝等[15]则考虑到灰色预测中的背景值,通过对背景值进行择优提高了灰色模型预测准确度;张大海等[16]提出了一种改进的灰色预测算法,通过使用原始序列来对模型中初值进行修正以实现优化,从而提高了预测的准确度。
文献[14-16]均是通过对GM(1,1)进行参数优化来提高模型预测精度,但却忽略了原始序列波动所带来的预测误差。为此,本文提出了GA-GM算法来对环境监测数据进行修复,通过采用弱化因子来降低原始序列波动所形成的预测误差。同时考虑到遗传算法具有同组进化的特点,能够在满足各约束条件下得到最优方案[17],故采用遗传算法来对GM(1,1)的初值和背景值同时进行择优,从而得到改进的GM(1,1)预测模型。
1. 异常数据识别与修复的研究方法
针对环境监测数据集带有异常数据、可靠性不高的问题,可将其分解为异常数据识别和异常数据修复2个子问题来分别求解。对此,笔者提出了一种GeoHash-LOF算法来对异常数据进行识别,并将识别出的异常值作为待修复数据,通过GA-GM算法对其进行修复。
1.1 GeoHash-LOF算法
在异常数据识别方面,LOF算法可以实现对局部异常数据的识别,但计算量较大。由于在LOF算法中,需计算待测对象$ {d_i} $和数据空间内各点距离来判定$ {d_i} $的第K距离领域,因此造成了大量计算。考虑到$ {d_i} $的第K距离领域是以$ {d_i} $为圆心,以$ {d_i} $的第K距离为半径的圆,且范围远小于数据空间,故可采用对数据空间进行划分的方法来求取$ {d_i} $的第K距离领域。
通过对数据空间进行划分,求取$ {d_i} $的第K距离领域时仅需计算$ {d_i} $与其所在空间和相邻空间内各点的距离即可,而无需计算$ {d_i} $与整个数据空间内各点的距离,从而降低了算法计算量。同时,GeoHash作为一种地址编码算法,能够将二维空间划分成不同的区域并对其进行编码。GeoHash中的每一个字母或者数字都由5个字节组成,这样可以将整个数据空间分为32个区域,并通过00000~11111来标识这32个区域。使用GeoHash编码过程如下:经度和纬度均采用二分法处理,以中间值为界限,如大于中间值则为1,小于或等于中间值则为0,对其进行递归求得经纬度序列,如图1所示。
通过将GeoHash算法引入到LOF算法中,能够快速实现对待测对象所在空间及相邻空间的判定,进而缩短算法执行时间。假定数据集为$ D_1= \left\{ {{d_1},{d_2}, \cdots ,{d_n}} \right\} $,GeoHash-LOF算法步骤如下:
步骤1:将时间轴作为纬度轴,数据轴作为经度轴,将其划分成$ a \times b $个等面积区域并进行地址编码。
步骤2:依次计算待测数据$ {d_i}(i = 1,2,\cdots,n) $与待测区域内各点的欧式距离。当$ a = b = 64 $时,区域划分如图2所示,若待测数据$ {d_i}(i = 1,2,\cdots,n) $所在区域为wm6n,则虚线内区域为待测区域。
步骤3:将得到的欧氏距离按照大小进行排序得到序列$ {d_i}L = \left\{ {{d_i}{L_1},{d_i}{L_2}, \cdots ,{d_i}{L_\lambda }} \right\} $,其中$ \lambda $为点$ {d_i} $与待测区域内各点的数目总和。
步骤4:给定参数K,得到对象${d_i}$的K距离$ {d_i}{l_K} $和对象$ {d_i} $的第K距离领域,图3给出了K=5时对象${d_i}$第K距离和对象${d_i}$第K距离领域。
步骤5:比较对象$ {d_i} $第K领域内所有点的第K距离$ {o_j}{l_K} $和$ {d_i}{l_K} $的大小,若$ {o_j}{l_K} \lt {d_i}{l_K} $则认为对象$ {d_i} $相对于领域内对象$ o $的可达距离$ \mathrm{rech}-\mathrm{dis}(d_i,o) $为$ {d_i}{l_K} $,否则为$ {o_j}{l_K} $,如图4所示。
$$ {\mathrm{rech - dis}}({d_i},o) = \max ({d_o}{l_K},{d_i}{l_K}) $$ (1) 步骤6:计算对象di的局部离群点因子LOF(di),其中LOF(di)表示数据点di的离群程度。若LOF(di)大于给定数值R,则认为对象di为异常数据。LOF(di)的计算公式为:
$${\mathrm{ LOF}}({d_i}) = \dfrac{{{\displaystyle{\sum} _{o \in {N_K}({d_i})}}\dfrac{{lr{d_K}(o)}}{{lr{d_K}({d_i})}}}}{{\left| {{N_K}({d_i})} \right|}} $$ (2) 式中:$ \left| {{N_K}({d_i})} \right| $为对象$ {d_i} $的第K距离领域内数据数量;$ lr{d_K}(o) $和$ lr{d_K}({d_i}) $分别为数据$ o $和数据$ {d_i} $的第K距离领域内数据平均可达距离的倒数。
GeoHash算法的核心思想是将数据空间划分并进行地址编码,需要解决的关键问题是如何确定合适的划分次数。若数据空间对应的划分次数过大,会造成单位区域包含数据量过低,导致精度降低;若数据空间对应的划分次数过小,会造成单位区域包含数据量过高,导致计算量增加。理想情况下,划分后待测区域应恰好包含待测数据$ {d_i} $的第K区域,如图5所示。
此时,单位区域内数据量m等于或略大于$ K/9 $,如式(3)所示:
$$ m \geqslant K/9 $$ (3) 当待测数据量为N时,不同GeoHash编码长度下单位区域内平均数据量见表1。
表 1 不同编码长度下单元格平均数据量Table 1. Average data volume of cells with different coding lengths编码长度 字节/bits 区域数量 单位区域内平均数据量 1 5 $ {2^5} $ N/$ {2^5} $ 2 10 $ {2^{10}} $ N/$ {2^{10}} $ 3 15 $ {2^{15}} $ N/$ {2^{15}} $ 4 20 $ {2^{20}} $ N/$ {2^{20}} $ 1.2 GA-GM算法
在异常数据修复中,取异常数据前n个数据作为原始序列$ {x_0} $,对$ {x_0} $进行累加计算得到序列$ {x_1} $,其计算公式如下:
$$ x_1=\sum\limits_{k=1}^ix_0(k)\qquad i=1,2,\cdots,n $$ (4) 假定生成的序列$ {x_1} $符合近似指数规律变化,则GM(1,1)预测方程为:
$$ {\hat x_1}(k + 1) = \left[ {{x_0}(1) - \frac{u}{a}} \right]{{\mathrm{e}}^{ - ak}} + \frac{u}{a} $$ (5) 其中
$$ {\left( {a,u} \right)^{\mathrm{T}}} = {({{\boldsymbol{B}}^{\mathrm{T}}}{\boldsymbol{B}})^{ - 1}}{{\boldsymbol{B}}^{\mathrm{T}}}{\boldsymbol{Y}} $$ (6) $$ {\boldsymbol{Y}} = {\left[ {\begin{array}{*{20}{c}} {{x_0}(2)}&{{x_0}(3)}& \cdots &{{x_0}(n)} \end{array}} \right]^{\mathrm{T}}} $$ (7) $$ {\boldsymbol{B}} = \left[ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} { - z(1)} \\ { - z(2)} \\ \vdots \\ { - z(n - 1)} \end{array}}&{\begin{array}{*{20}{c}} 1 \\ 1 \\ \vdots \\ 1 \end{array}} \end{array}} \right] $$ (8) 式中: a为白化微分方程的系数;u为灰度指数;$ {\hat x_1} $为$ {x_1} $的估计值;$ z(k) = g{x_1}(k) + (1 - g){x_1}(k + 1) $;g为背景值参数,取值为0.5。
1.2.1 引入弱化因子
为了避免原始数据中数据波动过大从而影响预测结果,本文引入了弱化因子(D)来对原始数据进行修正,修正公式为:
$$ \left\{ {\begin{array}{*{20}{l}} {{x_d} = \left\{ {{x_d}(1),{x_d}(2), \cdots ,{x_d}(n)} \right\}} \\ {{x_d}(k) = D \left\{{x(k) + x(k + 1) + \cdots + x(n)} \right\}} \\ {D = 1/(n - k + 1)} \end{array}} \right. $$ (9) 式中$ {x_d} $为引入弱化因子D后的原始数据序列。将引入D后的$ {x_d} $代入式(4)中,按照传统GM(1,1)模型进行运算即可。
1.2.2 遗传算法优化参数
在GM(1,1)算法中,背景值和初值的选取均会影响预测结果的准确性。为了降低算法预测误差,可通过遗传算法对GM(1,1)算法参数进行调优。
在背景值的调优中,为简化运算,传统GM(1,1)算法通常选取g=0.5,将背景值$ z(k) $等效为梯形ABCD的面积$ \hat z(k) $(图6),计算公式如下:
$$ \hat z(k) = g{x_1}(k) + (1 - g){x_1}(k + 1) $$ (10) 由图6可知,等效值和真实值之间存在误差,其中阴影部分表示误差,真实值为
$$ z(k) = \int_k^{k + 1} {{x_1}(t){\mathrm{d}}t} $$ (11) 因此需要对背景值参数g进行择优,使得背景等效值更接近真实值。
在初值调优中,GM(1,1)算法预测序列$ {\hat x_1} $为
$$ {\hat x_1}(k + 1) = \frac{c}{a}{{\mathrm{e}}^{ - ak}} + \frac{u}{a} $$ (12) 假定$ {\hat x_1}(1) = {x_1}(1) = {x_0}(1) $可得
$$ - \frac{c}{a} = {x_0}(1) - \frac{u}{a} $$ (13) 将式(13)带入式(12)便得到GM(1,1)算法的预测公式,如式(5)所示。由于取$ {\hat x_1}(1) = {x_0}(1) $,则预测曲线一定通过点$ {x_0}(1) $。但平均相对误差(MRE)最小时,拟合曲线未必通过点$ {x_0}(1) $,如图7所示。故可选用其他数据作为假定条件进行求解。
GA-GM算法预测公式为:
$$ {\hat x_1}(k + 1) = \left[ {{x_0}(m) - \frac{u}{a} + \lambda } \right]{{\mathrm{e}}^{ - a(k - m + 1)}} + \frac{u}{a} $$ (14) 式中:$ \lambda $为修正量;$ m $可以根据具体问题从1~n中选择。
GA-GM算法步骤如下:
步骤1:引入弱化因子D对原始数据$ {x_0} $进行修正,得到修正原始序列$ {x_d} $。
步骤2:选取$ m = 1 $,参数$ \lambda $取值范围为$ \left[ { - 0.1{x_d}(m),0.1{x_d}(m)} \right] $,g取值范围为0~1。
步骤3:随机生成q个个体作为初始种群W,设置最大进化代数F,交叉概率$ {P_m} $,变异概率$ {P_n} $。将这些随机生成的个体进行解码运算,将解码后数值带入下式计算个体适应度(Sj):
$$ {S_j} = \frac{1}{n}\sum\limits_{i = 1}^n {\left| {\frac{{{x_0}(i)}}{{\hat x(i) - {x_0}(i)}}} \right|} \qquad j = 1,2, \cdots ,q $$ (15) 式中,$ \hat x(i) $为预测值。
步骤4:采取赌盘算法随机选取种群中的2个个体,将被选取的个体视为父代个体,个体被选中的概率随着适应度的增加而提高。个体被选中的概率为
$$ {p_j} = {{{S_j}}}/{{\displaystyle\sum\limits_{j = 1}^q {{S_j}} }}\qquad j = 1,2, \cdots ,q $$ (16) 步骤5:根据交叉概率$ {P_m} $和变异概率$ {P_n} $来确定在子代个体的产生过程中是否会进行染色体交叉或者是否进行变异。并计算交配所产生子代个体的适应度,如果子代个体的适应度高于当前群体中表现最差的个体,则将最差的个体进行替换,否则当前群体中个体维持不变。
步骤6:重复步骤4直至达到所设置的最大进化代数,选取此时适应度最高的个体作为局部最优解。计算其平均误差率。依次选取$ m = 2,3,\cdots,n $,重复步骤2,获取$ m $取不同值时局部最优解,并从局部最优解中选取全局最优解。
2. 实例研究
以ENEA(European Nuclear Energy Agency)提供的来自意大利某道路空气质量集作为试验数据集,该数据集包含2005年内空气质量检测设备所获取的9 358组数据。选取绝对湿度来验证本文所提出的GeoHash-LOF和GA-GM算法。
2.1 异常数据的识别
对GeoHash-LOF算法与传统LOF算法的识别的执行时间进行比较,验证GeoHash-LOF算法的有效性。图8为在不同K下GeoHash-LOF算法和传统LOF算法执行时间的比较。由于GeoHash-LOF算法中大部分数据点仅需与其所在区域和相邻区域内数据点进行距离计算,故算法计算时间低于传统LOF算法。由图8可以看到,当数据量为1 300时,GeoHash-LOF算法的平均检索时间为2.38 s,相较于LOF算法的平均检索时间3.96 s降低了38.7%,且随着数据量的增加,改进效果越加明显。
2.2 异常数据的修复
选取2005年2月11日22:00—2月24日08:00绝对湿度的300个数据作为试验数据,验证本文所提出的GA-GM算法的有效性。首先在原始数据集中加入8个异常数据,异常数据时刻相距2月11日22:00分别为30、60、90、120、150、180、210、240 h,采用GeoHash-LOF进行识别,其识别结果如图9所示。
由图9可见,经GeoHash-LOF识别出来的异常数据时刻相距2月11日22:00依次为30、37、60、90、120、150、180、210、240 h,其识别准确率为89%。针对识别出来的异常数据,可采用GA-GM算法进行修复。以位置90 h处异常数据为例,取前8位数据作为原始数据,原始数据如表2所示。
表 2 原始数据Table 2. Raw data序号 1 2 3 4 5 6 7 8 绝对湿度/(kg/m3) 40.8 41.5 39.9 39.5 32.7 24.9 19.8 19.3 结合文献[18]中遗传算法参数设定规则,种群规模过小会导致精确度差,过大会导致处理性能降低,种群规模通常选取20~100;交叉概率过大会导致丢失优秀个体,过小会降低种群更新效率,通常选取交叉概率为0.35~0.80;变异概率过大会导致算法退化,过小会使种群的多样性受损,通常选取变异概率为0.001~0.1;迭代次数过大会浪费计算资源,过小会导致算法难以收敛,通常选取迭代次数为100~500。
选取种群规模为100,交叉概率为0.80,变异概率为0.05,遗传迭代至250次结束,将GA-GM算法与文献[15]中GGWO-GM算法和文献[16]中改进GM算法进行比较,结果如表3所示。
表 3 不同算法比较结果Table 3. Comparison results of different algorithms实际
数据GA-GM算法 GGWO-GM算法[15] 改进GM算法[16] 预测数据 误差/% 预测数据 误差/% 预测数据 误差/% 40.8 40.80 40.80 40.80 41.5 47.26 13.88 43.81 5.58 42.32 1.99 39.9 38.53 −3.43 38.33 −3.93 37.30 −6.51 39.5 35.95 −8.98 33.52 −15.12 32.87 −16.77 32.7 32.63 −0.30 29.33 −10.31 28.97 −11.39 24.9 27.06 8.67 25.65 3.04 25.53 2.57 19.8 20.82 5.15 22.44 13.35 22.50 13.68 19.3 18.28 −5.28 19.63 1.72 19.83 2.79 选取平均相对误差(MRE)和均方误差(MSE)为模型的验证指标,将本文所提出的GA-GM算法和GGWO-GM算法[15]、改进GM算法[16]进行比较,验证GA-GM算法的有效性。各模型验证指标见表4。
MRE、MSE计算公式:
$${\mathrm{ MRE }}= \frac{1}{n}\sum\limits_{i = 1}^n {\left| {\frac{{{{\hat x}_0}(i) - {x_0}(i)}}{{{x_0}(i)}}} \right|} $$ (17) $$ {\mathrm{MSE}} = \frac{1}{n}\sum\limits_{i = 1}^n {{{\left[{{{\hat x}_0}(i) - {x_0}(i)} \right]}^2}} $$ (18) 由表4可知,相较于GGWO-GM算法和改进GM算法,GA-GM算法与原始数据的拟合度更高、预测误差也更小。这是由于GA-GM算法考虑了原始数据波动对预测结果带来的误差影响,并通过引入弱化因子D对原始数据的波动进行了修正。同时GA-GM算法综合考虑了GM(1,1)算法中模型参数对预测结果的影响,并通过对参数调优来提高预测精度。
基于上述结果可验证GA-GM算法的可行性和有效性,结合现有的环境监测场景,可为环境保护工作的开展发挥重要作用。
3. 结论
(1)针对现有异常数据识别算法的不足,提出了一种GeoHash-LOF算法,该方法通过对数据区间进行降维和地址编码,来降低LOF算法的计算量。GeoHash-LOF算法相较于LOF算法降低了算法检索时间。
(2)在异常数据修复方面,提出了一种GA-GM算法。在已有研究的基础上,从降低原始数据波动和优化GM(1,1)算法参数2个方面改进GM(1,1)算法。通过将GA-GM算法与GGWO-GM算法和改进GM算法进行比较,结果表明GA-GM预测精度分别提高了13.9%和18.0%,预测值更接近真实值,从而提高了数据修复精度。
-
表 1 不同编码长度下单元格平均数据量
Table 1 Average data volume of cells with different coding lengths
编码长度 字节/bits 区域数量 单位区域内平均数据量 1 5 $ {2^5} $ N/$ {2^5} $ 2 10 $ {2^{10}} $ N/$ {2^{10}} $ 3 15 $ {2^{15}} $ N/$ {2^{15}} $ 4 20 $ {2^{20}} $ N/$ {2^{20}} $ 表 2 原始数据
Table 2 Raw data
序号 1 2 3 4 5 6 7 8 绝对湿度/(kg/m3) 40.8 41.5 39.9 39.5 32.7 24.9 19.8 19.3 表 3 不同算法比较结果
Table 3 Comparison results of different algorithms
实际
数据GA-GM算法 GGWO-GM算法[15] 改进GM算法[16] 预测数据 误差/% 预测数据 误差/% 预测数据 误差/% 40.8 40.80 40.80 40.80 41.5 47.26 13.88 43.81 5.58 42.32 1.99 39.9 38.53 −3.43 38.33 −3.93 37.30 −6.51 39.5 35.95 −8.98 33.52 −15.12 32.87 −16.77 32.7 32.63 −0.30 29.33 −10.31 28.97 −11.39 24.9 27.06 8.67 25.65 3.04 25.53 2.57 19.8 20.82 5.15 22.44 13.35 22.50 13.68 19.3 18.28 −5.28 19.63 1.72 19.83 2.79 -
[1] 李信茹, 周民, 米屹东, 等. 智慧环保体系在环境治理中的应用[J]. 环境工程技术学报,2021,11(5):992-1003. LI X R, ZHOU M, MI Y D, et al. Application of smart environmental protection system in environmental management[J]. Journal of Environmental Engineering Technology,2021,11(5):992-1003.
[2] 车元鸿, 魏张东. 计算机在环境监测中的应用探讨[J]. 环境工程,2022,40(4):273-274. CHE Y H, WEI Z D. Application of computer in environmental monitoring[J]. Environmental Engineering,2022,40(4):273-274.
[3] WANG H, ZHANG N, DU E S, et al. An adaptive identification method of abnormal data in wind and solar power stations[J]. Renewable Energy,2023,208:76-93. DOI: 10.1016/j.renene.2023.03.081
[4] BIRANT D, KUT A. Spatio-temporal outlier detection in large databases[J]. Journal of Computing and Information Technology,2006,14(4):291. DOI: 10.2498/cit.2006.04.04
[5] 杨风召, 朱扬勇, 施伯乐. IncLOF: 动态环境下局部异常的增量挖掘算法[J]. 计算机研究与发展,2004,41(3):477-484. YANG F Z, ZHU Y Y, SHI B L. IncLOF: an incremental algorithm for mining local outliers in dynamic environment[J]. Journal of Computer Research and Development,2004,41(3):477-484.
[6] 鲁树武, 伍小龙, 郑江, 等. 基于动态融合LOF的城市污水处理过程数据清洗方法[J]. 控制与决策,2022,37(5):1231-1240. LU S W, WU X L, ZHENG J, et al. Data-cleaning method based on dynamic fusion LOF for municipal wastewater treatment process[J]. Control and Decision,2022,37(5):1231-1240.
[7] 金安, 程承旗, 宋树华, 等. 基于Geohash的面数据区域查询[J]. 地理与地理信息科学,2013,29(5):31-35. [8] 涂国庆, 杨延浩, 刘树波. Geohash编码抗k近邻攻击的脆弱性分析[J]. 信息网络安全,2021,21(2):10-15. TU G Q, YANG Y H, LIU S B. Vulnerability analysis of geohash code against k-nearest neighbor attack[J]. Netinfo Security,2021,21(2):10-15.
[9] 陈志, 俞炳丰, 胡汪洋, 等. 城市热岛效应的灰色评价与预测[J]. 西安交通大学学报,2004,38(9):985-988. DOI: 10.3321/j.issn:0253-987X.2004.09.025 CHEN Z, YU B F, HU W Y, et al. Grey assessment and prediction of the urban heat island effect in city[J]. Journal of Xi'an Jiaotong University,2004,38(9):985-988. DOI: 10.3321/j.issn:0253-987X.2004.09.025
[10] XU N, DANG Y G, CUI J. Comprehensive optimized GM(1, 1) model and application for short term forecasting of Chinese energy consumption and production[J]. Journal of Systems Engineering and Electronics,2015,26:794-801.
[11] WANG Y H, LU J. Improvement and application of GM(1, 1) model based on multivariable dynamic optimization[J]. Journal of Systems Engineering and Electronics,2020,31(3):593-601. DOI: 10.23919/JSEE.2020.000024
[12] 曹爱虎, 陈凯, 李义敬, 等. 基于改进的灰色模型的瓦斯涌出量预测研究[J]. 煤炭科技,2011(2):4-7. CAO A H, CHEN K, LI Y J, et al. Forecasting of gas emission based on the improved grey model[J]. Coal Science & Technology Magazine,2011(2):4-7.
[13] 靳文博, 秦大鹏, 孙辰, 等. 基于改进GM(1, 1)模型的管壁结蜡厚度增长规律研究[J]. 安全与环境学报,2021,21(6):2563-2570. JIN W B, QIN D P, SUN C, et al. Study on the growth law of wax deposition thickness on pipe wall based on improved GM(1, 1) model[J]. Journal of Safety and Environment,2021,21(6):2563-2570.
[14] 吴永强, 李明凯, 唐中楠, 等. 基于灰色动态模型群的衡水市居民年用水量预测[J]. 环境工程技术学报,2022,12(1):267-274. WU Y Q, LI M K, TANG Z N, et al. Projection of residential annual water consumption in Hengshui City based on dynamic gray model groups[J]. Journal of Environmental Engineering Technology,2022,12(1):267-274.
[15] 张英芝, 朱继微, 刘津彤, 等. 改进灰狼算法优化灰色预测模型在数控机床中的应用[J]. 制造技术与机床,2022(3):127-131. ZHANG Y Z, ZHU J W, LIU J T, et al. Application of improved gray wolf algorithm to optimize gray forecasting model in CNC machine tools[J]. Manufacturing Technology & Machine Tool,2022(3):127-131.
[16] 张大海, 江世芳, 史开泉. 灰色预测公式的理论缺陷及改进[J]. 系统工程理论与实践,2002,22(8):140-142. ZHANG D H, JIANG S F, SHI K Q. Theoretical defect of grey prediction formula and its improvement[J]. Systems Engineering-theory & Practice,2002,22(8):140-142.
[17] 余峰, 王珂佳, 张文龙, 等. 基于遗传算法优化BP神经网络的水生态修复原位控浊混凝投药预测[J]. 环境工程,2023,41(4):154-163.4-163. YU F, WANG K J, ZHANG W L, et al. Prediction of coagulant dosage for in situ turbidity control in water ecological restoration based on bp neural network optimized by genetic algorithm[J]. Environmental Engineering,2023,41(4):154-163.
[18] 李先, 张振, 周玉龙, 等. 基于遗传算法的航空航天环锻件混合流水车间调度优化[J]. 锻压技术,2023,48(11):196-203. LI X, ZHANG Z, ZHOU Y L, et al. Scheduling optimization on hybrid flow workshop for aerospace ring forgings based on genetic algorithm[J]. Forging & Stamping Technology,2023,48(11):196-203. ⊗