微智科技网
您的当前位置:首页一种中药提取过程数据分析方法[发明专利]

一种中药提取过程数据分析方法[发明专利]

来源:微智科技网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 111948363 A(43)申请公布日 2020.11.17

(21)申请号 202010803940.X(22)申请日 2020.08.11

(71)申请人 浙江大学

地址 310058 浙江省杭州市西湖区余杭塘

路866号(72)发明人 瞿海斌 张胜 谢欣媛 

(74)专利代理机构 浙江杭州金通专利事务所有

限公司 33100

代理人 徐关寿(51)Int.Cl.

G01N 33/15(2006.01)

权利要求书1页 说明书5页 附图3页

(54)发明名称

一种中药提取过程数据分析方法(57)摘要

本发明通过采集提取过程的提取液温度和蒸汽压力等重要过程变量,采用FDA对过程变量数据进行表征后进行分析,进而提取出提取过程的信息和知识,提供了一种自动有效的中药提取过程数据分析方法。

CN 111948363 ACN 111948363 A

权 利 要 求 书

1/1页

1.一种中药提取过程数据分析方法,其特征在于,包括步骤:S10:从中药生产过程数据中采集所述的中药提取过程数据;S20:对采集的所述的中药提取过程数据进行预处理,包括子步骤:S21:对所述的中药提取过程数据进行变量筛选;S22:从所述的中药提取过程数据中剔除有缺失值的数据;S30:从所述的中药提取过程数据筛选出提取罐处于工作状态时的数据;S40:用函数型数据分析方法采用多个基函数对所述的中药提取过程数据进行拟合,包括子步骤:

S41:选择所述基函数的种类;S42:选择所述基函数的数目;S50:提取所述的基函数的系数,通过对所述系数进行多变量建模分析,识别中药提取过程中的正常/异常状态。

2.如权利要求1所述的中药提取过程数据分析方法,其中,步骤S10中,所述的中药生产过程数据是通过MES或SCADA系统采集的。

3.如权利要求2所述的中药提取过程数据分析方法,其中,步骤S21中,通过所述的变量筛选筛选出的过程变量包括:提取液温度、循环水量、瞬时加水量、保温时间和出液阀状态,其中所述的提取液温度、循环水量、瞬时加水量、保温时间为数值型变量,所述的出液阀状态为开关型变量。

4.如权利要求3所述的中药提取过程数据分析方法,其中,步骤S40中,用函数型数据分析方法采用多个基函数对所述的中药提取过程数据进行拟合,则有:

yk=x(tk)+∈k

其中yk为第k个时间点的提取液实际温度,x(tk)为拟合函数在第k个时间点对应的函数值,∈k为该点对应的拟合误差;

拟合过程中采用基函数法得到拟合曲线,即采用N个已知的基函数的线性组合得到x(t):

其中φi(t)为基函数,ci为基函数系数。

5.如权利要求4所述的中药提取过程数据分析方法,其中,步骤S41中,选择的所述的基函数的种类为B-样条曲线基函数。

6.如权利要求5所述的中药提取过程数据分析方法,其中,步骤S50中,提取所述的基函数的系数,构成基函数系数矩阵。

7.如权利要求6所述的中药提取过程数据分析方法,其中,步骤S50中,对所述的基函数系数矩阵进行主成分分析。

8.如权利要求7所述的中药提取过程数据分析方法,其中,步骤S50中,首先对系数矩阵进行均值中心化和方差均一化处理,然后选取主成分数以解释原数据80%变异。

9.如权利要求8所述的中药提取过程数据分析方法,其中,步骤S50中,通过聚类分析对中药提取过程中的正常/异常状态进行识别。

2

CN 111948363 A

说 明 书

一种中药提取过程数据分析方法

1/5页

技术领域

[0001]本发明涉及中药提取过程,尤其涉及一种中药提取过程数据分析方法。

背景技术

[0002]中药生产过程一般包括提取、浓缩、精制和制剂等工序,其中提取是非常重要的工序。若提取过程出现异常,可能导致提取液的成分含量或提取液量发生较大波动,从而影响药品的质量一致性和安全性。目前中药制药企业正在向数字化、智能化方向转型,MES、SCADA和LIMS等工业系统在中药制药领域得到了大力推广,这就使得企业有了获取大量生产过程数据的能力。在提取过程中,提取液温度和蒸汽压力等过程变量具有重要意义,对这些过程变量数据进行有效的分析挖掘可以帮助企业进一步了解提取过程,发现提取过程中的问题,从而提高产品质量控制水平。然而中药制药企业往往缺乏对提取过程的关注,而且也缺乏系统的方法来分析挖掘提取过程数据。[0003]中药提取一般可分为升温、保温和出液三个阶段,然而在生产中通常只对保温阶段的时间或液相温度等有所要求,对升温和出液两个阶段没有或缺少操作规定。因此各个批次的提取时长是不相同的,这就导致许多数据分析方法难以直接运用。针对时长不同的问题,常见的解决方法为数据对齐法,包括动态时间规整(dynamic time warping)、相关优化规整(correlation optimized warping)和基于指示变量的方法等。然而这些方法是通过插值等实现过程数据长度相同的,可能导致变换后的数据与原数据有较大的差异,影响最终的结果判断。[0004]因此,本领域的技术人员致力于开发一种中药提取过程数据分析方法。发明内容

[0005]针对目前缺少中药提取过程数据分析方法和提取批次时长不等的问题,本发明的目的在于提供一种基于FDA的中药提取过程数据挖掘方法。该发明通过采集提取过程的提取液温度和蒸汽压力等重要过程变量,采用FDA对过程变量数据进行表征后进行分析,进而提取出提取过程的信息和知识,提供了一种自动有效的中药提取过程数据挖掘方法。[0006]本发明的目的是通过以下技术方案实现的:[0007]本发明提供了一种中药提取过程数据分析方法,包括步骤:[0008]S10:从中药生产过程数据中采集中药提取过程数据;[0009]S20:对采集的中药提取过程数据进行预处理,包括子步骤:[0010]S21:对中药提取过程数据进行变量筛选;[0011]S22:从中药提取过程数据中剔除有缺失值的数据;[0012]S30:从中药提取过程数据筛选出提取罐处于工作状态时的数据;[0013]S40:用函数型数据分析方法采用多个基函数对中药提取过程数据进行拟合,包括子步骤:

[0014]S41:选择基函数的种类;

3

CN 111948363 A[0015]

说 明 书

2/5页

S42:选择基函数的数目;

[0016]S50:提取基函数的系数,以基函数的系数进行多变量建模分析,识别中药提取过程中的正常/异常状态。以基函数的系数作为二次变量进行多变量分析建模,以多变量建模获得的曲线来识别中药提取过程是否出现变化,若建模获得的曲线与标准曲线或现有曲线相比有变化,则表示提取过程出现异常。如此,任意时长的中药提取过程数据都可以处理为具有相同数量、相同种类的基函数,从而能够不受提取过程时长的影响,进行任意批次中药提取过程的状态监控。[0017]进一步地,步骤S10中,中药生产过程数据是通过MES或SCADA系统采集的。[0018]进一步地,步骤S21中,通过变量筛选筛选出的过程变量包括:提取液温度、循环水量、瞬时加水量、保温时间和出液阀状态,其中提取液温度、循环水量、瞬时加水量、保温时间为数值型变量,出液阀状态为开关型变量。[0019]进一步地,其中,步骤S40中,用函数型数据分析方法采用多个基函数对中药提取过程数据进行拟合,则有:[0020]yk=x(tk)+∈k

[0021]其中yk为第k个时间点的提取液实际温度,x(tk)为拟合函数在第k个时间点对应的函数值,∈k为该点对应的拟合误差;

[0022]拟合过程中采用基函数法得到拟合曲线,即采用N个已知的基函数的线性组合得到x(t):

[0023]

其中φi(t)为基函数,ci为基函数系数。

[0025]进一步地,步骤S41中,选择的基函数的种类为B-样条曲线基函数。步骤S42中,选择的基函数的数目可以根据实际需要确定,比如根据现有的经验数据等。[0026]进一步地,步骤S50中,提取基函数的系数,构成基函数系数矩阵。[0027]进一步地,步骤S50中,对基函数系数矩阵进行主成分分析。[0028]进一步地,步骤S50中,首先对系数矩阵进行均值中心化和方差均一化处理,然后选取主成分数以解释原数据80%变异。[0029]进一步地,步骤S50中,通过聚类分析对中药提取过程中的正常/异常状态进行识别。

[0030]本发明具有如下有益效果:

[0031]1.本发明将采集的提取过程变量数据通过FDA进行拟合,可以解决各批次提取过程时长不等的问题,同时也相当于对原始数据进行了降维处理;[0032]2.本发明通过无监督的数据分析方法,可以在不要求对提取过程有先验知识的情况下分析各批次之间的关联与差异,为企业提供了提取过程的评价方法。[0033]以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。附图说明

[0034]图1是本发明的一个较佳实施例中的中药提取过程数据分析方法的流程图;[0035]图2是本发明的一个较佳实施例中的某批次提取液温度趋势图;

4

[0024]

CN 111948363 A[0036]

说 明 书

3/5页

图3是本发明的一个较佳实施例中的不同数目基函数拟合的提取液温度值和实际

值对比;

[0037]图4是本发明的一个较佳实施例中的主成分分析得分图。

[0038]图5是图4中的置信限外的数据簇C1和C2中提取液温度的原始数据图。

具体实施方式

[0039]以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。

[0040]本实施例采集了某企业提取车间中某中药注射液2019年全年的提取过程数据,并基于这些数据分析该品种的提取过程模式,并识别提取过程中的异常等。[0041]1)提取数据采集:采集提取过程相关的过程变量共13个,其中开关型变量8个,数值型变量5个,具体如表1所示。根据提取生产计划,从企业实时数据库中采集提取工序当天24h所有的数据,采集时间间隔为10s,即每天可获取12320个数据点。本实施例中一共采集了108批数据,因此最后获得112320×108=12130560个数据点。[0042]表1提取过程变量

[0043]

[0044]

2)数据预处理

5

CN 111948363 A[0045]

说 明 书

4/5页

2-1)变量筛选:如表1所示,在提取过程中,存在开关型和数值型过程变量,其中开

关型过程变量主要用于步骤3)中的工作阶段识别,而数值型过程变量则是分析的重点。对于开关型过程变量,并不是所有变量都能在在步骤3)中发挥作用,也有一些变量与其他变量所代表的含义重合,因此首先剔除这些变量。冲洗状态、试漏状态、清洗阀状态和冲管阀状态这4个变量与工作阶段识别无关;循环阀状态可由循环流量反映,加水阀状态可由瞬时加水量反映,因此循环阀和加水阀状态是冗余的变量。综上,在后续分析中剔除上述的6个变量。

[0046]在提取过程中,提取液温度是最重要的过程变量,直接影响了提取液中成分的含量;蒸汽压力虽然也是一个重要的过程变量,但其作用于提取液温度,即蒸汽压力的变化可从提取液温度变化中得以反映。因此在本实施例中,以提取液温度作为进行FDA处理的对象。需要注意的是,并不是所有数值型过程变量都适合采用FDA方法进行拟合,一些不具有函数型特征的过程变量并不适合采用FDA方法进行处理。在本实施例中,蒸汽压力由于受到自控系统的控制,其数据形状呈脉冲状,缺少函数型特征,这也是不将其进行FDA处理的原因之一。

[0047]2-2)缺失值处理:由于网络通讯中断和服务器设备维护等原因,部分批次的提取过程数据中含有大量的缺失值,这些批次的数据无法用于后续的分析中,因此需要剔除这些批次。在2019年的这108批数据中,有4批数据含有大量的缺失值,因此剔除后只剩下104批数据可用于后续分析。[0048]3)工作阶段识别:根据煎煮状态、加水阀状态、保温时间和瞬时加水量,可以从全天24h的数据中识别出提取罐处于工作状态的数据。具体的识别条件如表2所示,其中升温阶段、保温阶段和出液阶段是连续的,且将这一整段连续的数据作为提取的工作阶段。加水阶段中不涉及加热过程,故在后续分析时舍弃该阶段。[0049]表2工作阶段识别条件

[0050]

[0051]

4)基函数确定

[0053]4-1)基函数种类选择:采用FDA方法对提取液温度曲线进行拟合,方程如下所示:[0054]yk=x(tk)+∈k   (1)

[0055]其中yk为第k个时间点的提取液实际温度,x(tk)为拟合函数在第k个时间点对应的函数值,∈k为该点对应的拟合误差;

[0056]拟合过程中采用基函数法得到拟合曲线,即采用N个已知的基函数的线性组合得到x(t),如式2所示:

6

[0052]

CN 111948363 A[0057]

说 明 书

5/5页

其中φi(t)为基函数,ci为基函数系数。

[0059]常用的基函数包括傅里叶基函数和B-样条基函数。对于具有周期性的过程变量,傅里叶基函数具有较好的拟合效果;对于非周期性的过程变量,B-样条基函数具有较好的拟合效果。

[0060]提取液温度的形状如图2所示,可以发现其不具有周期特性,因此采用B-样条基函数进行拟合较为合适。

[0061]4-2)基函数数目选择:基函数数目对拟合效果具有很大影响,在本实施例中,采用不同数目的基函数,通过图形对比的方法来确定基函数数目。以提取过程时长最长的批次作为基函数数目选择的参考。在图3中,选择35、40、45个基函数进行拟合的效果均不如50个基函数的拟合效果;但若进一步选择55或60个基函数进行拟合会引入过多的不必要的波动。因此50个基函数是较好的选择。[0062]5)数据分析[0063]经FDA处理后,各个批次的提取液温度数据可由50个基函数的线性组合表示。由于基函数是确定的,基函数系数即可反映提取液温度的形状。即原始数据中1000多个数据点可用50个基函数系数进行表达,既解决了各批次时长不等的问题,也实现了数据的降维,减小数据运算压力。

[00]通过FDA处理后,原始的大量数据缩减为104×50的基函数系数矩阵,在本实施例中,采用PCA方法对基函数系数矩阵进行处理。在PCA处理中,首先对系数矩阵进行均值中心化和方差均一化处理,然后选取可以解释原数据80%变异的主成分数。本实施例中主成分数为4,可解释原数据81.1%的变异。前两个主成分的得分图如图4所示,其中椭圆为95%置信限,有2簇数据(C1和C2)落在置信限外,而在置信限内的数据也可大致分为4簇(C3~C6)。[0065]图5展示了C1和C2中提取液温度的原始数据,可以发现C1中的提取液温度在保温时逐渐下降至80℃;而在C2中,升温时间特别长,即温度上升至沸腾温度所需时间特别长。C1中的提取温度出现下降的原因是,温度传感器安装在循环管道中,而在C1的批次中,保温阶段循环流量为0,即循环阀并未开启;在C2的批次中,由于在升温阶段中有部分时间蒸汽流量为0,即蒸汽阀门关闭,导致升温速度过慢。[0066]在95%置信限内,C4、C5和C6这三个簇的批次是属于同一种操作模式的,即循环泵在升温阶段是间歇开启的(模式1);C3中的批次循环泵在升温阶段是始终开启的(模式2)。因此,若循环阀间歇开启,会导致提取过程出现更多的波动,使得在模式1下,数据更加分散;若循环阀始终开启,则可减少波动,即数据相对集中。[0067]以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

[0058]

7

CN 111948363 A

说 明 书 附 图

1/3页

图1

图2

8

CN 111948363 A

说 明 书 附 图

2/3页

图3

图4

9

CN 111948363 A

说 明 书 附 图

3/3页

图5

10

因篇幅问题不能全部显示,请点此查看更多更全内容