绪论
化学计量学这个词汇是瑞典人SwanteWold在1971年提出的,他在申请一项科研基金时希望构造一个合适的关键词,他仿照econometrics(计量经济学)一词用瑞典语构造了kemometri一词,其是kemo和metri两个词根的结合体。kemometri一词在英文中的对应词汇是chemometrics,中文翻译为化学计量学。1974年6月,Wold与美国人BruceKowalski建议成立国际化学计量学学会,他们最初对化学计量学给出的定义是:化学计量学是一门通过统计学或数学方法对化学体系的测量值与体系的状态值之间建立联系的学科。
当前,化学计量学已经发展成为一个比较庞大的体系,包含的内容也已经超出了Wold和Kolwaski当初的想象。要想完整地介绍化学计量学的所有领域已成为一件非常艰巨的工作。作者的导师梁逸曾教授与吴海龙教授、俞汝勤院士一起完成了这一项看似不可能完成的任务,他们编写的《分析化学手册.10.化学计量学》(第三版)似可比拟成化学计量学的百科全书。不过,要让初学者去研读这部手册难度较大。
本书即为初学者所撰写。
第1章介绍几种常用的信号模型及其对应的数学模型,这是初学者最好的切入点。对于化学工作者而言,他们对测量信号并不陌生,但是对于信号背后蕴含的数学形式却未必熟悉。特别是,长期以来人们已经习惯了单一波长情况下的朗伯-比尔定律,当遇到向量形式、矩阵形式和张量形式的表述,通常都会感到困惑。带着这种困惑去学习化学计量学往往事倍功半。本章一步一步将**的朗伯-比尔定律拓展到高维空间,让初学者逐步适应测量信号的数学表述方式。
第2章介绍几种向量信号的滤噪和平滑方法,既包含**的方法,也包含最新的方法。其中的**方法如累加平均法、Savitzky-Golay法和傅里叶变换方法具有快速、有效的特点,是当前测量仪器中普遍采用的滤噪方法。基于Whittaker平滑器的滤噪和基线扣除方法是近年才被发掘出来的方法,在滤噪和平滑方面具有*特的优势,基于它建立的基线扣除方法也是当前最为简洁有效的方法。
第3章介绍化学因子分析方法。本章中介绍抽象因子分析法时着重介绍非线性迭代偏*小二乘法。这种方法属于**的方法,在计算机技术尚不发达的年代,它是一种有效的方法。当前的计算机技术采用奇异值分解方法对大数据进行分析基本可行,但是如果涉及超大型的数据分析,还是需要寻找其他的方法,非线性迭代偏*小二乘法是其中的一个选项。本章也将演进因子分析中的两种**方法归入化学因子分析部分进行介绍,这两种方法是数学理论应用到化学测量数据分析中的极好范例。
第4章介绍多维*线分辨。与常用的因子分析法不同,多维*线分辨方法致力于获得化学体系的真实因子的谱形态,而非停留在采用抽象因子信息来表征化学组分的信息。自模式*线分辨方法可被视作一项具有里程碑意义的工作,它*次向化学工作者展示了采用纯粹的数学方法来估计化学组分的谱形态的可行解域。另外一项具有里程碑意义的工作是梁逸曾等提出的直观推导式演进特征投影算法。他们提出了纯组分区域的概念,构建的数学方法也*次实现了从二维联用色谱体系测得的矩阵信号中得到组分的浓度*线和光谱*线的准确数学解。本章中还对三维分辨做了一定程度的介绍,但仅侧重于交替三线性分解相关的方法。由于三维数据蕴含从中获得唯一解的内在禀性,应视为化学中*具潜力的数据类型,或许会成为实现分析化学数学化的重要基石。
第5章介绍多元校正。除了常见的多元线性回归、主成分回归和偏*小二乘回归之外,还介绍了逐步回归分析。尽管当前的化学计量学领域偏重于波长选择之类的策略,但是对于初学者而言,从逐步回归分析开始,再进一步了解当前的波长选择方法,或许是更好的学习步骤。
第6章介绍机器学习*基本的内容。当前,人工智能的发展超乎想象,从能够击败人类顶级围棋选手的AlphaGo围棋人工智能程序,到可以*立进行化学实验的机器人化学家等,已经向化学工作者昭示一个全新时代的到来。可以预期,未来的化学研究领域必将是人工智能技术大显身手的重要领域之一。这一章的内容只涉及机器学习*基本的内容,读者掌握了这些基本内容之后,可以凭借自身的拓展学习和实践,进一步了解这个领域的更多内容。
第1章化学信号类型及数学模型
化学计量学是从化学测量信号中获取信息的一门学科。然而,要想从测量信号中获得正确的信息,*先必须对信号的类型有正确的认识,然后才能构建正确的信号模型,*后借助合适的数学工具从测量信号中提取相应的信息。本章主要对化学测量中一些常见的信号类型进行介绍,并构建对应的数学模型。
1.1标量信号及其数学模型
在**定量分析中,经常要测量质量、体积等物理量,在此基础上计算浓度、质量分数等。这些量的一个显著特点是可以用一个标量来描述它们。例如,对一个纯物质样品进行称量,得到其质量m。然后,我们将该样品配制成溶液,稀释定容到容量瓶的刻度线就可以确定该溶液的体积V,*后基于质量和体积计算其浓度c=m/V。所有这些测量量的共同特点是:它们都可以用一个且仅用一个数字来表示,即用一个标量来表示。我们称这类测量信号为标量信号。
实际上,标量信号并不只限于**定量分析中,在仪器分析出现之后的很长一段时间,人们依然沿袭了**定量分析中采用标量信号的习惯。例如,在运用紫外-可见分光光谱技术进行定量分析时,虽然可以得到一个化学体系在一段波长范围内的光谱,但是在将光谱信息用于定量分析时,依然习惯性地采用某个波长处的吸光度值而非整个光谱。
表1.1为邻二氮菲测铁实验得到的一组数据,它由不同浓度的标准样品溶液在550nm处测得的吸光度值构成。这个表中虽然包含了6组测量值(对应序号1~6),但是每组数据之间并不相关,或者说它们是*立测量的结果。以序号3的数据为例,我们用单一的一个数值0.8来表征其对应样品溶液中的铁含量,同时用另一个单一的数值0.150来表征测量该样品时得到的吸光度值。这些单一的数值就是标量信号。
图1.1为将表1.1中的吸光度值对浓度值作图,横坐标代表浓度值而纵坐标代表吸光度值,每个圆点对应于一个标准样品的浓度值和吸光度值。从这个图中可以看到,这些点应该在一条直线上。这种测量信号强度与浓度之间呈现线性关系的规律在溶液体系中反复出现,朗伯、比尔等对此进行了研究,*终形成了人们熟知的朗伯-比尔定律。
朗伯-比尔定律所描述的线性关系,让人们很自然地采用数学中的线性方程来描述,常见的形式如式(1.1)所示。
(1.1)
式中,A是吸光度;k是摩尔吸光系数;b是光程长度;c是样本中某个组分的摩尔浓度;e是测量误差。
式(1.1)也常称为校正方程,其优势在于:一旦建立了该方程,就可通过它计算出未知样品中待测组分的浓度,如式(1.2)所示。
(1.2)
式中,Ax是从未知样品测得的吸光度;cx是未知样品中相应组分的浓度。
这里要强调一下,上述的线性方程是一个有条件的方程。*先,它仅在一定的浓度范围内成立,并且只能根据实验结果来确定其线性范围。其次,参数k虽然反映了样品内在的光学属性,但它的值是与实验条件和仪器状况相关的量。同一个样品在不同的仪器上通常具有不同的k值,并且在同一台仪器、不同的实验条件下也具有不同的k值。所以,对于同样的待测物必须重复建立校正方程。*后,测量误差项e还可以细分为随机误差项ε和非随机误差项η。随机误差通常由测量过程中的随机性因素所致。而非随机误差项的含义比较宽泛,如基体效应对于一个样品而言大致是固定的,因而它会产生一个大致固定的响应值。所以,式(1.1)更为合适的形式应为
(1.3)
式(1.3)所描述的信号强度与浓度的线性关系,虽然是基于对紫外-可见分光光谱技术的讨论而建立的,但它具有普适性。其他的仪器分析技术,如原子吸收光谱技术、原子发射光谱技术、分子荧光光谱技术等,在一定的浓度范围内也可以用式(1.3)来描述。由于b通常是固定值(如比色皿的宽度常为1cm),不失一般性,我们可以用变量s替换kb,并用式(1.4)来描述标量信号。
(1.4)
式中,y统称为信号强度,不特别指明它是吸光度还是发射强度。本书中把这种抽象化的信号强度与浓度的线性关系称为标量信号的数学模型。
标量信号由于在记录和处理方面较为简便,一直在定量分析领域中广泛使用。但是,随着对分析化学的要求越来越高,标量信号所能提供的信息量及解决方案已经不能满足需要,科学家开始借助向量信号建立各种分析方法。
1.2向量信号及其数学模型
计算机技术极大地推动了分析仪器的发展,使得分析化学能够很容易地从时间或空间维度对化学体系进行测量,由此得到了包含更多信息的化学测量信号。图1.2为采用HPLCDAD技术对香港大气颗粒物中多环芳烃进行分析得到的色谱图之一,它对应于257nm处的信号强度随时间的变化。通常情况下,每一个色谱峰代表一个组分,由此可以将复杂化学体系中的组分信息展示出来。
图1.2所示的色谱图是由
1715个数据点构成的,数据的采集间隔约为0.02s,它反映的是体系在时间维度上的信息。这些数据在计算机中的存储模式是一个数据序列,在数学上可以用向量的方式来表达,因而可称为向量信号。将图1.2中保留时间在21.31min处的紫外光谱图提取出来,得到如图1.3所示的光谱图。类似地,该光谱数据也构成一个向量信号。
相对于标量信号,向量信号所包含的信息显然更多。例如,图1.2的向量信号将一个样品中的组分信息尽数包含其中,可以根据保留时间的数值进行粗略的定性分析,也可以根据色谱峰面积对相应的组分进行定量分析,这是标量信号难以实现的。而图1.3中的谱信息也比单一波长处的信号强度包含了更多的分子结构方面的信息。
图1.4为不同浓度的扑尔敏溶液的紫外-可见光谱图。图中的每一条光谱*线是单位浓度样品测得的光谱乘以浓度值的结果,浓度值不同只会使得光谱产生纵向的增大或缩小,并不会改变光谱的形态。如果将所有的光谱做归一化,则可以更好地揭示这一点。建议读者找一些光谱数据,亲自测试。
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录