**章引言
**节智能时代的金融大数据分析
金融是国民经济的血脉。健康、高效的金融体系,是国民经济茁壮成长、国家核心竞争力不断提高的重要基石。2023年中央金融工作会议指出,“要加快建设金融强国,全面加强金融监管,完善金融体制,优化金融服务,防范化解风险,坚定不移走中国特色金融发展之路,推动我国金融高质量发展”。这一中国金融体系建设重大路线方针的确立,体现了中央对金融工作的高度重视与科学判断。在金融领域中,风险被定义为一定量金融资产组合在未来时期内预期收入遭受损失的可能性。现代金融发展呈现出机构种类多、综合经营规模大、产品结构复杂、交易频率高、跨境流动快、风险传递快、影响范围广等特点,因此,防范化解金融风险显得尤为重要。
在宏观层面,金融主体之间以及金融主体与非金融主体间的相互关联形成了系统性金融风险,金融主体之间以及金融主体与非金融主体之间存在风险传染与扩散,致使风险叠加,从而危及金融系统安全。从图1-1中可以看出2008年金融
危机爆发前后,有大量的系统性金融风险事件,这些事件形成连锁反应。这种风险体现在金融市场、金融机构和工具的复杂交互中,一旦某一关键环节出现问题,风险可能会在整个金融体系中快速传播,对金融稳定性造成威胁。此外,金融机构的股东来源复杂且层层嵌套,这种复杂的股权网络也可能导致系统性金融风险。2018年2月安邦保险集团股份有限公司(以下简称安邦保险集团)因为隐瞒股权实控关系、循环注资等严重违规违法行为被中国保险监督管理委员会(以下简称保监会)接管。智能时代下金融市场的复杂性和互联性进一步增加,系统性金融风险防控面临前所未有的挑战。*先,金融业务场景复杂繁多,金融风控跨领域数据间的多维知识关联尚未建立,风险难以发现;其次,金融数据存在时序关联的同时包含了高频与低频数据,加大了时序分析的难度;*后,金融数据既包含价值密度高的关键小数据也包含价值密度低的金融大数据,风险评估过度依赖人工,厚尾数据难以把握,造成风险难以精准识别和防控。
在微观层面,金融主体风险类型繁多,金融机构或市场参与者面临着特定风险,包括市场风险、信用风险、操作风险等多重风险。其中,信用风险涉及金融个体的债务方违约或资产质量下降。以中小企业为例,长期面临“融资难,融资贵”的问题,与其在国民经济中的作用不匹配,根本原因在于中小企业的信用风险难以评估。如图1-2所示,在银行融资风险评估中,银行仅将内部财务数据与外部数据进行打通,忽略了数据之间的多维知识关联,难以实现有效的融资风险评估。在智能时代,中小企业融资风险识别具有如下挑战。*先,不同领域的金融机构不断产生海量数据,数据的种类多样、格式复杂,随时间不断演化;其次,金融大数据由数据分散、数据割据等因素造成的隐藏关系难以被发现,这种隐藏的关系信息容易在分析风险传导时被遗漏,从而形成了风险防控的漏洞;*后,传统的风险评估过程依赖于人工,且其潜在的风险难以识别。大数据的规模和复杂性,使传统算法难以执行,难以有效利用多源异构大数据融合带来的优势。例如,传统金融欺诈检测模型主要依赖规则对公司进行评判,无法利用多源数据之间的关联进行更准确的评估。随着人工智能的不断发展,已有部分研究者采用深度学习的方式来关联不同源数据,融入规则进行欺诈检测。但仍然存在可解释性低、模型优化困难以及训练代价大等问题。其中,可解释性低的问题进而导致了风险预测结果无法解释、风险因素难以辨别、风险防控难以落实等业务痛点。
事实上,金融大数据的核心价值在于其蕴含广泛存在的知识关联。为精准防范化解金融风险,须综合宏观以及微观因素进行风险评估,本质上就是利用金融大数据进行风险管理与决策。知识图谱能关联融合跨领域数据,以图数据模型存储实体、属性和关系,使复杂的风险网络结构清晰可见。这种图的直观性有助于决策者迅速把握风险全貌,为其进行有效决策提供支持。
然而,金融业务场景复杂繁多,金融大数据日益呈现出多维关联、时序多频、尖峰厚尾的特点,其蕴含的知识关联位于不同角度、不同层次,且有着明显的时序特征。知识图谱使用的简单图只能表示知识单元之间存在的单一知识关联,语义表达能力弱,难以显式表达实体之间时序、多角度、多层次的知识关联;且目前基于知识图谱的分析算法大都针对静态图,实时响应能力差,无法准确进行风险建模。
针对以上问题,本书提出了使用知识大图对金融大数据中的时序多元语义关系进行统一建模和表示的方法,在此基础上研究金融时序知识大图查询与分析平台关键技术。针对知识大图的时序超图特点,研究金融跨领域数据汇聚技术、联邦型分布式知识图谱管理方法,以支持对金融知识大图进行准确和高效的查询与分析,提高了系统在亿级规模节点知识大图上的实时响应能力和决策支持能力。
本书利用工商注册企业数据、全国金融机构股权数据和互联网数据,基于人在环路知识关联分析方法,构建金融知识大图。提出基于知识大图的舆情分析和穿透分析技术,建立金融风控大脑,支持多元查询、股权穿透、舆情监测、控制计算、欺诈识别等功能。实现资本市场金融舆情监测、金融股权网络穿透式监管、银行信贷风险管控等金融风险防控应用验证,实现精准、实时、动态地识别、评估与防控金融风险。
第二节概念定义与问题描述
一、概念定义
(一)知识图谱
知识图谱是一种以图结构为基础的知识表示和组织方式,用于捕捉实体之间的关系和语义信息。它构建了一个包括实体和关系的网络,实体代表现实世界中的各种事物,而关系则表示这些实体之间的联系。每个实体和关系都被赋予明确的语义定义,使知识图谱不仅仅是一个数据结构,更是一种语义化的知识表示。
定义1-1(知识图谱)知识图谱由表示,其中表示实体集合,表示关系集合。
每个三元组表示一个图谱中的关系,其中是图谱中的实体,是关系,这反映了实体之间的关联。对于每个关系,存在从实体类型到的映射函数,表示的作用方向。知识图谱中的每个实体和关系都可以关联到一个语义定义,即提供关于它们含义的描述信息。
(二)知识关联
定义1-2(知识关联)设实体和关系的有限集合分别为和E,知识关联框架可定义为一个五元组。其中:
(1)表示知识单元,即节点,。由于传统的建模方式只考虑在两个实体之间建立联系,难以同时建模多个实体之间的关联,如股权关系中的一致行动人,往往包含两个以上的控股人。为表示这种集合信息,本书将本身视为一个节点,来添加知识关联,由此来建模多个实体之间的高阶关联。
(2)表示节点之间的边,允许。表达了知识单元之间可能存在不同角度的多个关联。
(3)为语义蕴含函数,可以表示节点之间、边之间的语义蕴含关系。由于知识单元及其关联在语义上是不同层次的,知识大图利用语义蕴含来表达知识单元的上下位关系:如果知识单元语义蕴含,即,则为下位知识单元,为上位知识单元。当使用时,可以没有歧义地使用。
(4)表示知识关联的时空声明。为了增强知识关联的动态表达能力,本书参考YAGO2(Hoffart et al.,2013)框架对每条边添加时空信息的声明,来表示特定三元组的动态的时空约束,提高知识推理的准确性。空间声明遵循W3C地理空间词汇(Brickley et al.,2006)的空间信息表现形式,表示为地图上经纬度所确定的点,如图1-3所示。
已知,“银行A”与“公司1”和“公司2”同时具有持股关系,但是持股的时间不同。为了体现这种时间约束,本书将持股关系进行编码,来区分不同实体之间的持股关系,并为编码后的持股关系添加时空声明。
同时,边关联所具有的语义蕴含关联不随时空变化而变化。例如,虽然“持股#1”和“持股#2”具有不同属性,但是其均包含“持股关系”具有的语义蕴含知识,如“持股关系”语义蕴含“股东关系”。
(三)知识大图
知识大图是一个有向多重语义蕴含图,即关联知识的集合。知识大图利用多重语义蕴含图对多层次、多角度的知识关联进行准确的组织和表示。相比知识图谱,知识大图拓展了对知识关联的角度与层次的表示,实现了知识的全局关联,在表达能力和规模上大幅度提升,有助于辅助知识推理,集成跨领域数据。
定义1-3(知识大图)知识大图是一个具有时空信息约束的有向多重语义蕴含图,其中表示知识关联框架的集合,表示知识关联框架之间的关联,表示关于边和知识单元的时空声明。
知识大图允许知识单元之间存在多重异质的边(图1-4),表达了多角度的知识关联。知识单元可以分为概念和实例,概念描述领域内的实际概念,既可以是实际存在的事物,也可以是抽象的概念,如金融机构、工商企业等;实例则表示某个类的实际存在,如银行是金融机构的一个实例。知识关联也处于不同语义层次,实例与*下位概念相关联,概念和实例之间的知识关联提供了实例的分类信息,并通过概念以及概念之间的关系对实例进行了约束,提高了知识推理的准确性。同时,通过为知识关联添加时空声明,增加了其动态表达能力。
如图1-5(a)所示,“金融机构”为“银行”的上位知识单元,“金融机构”和“工商企业”之间同时存在“质押”和“股东”的关系;“质押”语义蕴含“股权质押”,即“质押”为“股权质押”的上位关系。知识关联利用多重语义蕴含对客观世界的事物及其之间被认知的联系进行了多角度、多层次的表达。“多角度”体现在知识单元节点之间可以存在多种关联,是横向的关联;“多层次”体现在知识关联之间存在上下位层次关系,是纵向的关联。
展开