云书馆

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

针对文本挖掘和信息检索中的文本或文献聚类与分类等问题，学术界基于VSM(向量空间模型)主要有两方面的研究：一是文献表示模型；二是算法。然而，传统的算法对高维稀疏的向量聚类存在不足，一些新的算法也不尽完美，更主要的是聚类算法的效果与数据本身的特征以及信息提取和表示密切相关，特别是在信息有限的情况下，聚类算法的优势也不能得到完美发挥。相比之下，信息的挖掘、提取和文献向量表示就尤为重要。如果只有关键词，文献的表示向量相比一般文本表示就表现得更加稀疏。面对这种情形，聚类算法即使是“巧妇”也“难为无米之炊”，因此，牛奉高著的《数字文献资源高维聚合模型研究》的重点突破是文献主题语义信息的提取、度量和文献高维向量的表示方法。基于以上问题和现象，本书以数字文献资源为对象，本着在信息资源聚合中减少对背景知识的依赖，便于推广应用的宗旨，提出了基于文献集本身或者相关领域的共现信息而实现文献聚合的共现潜在语义向量空间模型，而且通过实验证实基于CLSVSM的文献聚类表现比基于VSM和GVSM(广义向量空间模型)显著地好。本书还讨论了模型的性质以及通过数学和统计方法降低算法复杂度、提高聚类效率的多种思路，为模型在信息检索和搜索领域的广泛应用提供了一般范式。

展开

精彩书评

展开

精彩书摘

展开

引言
一研究背景和意义
(一)研究背景
(二)研究意义
二国内外研究综述
(一)国内研究进展
(二)国外研究进展
(三)相关研究述评
三研究目的、方法与创新
(一)研究目的与思路
(二)研究方法与工具
(三)本书的创新之处
第一章数字文献资源聚合的概念与理论基础
一数字文献资源的范畴
(一)数字化的信息资源
(二)数字文献资源
二数字文献资源聚合的内涵与外延
(一)聚合的缘起
(二)文献资源聚合的内涵
(三)文献资源聚合的外延
三数字文献资源聚合研究的形式和内容
(一)数字文献资源聚合的形式
(二)数字文献聚合研究内容辨析
四数字文献资源聚合研究的理论基础
(一)文本挖掘理论
(二)共现理论与共现网络
(三)LSA与LSI理论
(四)FA与PA理论
(五)信息熵理论
(六)长尾理论
五数字文献资源聚合的应用方法研究
(一)新闻聚合与自动摘要
(二)对检索结果的聚类
(三)文档管理与个性化信息服务
(四)改善文献分类的结果
六数字文献资源基于元数据聚合的探索
(一)元数据是数字文献资源的特征信息
(二)基于元数据实现文献聚合的可行性
七本章小结
第二章数字文献资源的高维向量表示与语义相关性研究
一数字文献资源的多元和高维特征
(一)文献属性的多元特征
(二)文献主题的高维特征
二文献主题的特征选择与评价方法
(一)文献主题特征的选择问题
(二)特征子集的选取与评价
三文献特征的高维表示与文献相似性测度方法
(一)文献特征的高维向量表示
(二)文献相似性与距离的测度
四向量空间模型及其衍生模型
(一)经典VSM模型
(二)广义向量空间模型
(三)面向中文文献聚类的VSM类模型
五语义向量空间模型
(一)基于VSM的语义相关性研究
(二)语义信息增强模型
(三)语义核与文献主题相似性
六本章小结
第三章共现潜在语义向量空间模型(CLSVSM)
一共现潜在语义的概念
(一)语义与语义信息
(二)潜在语义与共现潜在语义
(三)共现潜在语义的挖掘
二基于共现潜在语义的文献高维向量表示模型
(一)文献高维向量表示的困境
(二)模型提出的基础
(三)相关定义和记号
(四)CLSVSM模型的表示
(五)CLSVSM模型的解释
三语义信息的增强与约简探讨
(一)语义信息的增强
(二)语义信息的约简
四基于CLSVSM的数字文献资源聚合
(一)基于特征向量聚类的文献聚合步骤
(二)文献的相似矩阵
(三)文献集的相似度
(四)聚类算法选择
(五)聚类准则函数
(六)聚类评价方法
五 CLSVSM模型与VSM衍生模型的类比
(一)类比基于关键词相同度的VSM模型
(二)类比扭曲VSM模型
(三)类比TCABARwC模型
六本章小结
第四章 CLSVSM模型的实验检验与评价
一文献聚类实验的基本设计
(一)实验的目的和要求
(二)实验基本流程设计
二文献聚类评价方法
(一)BF指标
(二)熵值、纯度和错误率
三高维向量聚类工具：gCLUTo
四实验文献集的来源与描述
(一)数据的选择和采集
(二)数据的整理与分析
(三)实验数据集的基本统计描述
五文献聚类实验内容与方案
(一)实验内容
(二)实验步骤
(三)实验方案
六文献聚类实验结果与分析
(一)CLSVSM模型的语义信息增强效果分析
(二)CLSVSM模型的聚类效果对比实验
(三)实验总结：CLSVSM的优势
七本章小结
第五章 CLSVSM模型的应用与实证
一 CLSVSM模型的应用范围
二实证准备
(一)实证数据的选择
(二)文献聚类簇数目的确定
三基于CLSVSM模型的聚合实证研究
(一)实证Ⅰ一一以概率论与数理统计学科抽样文献为例
(二)实证Ⅱ一一以信息资源建设主题的检索文献集为例
四本章小结
第六章 CLSVSM模型的进一步研究
一共现潜在语义的不同估计量对比研究
(一)基于不同共现潜在语义估计量的模型构建
(二)基于不同共现潜在语义估计量的模型对比
二 CLSVSM对英文文献的适应性研究
(一)英文文献数据采集
(二)CLSVSM对中英文数据聚类的对比
三共现矩阵的约简研究
(一)截尾共现潜在语义向量空间模型
(二)共现矩阵约简前后的对比
四共现潜在语义核研究
(一)GCLSVSM
(二)广义模型与原模型的实验对比
(三)CLSVSM＿K
五三元共现的挖掘与利用研究
(一)三元共现的表示
(二)三元共现强度的计算
(三)三元CLSVSM
(四)三元CLSVSM与CLSVSM的比较
六本章小结
第七章总结与展望
一总结与启示
二不足与展望
参考文献
致谢

展开