什么是复杂数据? 没有人能够确切定义. 本书将标准统计教科书中没有标明出处的或者是按照传统方法能够得到 “ 完美结论 ” 的数据称为简单数据. 现实世界中遇到的绝大多数数据都不是标准教科书中所介绍的方法能够圆满处理的, 因此可以认为是复杂数据. 在本书第 1 版问世后的 10 年间, 人们可处理的数据范围增大了很多倍. 本书中的数据是使用个人电脑所能够处理的结构化数据.对于实际工作者来说, 拿到一个真实数据以后, 很可能需要查阅不少文献来寻找适合这个数据的可能模型 (假定知道用什么模型可能解决问题), 再翻阅若干种软件手册来查阅这些文献所使用软件的计算方法 (假定下载了相应的免费 (开源) 软件或购买了相应的 (商业软件). 造成这种情况的原因是, 很多统计教科书是以数学模型或方法为导向的, 书名及内容也多是按照模型驱动的数学思维展开的.以模型或方法为导向的教科书通常以介绍某种数学模型和方法为主, 同时说明这种模型适用于满足某些数学假定的数据, 最后说明该模型对于这些满足假定的数据拟合的优越性. 实际上, 任何一种真实数据是否满足某种数学假定完全无法证明, 每一类数据都可能有不止一种现成的统计方法来处理, 还有无数的未知方法等待人们去开发. 以模型或方法为主导的方式往往让读者忽略了其他有关的方法, 而那些被忽略的方法在某种意义上很可能更有效, 或者更优越.
展开