统计学习
生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来改善性能是必然的[7].以下对基于这一思想产生的统计学习理论,Kolmogorov复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介绍.支持向量机(SVM)是较热门的一种方法,其研究背景是Vapnik的统计学习理论,是通过*大化两个数据集的*小间隔来实现分类,对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核函数的选择问题本身是一个相当困难的问题,从这个层次来看,*优核函数的选择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡.Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov复杂性是不可计算的,因此由此衍生了MDL原则(*小描述长度),其*初只适用于离散数据,已经推广至连续数据集中,试图从编码角度获得对模型参数的*小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索的空间.
尊敬的客户:
您好,我司是一支技术力量雄厚的高素质的开发群体,为广大用户提供高品质产品、完整的解决方案和上等的技术服务公司。主要产品有LC-MS、超敏ECL化学发光试剂盒、AccuSprint HiFiDNA聚合酶等。
本企业坚持以诚信立业、以品质守业、以进取兴业的宗旨,以更坚定的步伐不断攀登新的高峰,为民族自动化行业作出贡献,欢迎新老顾客放心选购自己心仪的产品。我们将竭诚为您服务!