正态分布、伽玛分布、指数分布 等,都是最大熵原理的特殊情况

来源: marketreflections 2010-12-31 10:55:36 [] [博客] [旧帖] [给我悄悄话] 本文已被阅读: 0 次 (9979 bytes)
这是 Google 对 http://wenku.baidu.com/view/23bf8e16866fb84ae45c8dce.html 的缓存。 这是该网页在 2010年12月16日 05:49:28 GMT 的快照。 当前页在此期间可能已经更改。 了解详情

完整版本突出显示以下搜索字词: 最大 熵 建 模
手机文库 | 百度首页 | 百度知道 | 百度文库首页 | 登录
百度文库_文档分享平台 新闻 网页 贴吧 知道 MP3 图片 视频 百科 文库

帮助

全部 DOC PDF PPT XLS TXT

百度文库 > 专业文献/行业资料 > 计算机
下载文档
收藏
廖先桃.最大熵理论及其应用
廖先桃.最大熵理论及其应用廖先桃.最大熵理论及其应用<<隐藏

最大熵理论及其应用廖先桃 IR_Lab 2005.9.27 信息检索实验室 提纲最大熵理论 基于最大熵的统计建模 最大熵工具包的使用 最大熵模型与其他模型的比较 信息检索实验室 最大熵理论(1)让人困惑的概念熵 信息熵 最大熵理论 最大熵模型 交叉熵 相对熵 信息检索实验室 最大熵理论(2)熵物理学概念 宏观上:热力学定律——体系的熵变等于可逆过程 吸收或耗散的热量除以它的绝对温度(克劳修斯, 1865) 微观上:熵是大量微观粒子的位置和速度的分布概 率的函数,是描述系统中大量微观粒子的无序性的 宏观参数(波尔兹曼,1872) 结论:熵是描述事物无序性的参数,熵越大则无序 性越强信息检索实验室 最大熵理论(3)熵在自然界的变化规律——熵增原理一个孤立系统的熵,自发性地趋于极大,随着熵的增 加,有序状态逐步变为混沌状态,不可能自发地产生 新的有序结构。 当熵处于最小值, 即能量集中程度最高、有效能量处 于最大值时, 那么整个系统也处于最有序的状态,相反 为最无序状态。 熵增原理预示着自然界越变越无序 信息检索实验室 最大熵理论(4)信息熵和熵的联系——熵是描述客观事物无序性的参 数。香农认为信息是人们对事物了解的不确定 性的消除或减少 ,他把不确定的程度称为信息 熵(香农,1948 ) 随机事件的信息熵:设随机变量ξ,它有A1, A2,A3,A4,……,An共n种可能的结局,每 个结局出现的概率分别为p1,p2,p3, p4,……,pn,则其不确定程度,即信息熵为 H (ξ ) = ?∑ p i log p i 1 信息检索实验室 n 最大熵理论(5)信息熵信息熵是数学方法和语言文字学的结合 一个系统的熵就是它的无组织程度的度量 熵越大,事件越不确定 熵等于0,事件是确定的 熵值最大,正 反面的概率相 举例:抛硬币等,事件最不 确定 信息检索实验室 最大熵理论(6)熵的图形 信息检索实验室 最大熵理论(7)最大熵理论熵增原理 在无外力作用下,事物总是朝着最混乱的方向 发展 事物是约束和自由的统一体 事物总是在约束下争取最大的自由权,这其实 也是自然界的根本原则 在已知条件下,熵最大的事物,最可能接近它 的真实状态信息检索实验室 最大熵理论(8)最大熵原则下点的分布 对一随机过程,如果没有任何观测量,即没有 任何约束,则解为均匀分布信息检索实验室 最大熵理论(9)最大熵原则下点的分布 增加约束条件信息检索实验室 最大熵理论(10)最大熵原则下点的分布 信息检索实验室 最大熵理论(11)最大熵原则下点的分布 信息检索实验室 提纲最大熵理论 基于最大熵的统计建模 最大熵工具包的使用 最大熵模型与其他模型的比较 信息检索实验室 基于最大熵的统计建模(1)建模理论 数学描述 数学推导过程 信息检索实验室 基于最大熵的统计建模(2)建模理论以最大熵理论为基础的统计建模 为什么可以基于最大熵建模呢? Jaynes证明:对随机事件的所有相容的预测 (相容预测是指符合已知的某些参数与随机事 件相关条件的某种对随机事件分布的预测 ) 中,熵最大的预测出现的概率占绝对优势 Tribus证明,正态分布、伽玛分布、指数分布 等,都是最大熵原理的特殊情况信息检索实验室 基于最大熵的统计建模(3)建模理论结论:最大熵统计建模是以最大熵理论为基础 的一种选择模型的方法,即从符合条件的分布 中选择熵最大的分布作为最优的分布 满足约束条件 的所有分布 用公式表示:选择熵最大 的分布 信息检索实验室 基于最大熵的统计建模(4)建模理论最大熵统计模型需要解决的问题:特征空间的确定——问题域 特征选择——寻找约束条件 建立统计模型——基于最大熵理论建立熵最大的模 型 系统输入:特征 系统输出:最优的熵最大的模型信息检索实验室 基于最大熵的统计建模(5)数学描述问题描述:设最终输出值构成的语言学类别有限 集为Y,对于每个y∈Y,其生成均受上下文信息x 的影响和约束。已知与y有关的所有上下文信息组 成的集合为X,则模型的目标是:给定上下文x∈ X,计算输出为y∈Y的条件概率p(y|x)。 信息检索实验室 基于最大熵的统计建模(6)数学推导过程模型输入:从人工标注的训练数据中抽取的训 练样本集T={(x1, y1),(x2, y2), ……,(xn, yn)},(xi, yi)表示在语料库中出现yi时其上下文 信息为xi。 用概率分布的极大似然对训练语料表示如下, 其中 Count ( x, y )是(x, y)在语料中出现的次数,N 为总词数。 ~ ( x, y ) = 1 × Count ( x, y ) p N 信息检索实验室 基于最大熵的统计建模(7)数学推导过程特征f是指x与y之间存在的某种特定关系,用二 值函数函数表示: 特征的经验概率是所有满足特征要求的的经验 概率之和,即: ~( f ) = ~ ( x, y ) f ( x, y ) (1) p p ∑ x, y 信息检索实验室 基于最大熵的统计建模(8)数学推导过程特征的期望概率是特征在所学习的随机事件中 的真实分布为: ~ ( x ) p ( y | x ) f ( x, y ) (2) p( f ) = p x, y 其中: ~ ( y | x ) 是指x出现的情况下,y的经验概率 p p ( y | x) 是指x出现的情况下,y的真实概率 ∑ 信息检索实验室 基于最大熵的统计建模(9)数学推导过程特征的经验概率与期望概率应该一致,即: (3) p( f ) = ~( f ) p 即: p p ∑ ~( x) p( y | x) f ( x, y) = ∑ ~( x, y) f ( x, y) (4) x, y x, y 上面的式子即称为约束等式 信息检索实验室 基于最大熵的统计建模(10)数学推导过程设存在k个特征fi(i=1,2,…,k),多个约束等式构 成的集合叫约束集,可表示为: (5) 最大熵模型,是满足约束集条件的所有模型中 熵最大的模型,即: p*=argmaxH(p) (6) 其中p为满足约束集C条件的某一统计模型。信息检索实验室 基于最大熵的统计建模(11)数学推导过程 特征fi的权重用相对应的参数 λi 表示,则满足最 大熵的条件 p ( y | x) 用指数形式表示为: (7) 1 p λ ( y | x) = exp(∑ λi f i ( x, y )) 其中: Ζ λ ( x) i Ζ λ ( x) = ∑ exp(∑ λi f i ( x, y )) y (8) 称为归一化因子。信息检索实验室 基于最大熵的统计建模(12)最大熵模型的求解(参数估计方法) GIS算法(Generalized Iterative scaling) Darroch and Ratcliff,1972 IIS算法(Improved Iterative Scaling) Della Pietra 1995 Input: 特征函数 特征分布 Output: 最优参数值 最优模型信息检索实验室 基于最大熵的统计建模(14)特征选择在所有的特征中,选择最有代表性的特征,构 造约束集合 参数估计应用IIS算法,计算出每个特征对应的参数值 信息检索实验室 提纲最大熵理论 基于最大熵理论的统计建模 最大熵工具包的使用 最大熵模型与其他模型的比较 信息检索实验室 最大熵工具包的使用(1) Maximum Entropy Modeling Toolkit for Python and C++ ,Zhang Le,2004.12.29 两种运行方式:命令行形式 使用函数接口 信息检索实验室 最大熵工具包的使用(2)命令行方式运行训练过程输入从训练语料中提取的特征文件 输出训练模型 识别过程输入从测试语料中提取的特征文件 输出类别预测的结果 信息检索实验室 最大熵工具包的使用(3)命令行方式运行训练特征的格式 信息检索实验室 最大熵工具包的使用(4)命令行运行方式公式中 的y 特征事例: 公式中 的X 信息检索实验室 最大熵工具包的使用(5)命令行形式运行训练命令: maxent –m modelName –i 30 train.txt 其中,maxent是运行命令;-m指示训练输出的 模型的名字,由modelName给出;-i指示训练迭 代的次数;train.txt是输入的特征文本。该形式 不会有训练信息显示 例子1 信息检索实验室 最大熵工具包的使用(6)命令行形式运行训练命令: maxent –m modelName –i 30 -v train.txt 其中,-v将显示训练信息 例子2 信息检索实验室 最大熵工具包的使用(7)命令行形式运行常用的选项(可用maxent –h列出) 信息检索实验室 最大熵工具包的使用(8)命令行方式测试 将输出对每个事件的预测结果 将输出详细的概率信息信息检索实验室 最大熵工具包的使用(9)使用函数接口运行环境:VC7.0 加入头文件:#include 类名:MaxentModel 训练过程:加入特征事件: begin_add_event(); add_event(const vector< string > &context, const outcome_type &outcome, size_t count=1) end_add_event() 信息检索实验室 最大熵工具包的使用(10)使用接口函数训练:train(size_t iter=15, const std::string &method="lbfgs", double sigma=0.0, double tol=1E-05) 保存模型:save(const string &model, bool binary=false) 例子3 信息检索实验室 最大熵工具包的使用(11)使用接口函数测试:加载模型:load (const string &model) 加入特征,方法同训练 模型估计:eval_all((const vector< string > &context, std::vector< pair< outcome_type, double > > &outcomes, bool sort_result=true) 例子4 信息检索实验室 提纲最大熵理论 基于最大熵理论的统计建模 最大熵工具包的使用 最大熵模型与其他模型的比较 信息检索实验室 最大熵模型与其他模型的比较(1)最大熵方法的优点建模时,试验者只需集中精力选择特征,而不 需要花费精力考虑如何使用这些特征 特征选择灵活,且不需要额外的独立假定或内 在约束 模型应用在不同领域时的可移植性强 可结合更丰富的信息 信息检索实验室 最大熵模型与其他模型的比较(2)最大熵方法的缺点时空开销大 数据稀疏问题比较严重 对语料库依赖性较强 信息检索实验室 最大熵模型与其他模型的比较(3) HMM的优点算法简单,易于实现 执行效率较高 HMM的缺点不易于融合更多的语言信息 对于某些复杂问题的处理效果不好 信息检索实验室 最大熵模型与其他模型的比较(4)与HMM实验结果对比训练:北大富士通语料24,994句 测试:北大富士通语料10,000句 NE类型 准确率(%) 召回率(%) F值(%) 人名(Ni) 93.30 93.33 93.32 地名(Ns) 72.31 89.72 80.08 机构名(Ni) 76.47 25.92 38.71 专有名词(Nz) 59.27 81.24 68.53 79.00 77.28 78.13 总的结果信息检索实验室 最大熵模型与其他模型的比较(5)与HMM+rule实验结果对比 NE类型 准确率(%) 召回率(%) F值(%) 人名(Ni) 93.86 86.86 93.19 地名(Ns) 86.69 85.83 86.25 机构名(Ni) 77.20 65.90 71.10 专有名词(Nz) 77.14 80.32 78.70 86.93 83.69 85.28 总的结果信息检索实验室 最大熵模型与其他模型的比较(6)基于最大熵的NE识别(BIO标注集) NE类型 人名(Ni) 地名(Ns) 机构名(Ni) 专有名词(Nz) 时间 日期 数量短语 总的结果信息检索实验室 准确率(%) 98.28 91.15 84.69 77.14 76.0 95.40 95.90 93.36 召回率(%) 88.39 85.70 75.28 80.32 50.0 85.52 93.12 F值(%) 91.56 92.33 79.71 78.70 60.32 90.19 94.49 90.81 88.39 谢谢! 信息检索实验室
下载本文档需要登录,并付出相应积分。如何获取积分?


大小: 265.8KB

所需积分: 0

当前文档信息

已有0人评价

浏览:1次下载:0次

贡献时间:2010-12-16


--------------------------------------------------------------------------------

贡献者: hongst 初试锋芒 二级


文档关键词
廖先桃 最大熵

更多相关推荐文档
Java规则引擎工作原理及...
0人评 5页

面向智能电网的物联网技术及...
0人评 5页

UML及其在网上客户服务系...
0人评 4页

DB2 应用
0人评 9页

曲线曲面理论
1人评 43页


更多同分类热门文档
大道至简
4498人评 123页

网络营销实战密码
3085人评 33页

高级Bash脚本编程指南
3520人评 590页

浪潮之巅++google黑...
3067人评 165页

《100万!我是如何成为史...
3812人评 392页


©2010 Baidu使用百度前必读文库协议
请您先登陆,再发跟帖!

发现Adblock插件

如要继续浏览
请支持本站 请务必在本站关闭/移除任何Adblock

关闭Adblock后 请点击

请参考如何关闭Adblock/Adblock plus

安装Adblock plus用户请点击浏览器图标
选择“Disable on www.wenxuecity.com”

安装Adblock用户请点击图标
选择“don't run on pages on this domain”