网站建设与推广实训小结,做酒的网站,做网站公司好,wordpress gallery插件核心比喻#xff1a;城市温度预测系统想象你在研究中国三个城市的温度#xff1a;北京#xff08;北方#xff09;上海#xff08;中部#xff09;广州#xff08;南方#xff09;你有两种数据#xff1a;空间数据#xff1a;今天同一时刻#xff0c;三个城市的温度…核心比喻城市温度预测系统想象你在研究中国三个城市的温度北京北方上海中部广州南方你有两种数据空间数据今天同一时刻三个城市的温度时间数据北京连续30天的温度记录我们假设温度变化服从高斯过程这在很多气象模型中确实是近似假设。第一部分高斯过程的特殊判断方法特殊规则1不相关 独立高斯专属“免检特权”普通世界 vs 高斯世界场景普通随机变量高斯随机变量发现ρ0“可能还有隐藏关系”需要进一步检查“立即断定独立”无需任何额外检验比喻发现两人没通话记录可能还在用其他方式联系发现两人DNA无关肯定是陌生人实际判断步骤# 普通情况冗长的检查流程 if 相关系数(X, Y) ≈ 0: # 还不能下结论 检查1: 画散点图看有无曲线模式 检查2: 计算互信息看有无非线性依赖 检查3: 做独立性统计检验... # 结论可能仍是“依赖但非线性” # 高斯情况一键判断 if 相关系数(X, Y) ≈ 0: 直接宣布X和Y相互独立 # 因为在高斯世界中线性无关 完全无关气象例子测量今天北京温度X和广州温度Y计算相关系数ρ 0.1很弱的相关如果温度是高斯分布的立即断定两地温度几乎独立现实意义预测广州温度时完全不用参考北京数据特殊规则2正交的判断简化为“零均值不相关”正交的一般定义E[X·Y] 0高斯下的神奇简化对于高斯变量X, Y正交 ⇔ 不相关当且仅当至少一个均值为0更实用的是如果 E[X] E[Y] 0那么 正交 ⇔ 不相关 ⇔ 独立三位一体了公式推导E[XY] Cov(X,Y) E[X]E[Y] ρ·σ_xσ_y μ_xμ_y所以如果 μ_x μ_y 0E[XY] Cov(X,Y)正交(E[XY]0) ⇔ 不相关(Cov0)气象应用研究温度异常值减去平均温度后的偏差设X 北京温度 - 北京年均温均值≈0设Y 上海温度 - 上海年均温均值≈0如果Cov(X, Y) 0 → 立即得X与Y正交且独立特殊规则3条件独立性有简洁判据场景已知北京(X)、上海(Y)、广州(Z)的温度服从联合高斯分布。问题已知上海温度后北京和广州还相关吗高斯世界的神奇公式北京与广州条件独立于上海 ⇔ ρ(X,Z|Y) 0 ⇔ ρ(X,Z) ρ(X,Y)·ρ(Y,Z)其中ρ是相关系数。计算例子假设ρ(北京,上海) 0.7ρ(上海,广州) 0.6ρ(北京,广州) ?如果北京和广州在已知上海时条件独立那么ρ(北京,广州) 0.7 × 0.6 0.42如果实际计算出的ρ接近0.42就支持条件独立性假设。现实意义在气象预报中这意味着知道了上海的温度北京和广州的温度就“解耦”了可以独立预测简化了全国天气预报模型第二部分高斯过程的空间与时间关系空间关系多个城市的温度假设三个城市的温度[X₁, X₂, X₃]服从三维高斯分布协方差矩阵为Σ [σ₁² ρ₁₂σ₁σ₂ ρ₁₃σ₁σ₃ ρ₁₂σ₁σ₂ σ₂² ρ₂₃σ₂σ₃ ρ₁₃σ₁σ₃ ρ₂₃σ₂σ₃ σ₃²]独立性的矩阵判断所有城市相互独立 ⇔ Σ是对角矩阵非对角线全为0 ⇔ 所有ρᵢⱼ 0部分独立的判断北京和广州独立于上海检查条件协方差矩阵或者更简单检查偏相关系数ρ(X,Z|Y) 0时间关系一个城市的温度序列北京连续n天的温度X₁, X₂, ..., Xₙ构成高斯过程。时间独立性的判断如果过程是高斯白噪声自相关函数R(τ) σ²·δ(τ) ⇔ 任意两个不同时间的温度相互独立时间相关性的判断常用协方差函数核函数平方指数核光滑变化K(t,s) σ² exp(-(t-s)²/(2ℓ²))ℓ是时间尺度越大相关性越持久指数核连续但不光滑K(t,s) σ² exp(-|t-s|/ℓ)判断方法计算样本自相关函数看是否符合某个核函数形式如果拟合好就可用高斯过程模型第三部分实用判断流程图第四部分高斯过程在工程中的特殊判断实例实例1无线通信接收机问题接收信号Y 信号 噪声假设噪声是高斯过程。判断噪声样本是否独立普通方法需要复杂的独立性检验高斯方法计算噪声样本的自相关系数R(τ)如果R(τ) ≈ 0 对于τ ≠ 0立即断定噪声样本相互独立直接使用白噪声假设设计滤波器实际节省设计复杂度从O(n³)降到O(n)实例2股票价格建模谨慎使用传统问题股票收益率是否独立很难判断因为非高斯厚尾、不对称波动聚集今天大跌明天可能继续跌高斯假设下的简化虽然不完全正确如果强行假设收益率是高斯过程计算日收益率的自相关系数发现ρ(滞后1天) ≈ 0.05很小直接宣布日收益率近似独立使用随机游走模型风险真实市场有非线性依赖高斯假设会低估风险实例3传感器网络数据融合场景10个温度传感器测量同一区域数据有噪声。高斯方法的高效判断假设测量误差是联合高斯的计算传感器间的相关系数矩阵发现某些传感器对相关系数≈0立即断定这些传感器的误差独立独立传感器的数据可以简单平均融合相关传感器的数据需要加权融合效率提升独立性判断从小时级降到秒级融合算法实时可行第五部分高斯过程关系判断的“作弊码”作弊码1协方差矩阵的对角化如果协方差矩阵Σ可以通过正交变换对角化Σ UΛUᵀ那么变换后的变量Y UᵀX各个分量相互独立因为Λ是对角阵应用主成分分析(PCA)就是基于此原理。作弊码2线性回归的残差对于高斯变量Y和X₁,X₂,...,XₖY β₀ β₁X₁ ... βₖXₖ ε如果ε是高斯噪声那么ε与所有Xᵢ正交由于均值为零ε与Xᵢ不相关因此ε与Xᵢ独立作弊码3条件分布的协方差已知联合高斯[X,Y]Y的条件协方差Σ_{Y|X} Σ_YY - Σ_YX Σ_XX⁻¹ Σ_XY如果Σ_{Y|X}是对角阵 → 给定X时Y的各分量条件独立。第六部分常见陷阱与注意事项陷阱1误用高斯假设数据实际非高斯但强行用高斯方法判断错误算出ρ0宣布独立现实可能有非线性依赖如X和X²防护先用QQ图检验高斯性陷阱2忽略均值不为零数据均值不为零时正交 ≠ 不相关需要先中心化例子两个股票价格都上涨价格本身正相关但收益率可能不相关陷阱3小样本误导样本太少时ρ的估计不可靠n10时|ρ|0.6都可能不显著n1000时|ρ|0.1就很显著建议结合假设检验看p值终极实用指南判断流程四步法第一步验证高斯性直方图是否钟形QQ图是否近似直线如果否谨慎使用高斯结论第二步中心化处理计算均值减去均值现在均值为零正交不相关第三步计算相关系数矩阵计算所有变量对的ρ检查哪些接近零第四步应用高斯特权ρ≈0的变量对宣布独立独立变量可以分开处理非零ρ用联合高斯公式处理一句话记住核心“高斯世界里零相关就是独立零均值时还赠送正交。”这个特性让高斯过程成为工程师的最爱——它用最简单的线性工具相关系数解决了最复杂的独立性判断问题。虽然现实世界不完全高斯但这个近似常常足够好且极其强大。