钦州浦北网站建设,北京比较好的互联网公司,推广方式单一,做图软件ps下载网站有哪些内容文章目录一、逻辑回归简介二、逻辑回归的原理1. Sigmoid函数2. 决策边界3. 损失函数三、逻辑回归的优势与局限四、示例#xff1a;银行数据训练1. 数据准备与探索2. 特征选择与数据划分3. 模型训练与评估一、逻辑回归简介
逻辑回归#xff08;Logistic Regression#xff0…文章目录一、逻辑回归简介二、逻辑回归的原理1. Sigmoid函数2. 决策边界3. 损失函数三、逻辑回归的优势与局限四、示例银行数据训练1. 数据准备与探索2. 特征选择与数据划分3. 模型训练与评估一、逻辑回归简介逻辑回归Logistic Regression是一种广泛应用于分类问题的统计学习方法尤其擅长处理二分类问题。尽管名字中带有回归但它实际上是一种分类算法。逻辑回归通过Sigmoid函数将线性回归的输出映射到(0,1)区间从而得到样本属于某一类别的概率。二、逻辑回归的原理1. Sigmoid函数逻辑回归的核心是Sigmoid函数也称为逻辑函数P ( y 1 ∣ x ) 1 1 e − z P(y1|x) \frac{1}{1 e^{-z}}P(y1∣x)1e−z1其中z是输入特征的线性组合z w 0 w 1 x 1 w 2 x 2 . . . w n x n z w₀ w₁x₁ w₂x₂ ... wₙxₙzw0w1x1w2x2...wnxn2. 决策边界当P ( y 1 ∣ x ) ≥ 0.5 P(y1|x) ≥ 0.5P(y1∣x)≥0.5时模型预测为正类当P ( y 1 ∣ x ) 0.5 P(y1|x) 0.5P(y1∣x)0.5时预测为负类。0.5这个阈值形成了决策边界。3. 损失函数逻辑回归使用交叉熵损失函数对数损失函数通过最大似然估计或梯度下降等优化方法寻找最优参数。三、逻辑回归的优势与局限优势计算效率高训练和预测速度快输出具有概率意义可解释性强对线性可分或近似线性可分的数据表现良好不容易过拟合尤其适合高维数据局限对非线性决策边界的数据效果有限对多重共线性敏感需要较大的样本量来保证参数估计的稳定性四、示例银行数据训练1. 数据准备与探索fromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportStandardScalerimportpandasaspdimportmatplotlib.pyplotaspltfrompylabimportmplfromsklearn.linear_modelimportLogisticRegressionfromsklearnimportmetrics# 读取数据并进行预处理datapd.read_csv(rcreditcard.csv)scalerStandardScaler()data[Amount]scaler.fit_transform(data[[Amount]])datadata.drop([Time],axis1)# 设置中文字体支持mpl.rcParams[font.sans-serif][Microsoft YaHei]mpl.rcParams[axes.unicode_minus]False# 查看正负例样本分布labels_countpd.value_counts(data[Class])print(labels_count)# 可视化样本分布plt.title(正负例样本数)plt.xlabel(类别)plt.ylabel(频数)labels_count.plot(kindbar)plt.show()2. 特征选择与数据划分# 选择特征列column_names[V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25,V26,V27,V28,Amount]x_wholedata[column_names]y_wholedata[[Class]]# 划分训练集和测试集这里使用30%作为训练集x_train_w,x_test_w,y_train_w,y_test_wtrain_test_split(x_whole,y_whole,train_size0.3,random_state1000)3. 模型训练与评估# 创建并训练逻辑回归模型# C参数是正则化强度的倒数较小的C值表示更强的正则化lrLogisticRegression(C0.01)lr.fit(x_train_w,y_train_w)# 在测试集上进行预测test_predictedlr.predict(x_test_w)resultlr.score(x_test_w,y_test_w)# 输出详细的分类报告print(metrics.classification_report(y_test_w,test_predicted))图中包含以下关键指标精确率Precision预测为正例的样本中实际为正例的比例召回率Recall实际为正例的样本中被正确预测的比例F1-score精确率和召回率的调和平均数准确率Accuracy所有样本中被正确分类的比例