为了解决特征特征数量级差异过大,导致的模型过拟合问题,有一种方法就是对每个特征进行缩放,使其大致处于同一范围。核SVM常用的缩放方法是将所有的特征缩放到0和1之间。
“人工”处理方法:
import matplotlib.pyplot as plt from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from sklearn.svm import SVC plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False cancer=load_breast_cancer() X_train,X_test,y_train,y_test=train_test_split(cancer.data,cancer.target,random_state=0) #计算训练集中每个特征的最小值 min_on_train=X_train.min(axis=0) #计算训练集中每个特征的范围(最小值-最大值) range_on_train=(X_train-min_on_train).max(axis=0) #减去最小值,然后除以范围,这样最大值都是1,最小值都是0 X_train_scales=(X_train-min_on_train)/range_on_train print('每个特征的最小值:{}'.format(X_train_scales.min(axis=0))) print('每个特征的最大值:{}'.format(X_train_scales.max(axis=0))) X_test_scales=(X_test-min_on_train)/range_on_train svc=SVC(C=1,gamma=1) svc.fit(X_train_scales,y_train) print('训练集精度:{:.3f}'.format(svc.score(X_train_scales,y_train))) print('测试集精度:{:.3f}'.format(svc.score(X_test_scales,y_test)))
可以看到,最终的结果上训练集和测试集的精度都非常好,但还没有接近100%的精度,可能存在欠拟合,后续可以通过调整C参数来继续优化。
猜你喜欢
- 4小时前【python】15.图像和办公文档处理
- 4小时前VUE登录注册页面,完整vue,直接复制
- 4小时前Java接收前端请求体方式
- 4小时前智能小程序相关名词解释(汇总)
- 4小时前rust跟我学二:模块编写与使用
- 4小时前kafka基础知识总结
- 4小时前kafka服务器连接出现:[NetworkClient.java:935] [Producer clientId=producer-1] Node -1 disconnected原因分析
- 4小时前软件架构设计的核心:抽象与模型、“战略编程”
- 4小时前【HarmonyOS】深入了解 ArkUI 的动画交互以提高用户体验
- 1小时前小考成绩怎么查(小考成绩怎么查2024山西)
网友评论
- 搜索
- 最新文章
- 热门文章