python机器学习算法怎么学(用Python做科学计算工具篇)
python机器学习算法怎么学(用Python做科学计算工具篇)
2024-11-22 02:43:07  作者:鸽子情书  网址:https://m.xinb2b.cn/life/knl145056.html


所需基本库

numpyscipymatplotlib全章目录【本节:监督学习:住房数据的回归】简介:问题设置使用 scikit-learn 进行机器学习的基本原理监督学习:手写数字的分类监督学习:住房数据的回归测量预测性能无监督学习:降维和可视化特征脸示例:链接 PCA 和 SVM特征脸示例:链接 PCA 和 SVM参数选择、验证和测试6.4.监督学习:住房数据的回归

在这里,我们将做一个回归问题的简短示例:从一组特征中学习一个连续值。

6.4.1. 快速浏览数据

我们将使用 scikit-learn 中提供的简单波士顿房价集。这记录了波士顿周围房地产市场的 13 个属性的测量值,以及中位数价格。问题是:你能根据新市场的属性预测其价格吗?

>>>

>>> from sklearn.datasets import load_boston>>> data = load_boston()>>> print(data.data.shape)(506, 13)>>> print(data.target.shape)(506,)

我们可以看到只有 500 多个数据点。

该DESCR变量对数据集有很长的描述:

>>>

>>> print(data.DESCR) Boston House Prices dataset===========================Notes------Data Set Characteristics: :Number of Instances: 506 :Number of Attributes: 13 numeric/categorical predictive :Median Value (attribute 14) is usually the target :Attribute Information (in order): - CRIM per capita crime rate by town - ZN proportion of residential land zoned for lots over 25,000 sq.ft. - INDUS proportion of non-retail business acres per town - CHAS Charles River dummy variable (= 1 if tract bounds river; 0 otherwise) - NOX nitric oxides concentration (parts per 10 million) - RM average number of rooms per dwelling - AGE proportion of owner-occupied units built prior to 1940 - DIS weighted distances to five Boston employment centres - RAD index of accessibility to radial highways - TAX full-value property-tax rate per $10,000 - PTRATIO pupil-teacher ratio by town - B 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town - LSTAT % lower status of the population - MEDV Median value of owner-occupied homes in $1000's...

它通常有助于使用直方图、散点图或其他绘图类型快速可视化数据片段。使用 matplotlib,让我们显示目标值的直方图:每个邻域的中位数价格:

>>>

>>> plt.hist(data.target) (array([...


让我们快速看一下某些特征是否比其他特征更适合我们的问题:

>>>

>>> for index, feature_name in enumerate(data.feature_names):... plt.figure()... plt.scatter(data.data[:, index], data.target) <Figure size...














有时,在机器学习中,使用特征选择来决定哪些特征对特定问题最有用是很有用的。现有的自动化方法可以量化这种选择信息量最大的特征的练习。

6.4.2. 预测房价:一个简单的线性回归

现在我们将使用scikit-learn对住房数据执行简单的线性回归。有许多使用回归量的可能性。一个特别简单的是LinearRegression:这基本上是一个普通最小二乘计算的包。

>>>

>>> from sklearn.model_selection import train_test_split>>> X_train, X_test, y_train, y_test = train_test_split(data.data, data.target)>>> from sklearn.linear_model import LinearRegression>>> clf = LinearRegression()>>> clf.fit(X_train, y_train)LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)>>> predicted = clf.predict(X_test)>>> expected = y_test>>> print("RMS: %s" % np.sqrt(np.mean((predicted - expected) ** 2))) RMS: 5.0059...


我们可以绘制误差:预期作为预测的函数:

>>>

>>> plt.scatter(expected, predicted) <matplotlib.collections.PathCollection object at ...>

尽管显然存在一些偏差,但该预测至少与真实价格相关。我们可以想象通过计算真实价格和预测价格之间的 RMS 残差来评估回归器的性能。然而,其中有一些微妙之处,我们将在后面的部分中介绍。

from sklearn.ensemble import GradientBoostingRegressor# Instantiate the model, fit the results, and scatter in vs. out

相关文章:用Python做科学计算(工具篇)——scikit-learn(机器学习)3用Python做科学计算(工具篇)——scikit-learn(机器学习)2用Python做科学计算(工具篇)——scikit-learn(机器学习)1用Python做科学计算——matplotlib绘图实例 用Python做科学计算(工具篇)——1.1. NumPy 数组对象用Python做科学计算(工具篇)——numpy1.2.数组的数值运算 用Python做科学计算(工具篇)——numpy1.3 更精细的数组用Python做科学计算(工具篇)——numpy1.4 高级操作用Python做科学计算(工具篇)——scipy 使用指南用Python做科学计算(工具篇)——sympy使用指南(符号运算),
  • 笋煨鸡汤(寒冷日子里温暖的)
  • 2024-11-22寒冷日子里温暖的发表于2017-10-3018:23:15收藏数:1浏览数:121老家院子的大门口,有一鸡窝,养着一群鸡母亲常常在屋檐下喂鸡,一把玉米粒撒出去,鸡公**们热情洋溢地跑到屋檐下的台阶前,细心地啄,那个样。
  • 武汉市大智路大智公寓均价(农行家属院鱼池子)
  • 2024-11-22农行家属院鱼池子小区基本信息pk农行家属院(鱼池子)建行家属院(金昌南路)区县商圈东方红广场东方红广场小区地址鱼池子40-42金昌南路244-248号建筑年代--总户数200100容积率2.052.05物业公司润城物。
  • 情侣之间互相冷战怎么处理(情侣之间解决冷战的六大方法)
  • 2024-11-22情侣之间解决冷战的六大方法情侣之间的相处,一开始总是看到对方的优点而忽视对方的缺点,当相处时间长了双方的缺点就是展现无疑,此时就会出现吵架、冷战等现象那么,情侣之间出现冷战应该怎样对待,才能成功缓解情感危机,让两人和好如初不要。
  • 按摩减肥背部最快方法(这5个步骤的按摩)
  • 2024-11-22这5个步骤的按摩形容一个男人肩宽背厚,无疑这是好事,谁听了都会喜欢但如果用这个词形容女性那么就会招人厌了但是生活中偏偏有的女孩儿就是后背上的肉肉多,这让人很是烦恼另外从养生的角度讲也是后背越薄越好,这样经络疏通,气血。
  • 为什么说大耳朵有福气(耳朵大有福气)
  • 2024-11-22耳朵大有福气不光耳朵大,而且要有肉,耳垂也大,并且有光泽佛祖如来,耳大遮脸,天庭饱满地阁方圆,庄严肃穆,一脸福相为天下苍生死,死后成佛,度化众生国人喜欢看脸,佛祖一脸福相,一看就喜欢,佛教来我国,不费吹灰之力就席。
  • 卫视如何区分一二三四线(卫视发展历史了解一下)
  • 2024-11-22卫视发展历史了解一下一线卫视:湖南卫视,安徽卫视,浙江卫视,江苏卫视二线卫视:四川卫视,河南,河北三线卫视:西藏卫视,内蒙古卫视四级卫视应该是县级的电视台1985年中国卫星电视开始发展,以央视一套为主的中央电视台率先上星。
  • 第一届亚洲十大电影节(全世界最大尺度的电影节)
  • 2024-11-22全世界最大尺度的电影节2019年鹿特丹电影节上,我去看纳瓦彭·坦荣瓜塔纳利的《BNK48:女孩别哭》映后QA,坐在我旁边的一个老爷爷引起了我的注意,他的提问非常有意思散场后我跟他聊天,才知道这位名叫阿德里安的老爷爷是鹿特丹。
  • 标准一日两餐时间(有什么典故)
  • 2024-11-22有什么典故第一顿就是早餐时间在7到9点之间,第二顿在下午四点左右《墨子·杂守》说,兵士每天吃两顿,食量分为五个等级第一顿称“朝食”或“饔”,在太阳行至东南方(隅中)时就餐第二顿称“飧”或“食”,在申时(下午四点。
  • 黄梅戏代表人物(黄梅戏代表人物有哪些)
  • 2024-11-22黄梅戏代表人物有哪些严凤英(1930~1968),原名严鸿六,安徽省桐城县罗岭(今安庆市宜秀区罗岭镇黄梅村)人女,中共党员,黄梅戏杰出的表演艺术家,中国黄梅戏的发展缔造者之一,“七仙女”塑造者,中国黄梅戏传承发展重要的开。
  • 姜武到底有多强(最年长的胡八一最瘦的王胖子)
  • 2024-11-22最年长的胡八一最瘦的王胖子新的一部鬼吹灯系列电视剧《鬼吹灯之天星术》已经确定主演阵容男主胡八一由张涵予饰演,王胖子由姜武饰演,Shirley杨由卢靖姗饰演张涵予,一直以来都是硬汉的形象从现在演的剧电影来说,身上胡八一的影子确实。
  • 早安心语优美的短句子(让你元气满满)
  • 2024-11-22让你元气满满很多时候,幸福是朴素的,微小的,甚至不易觉察学会感受幸福,才能拥有更多的幸福早安!生活是多滋多味的,总有苦的时候,那就慢慢地咀嚼,苦涩之后才有甘甜;总有累的时候,那就默默地坚持,相信前面定有温暖的阳光。