python机器学习算法怎么学(用Python做科学计算工具篇)
python机器学习算法怎么学(用Python做科学计算工具篇)
2024-11-23 12:19:41  作者:鸽子情书  网址:https://m.xinb2b.cn/tech/knl145056.html


所需基本库

numpyscipymatplotlib全章目录【本节:监督学习:住房数据的回归】简介:问题设置使用 scikit-learn 进行机器学习的基本原理监督学习:手写数字的分类监督学习:住房数据的回归测量预测性能无监督学习:降维和可视化特征脸示例:链接 PCA 和 SVM特征脸示例:链接 PCA 和 SVM参数选择、验证和测试6.4.监督学习:住房数据的回归

在这里,我们将做一个回归问题的简短示例:从一组特征中学习一个连续值。

6.4.1. 快速浏览数据

我们将使用 scikit-learn 中提供的简单波士顿房价集。这记录了波士顿周围房地产市场的 13 个属性的测量值,以及中位数价格。问题是:你能根据新市场的属性预测其价格吗?

>>>

>>> from sklearn.datasets import load_boston>>> data = load_boston()>>> print(data.data.shape)(506, 13)>>> print(data.target.shape)(506,)

我们可以看到只有 500 多个数据点。

该DESCR变量对数据集有很长的描述:

>>>

>>> print(data.DESCR) Boston House Prices dataset===========================Notes------Data Set Characteristics: :Number of Instances: 506 :Number of Attributes: 13 numeric/categorical predictive :Median Value (attribute 14) is usually the target :Attribute Information (in order): - CRIM per capita crime rate by town - ZN proportion of residential land zoned for lots over 25,000 sq.ft. - INDUS proportion of non-retail business acres per town - CHAS Charles River dummy variable (= 1 if tract bounds river; 0 otherwise) - NOX nitric oxides concentration (parts per 10 million) - RM average number of rooms per dwelling - AGE proportion of owner-occupied units built prior to 1940 - DIS weighted distances to five Boston employment centres - RAD index of accessibility to radial highways - TAX full-value property-tax rate per $10,000 - PTRATIO pupil-teacher ratio by town - B 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town - LSTAT % lower status of the population - MEDV Median value of owner-occupied homes in $1000's...

它通常有助于使用直方图、散点图或其他绘图类型快速可视化数据片段。使用 matplotlib,让我们显示目标值的直方图:每个邻域的中位数价格:

>>>

>>> plt.hist(data.target) (array([...


让我们快速看一下某些特征是否比其他特征更适合我们的问题:

>>>

>>> for index, feature_name in enumerate(data.feature_names):... plt.figure()... plt.scatter(data.data[:, index], data.target) <Figure size...














有时,在机器学习中,使用特征选择来决定哪些特征对特定问题最有用是很有用的。现有的自动化方法可以量化这种选择信息量最大的特征的练习。

6.4.2. 预测房价:一个简单的线性回归

现在我们将使用scikit-learn对住房数据执行简单的线性回归。有许多使用回归量的可能性。一个特别简单的是LinearRegression:这基本上是一个普通最小二乘计算的包。

>>>

>>> from sklearn.model_selection import train_test_split>>> X_train, X_test, y_train, y_test = train_test_split(data.data, data.target)>>> from sklearn.linear_model import LinearRegression>>> clf = LinearRegression()>>> clf.fit(X_train, y_train)LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)>>> predicted = clf.predict(X_test)>>> expected = y_test>>> print("RMS: %s" % np.sqrt(np.mean((predicted - expected) ** 2))) RMS: 5.0059...


我们可以绘制误差:预期作为预测的函数:

>>>

>>> plt.scatter(expected, predicted) <matplotlib.collections.PathCollection object at ...>

尽管显然存在一些偏差,但该预测至少与真实价格相关。我们可以想象通过计算真实价格和预测价格之间的 RMS 残差来评估回归器的性能。然而,其中有一些微妙之处,我们将在后面的部分中介绍。

from sklearn.ensemble import GradientBoostingRegressor# Instantiate the model, fit the results, and scatter in vs. out

相关文章:用Python做科学计算(工具篇)——scikit-learn(机器学习)3用Python做科学计算(工具篇)——scikit-learn(机器学习)2用Python做科学计算(工具篇)——scikit-learn(机器学习)1用Python做科学计算——matplotlib绘图实例 用Python做科学计算(工具篇)——1.1. NumPy 数组对象用Python做科学计算(工具篇)——numpy1.2.数组的数值运算 用Python做科学计算(工具篇)——numpy1.3 更精细的数组用Python做科学计算(工具篇)——numpy1.4 高级操作用Python做科学计算(工具篇)——scipy 使用指南用Python做科学计算(工具篇)——sympy使用指南(符号运算),
  • 称和秤的区别和用法(称和秤的区别和用法是什么)
  • 2024-11-23称和秤的区别和用法是什么称和秤的区别:意思不同、写法不同、侧重点不同意思不同:称:测定重量秤:测定物体重量的器具,有杆秤、地秤、台秤、弹簧秤等多种侧重点不同:称:是指用秤称量物体重量的过程秤:指用于衡量物体所受重力的计量器具。
  • 茶叶的保质期一般为多少年(茶叶保质期多久)
  • 2024-11-23茶叶保质期多久对于喝茶的问题,不知道大家是不是普遍认为茶放得越久,喝的味道越香呢?且先不说茶保质期是多久,只是对所有茶叶而言,尤其对于经常喝茶的老茶友来说,似乎是不存在茶叶保质期这个问题?为什么呢?老茶友对于喝茶,。
  • 太平天国定都天京及意义(太平天国定都天京)
  • 2024-11-23太平天国定都天京1853年正月初二,太平军在武昌庆祝新年后,便顺江而下直取南京天王洪秀全先行登舟,杨秀清、韦昌辉、石达开、秦日纲、罗大纲统率水师护卫,林凤祥、李开芳率陆军夹岸护卫,老幼妇女也乘船随行,浮江万艘,浩浩荡。
  • 网红高压锅生蚝服务员(网红高压锅生蚝)
  • 2024-11-23网红高压锅生蚝最近被某音的高压锅生蚝洗脑、很多商家纷纷都蹭着热度推出这一款美食,实在禁不住诱惑,作为资深级吃货,怎能放过如此简单的美食,于是便自己进厨房琢磨,好好的满足一下自己的胃,想在家就能吃到网红高压锅生蚝的朋。
  • 拉丁舞起源于哪个国家
  • 2024-11-23拉丁舞起源于哪个国家拉丁舞包括恰恰、伦巴、桑巴、斗牛和牛仔舞,他们分别起源于不同的国家和地区,20世纪初期在英国被规范和发展,并很快在许多国家流行起来拉丁舞就是指体育舞蹈,分为恰恰、桑巴、伦巴、牛仔、斗牛五支舞,拉丁舞是。
  • 电脑怎么发朋友圈(电脑发朋友圈的方法)
  • 2024-11-23电脑发朋友圈的方法我们想用电脑微信发朋友圈的就需要下载bluestacks软件,我们先到搜索引擎里面下载到桌面或者也可以在360软件管家里面下载都可以bluestacks安卓软件下载的时候可能网络原因会慢一点,在下载的。
  • 抓娃娃一抓一个准的(教你抓娃娃一抓一个准)
  • 2024-11-23教你抓娃娃一抓一个准平时去商场、步行街或广场,我们都会看到很多娃娃机,但你去抓时每次都是抓起来,正想往洞口搬时,它就掉下来了,多次尝试都是一样但我看到有些人是一抓一个准,抓到老板都要哭了,你以为别人真的技术高吗其实别人是。
  • 做梦梦到抓好多鳝鱼是什么意思(梦境寓意内容)
  • 2024-11-23梦境寓意内容打算出门的人梦见抓鳝鱼,建议几次的受阻不能成行,冬来可出外怀有身孕的人梦见抓鳝鱼,预示生女,慎防胎死腹中创业的人梦见抓鳝鱼,代表有财利,不很通畅,宜做木业,可赚钱梦见鳝鱼,吉兆,生活会幸福梦见黄鳝,象。
  • 怎么快速解决关节痛(做到治疗护理7步走)
  • 2024-11-23做到治疗护理7步走关节痛怎么办?做到治疗护理7步走,可快速缓解!关节连接骨头,支撑体重,承受着巨大的压力有时关节会过度磨损,并且由此产生的关节痛关节疼痛可能是由多种不同的因素引起的,比如创伤,滑囊炎,肌腱炎,甚至骨质疏。
  • 岳云鹏当年在德云社有多笨(一期节目净赚一万五)
  • 2024-11-23一期节目净赚一万五在郭德纲的大力宣传下,不少人都真的觉得岳云鹏很笨,就是靠郭德纲的力捧才有了今天其实熟悉岳云鹏的人知道,岳云鹏能有今天的成就,除了郭德纲的栽培,还有他自己出众的情商和智商在德云社开播的团综《德云斗笑社》。
  • 去除黑头后怎样让毛孔变小(五个小秘方甩掉黑头)
  • 2024-11-23五个小秘方甩掉黑头黑头由于肌肤油脂分泌氧化而成,所以生生不惜,但是我们可以通过很多外部的护肤去黑头方法解决黑头,去除黑头要先从洁面开始,深层的洁面可以让肌肤角质软化,清理黑头更快速去黑头我们可以选择深层清洁面膜,深层清。