99久久精品一级毛片一区2区3区,一级毛片aa高清免费观看

Python數(shù)據(jù)科學(xué)：線性回歸

2019-01-24 09:31

Python進(jìn)階學(xué)習(xí)交流

關(guān)注

變量分析：

①相關(guān)分析：一個(gè)連續(xù)變量與一個(gè)連續(xù)變量間的關(guān)系。

②雙樣本t檢驗(yàn)：一個(gè)二分分類變量與一個(gè)連續(xù)變量間的關(guān)系。

③方差分析：一個(gè)多分類分類變量與一個(gè)連續(xù)變量間的關(guān)系。

④卡方檢驗(yàn)：一個(gè)二分分類變量或多分類分類變量與一個(gè)二分分類變量間的關(guān)系。

本次介紹：

線性回歸：多個(gè)連續(xù)變量與一個(gè)連續(xù)變量間的關(guān)系。

其中線性回歸分為簡(jiǎn)單線性回歸和多元線性回歸。

／ 01 ／數(shù)據(jù)分析與數(shù)據(jù)挖掘

數(shù)據(jù)庫(kù)：一個(gè)存儲(chǔ)數(shù)據(jù)的工具。因?yàn)镻ython是內(nèi)存計(jì)算，難以處理幾十G的數(shù)據(jù)，所以有時(shí)數(shù)據(jù)清洗需在數(shù)據(jù)庫(kù)中進(jìn)行。

統(tǒng)計(jì)學(xué)：針對(duì)小數(shù)據(jù)的數(shù)據(jù)分析方法，比如對(duì)數(shù)據(jù)抽樣、描述性分析、結(jié)果檢驗(yàn)。

人工智能／機(jī)器學(xué)習(xí)／模式識(shí)別：神經(jīng)網(wǎng)絡(luò)算法，模仿人類神經(jīng)系統(tǒng)運(yùn)作，不僅可以通過(guò)訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)，而且還能根據(jù)學(xué)習(xí)的結(jié)果對(duì)未知的數(shù)據(jù)進(jìn)行預(yù)測(cè)。

／ 02 ／回歸方程

01 簡(jiǎn)單線性回歸

簡(jiǎn)單線性回歸只有一個(gè)自變量與一個(gè)因變量。

含有的參數(shù)有「回歸系數(shù)」「截距」「擾動(dòng)項(xiàng)」。

其中「擾動(dòng)項(xiàng)」又稱「隨機(jī)誤差」，服從均值為0的正態(tài)分布。

線性回歸的因變量實(shí)際值與預(yù)測(cè)值之差稱為「殘差」。

線性回歸旨在使殘差平方和最小化。

下面以書(shū)中的案例，實(shí)現(xiàn)一個(gè)簡(jiǎn)單線性回歸。

建立收入與月均信用卡支出的預(yù)測(cè)模型。

import numpy as np

import pandas as pd

import statsmodels．a(chǎn)pi as sm

import matplotlib．pyplot as plt

from statsmodels．formula．a(chǎn)pi import ols

＃消除pandas輸出省略號(hào)情況及換行情況

pd．set＿option（＇display．max＿columns＇， 500）

pd．set＿option（＇display．width＇， 1000）

＃讀取數(shù)據(jù)，skipinitialspace：忽略分隔符后的空白

df ＝ pd．read＿csv（＇creditcard＿exp．csv＇， skipinitialspace＝True）

print（df．head（））

讀取數(shù)據(jù)，數(shù)據(jù)如下。

對(duì)數(shù)據(jù)進(jìn)行相關(guān)性分析。

＃獲取信用卡有支出的行數(shù)據(jù)

exp ＝ df［df［＇avg＿exp＇］．notnull（）］．copy（）．iloc［：， 2：］．drop（＇age2＇， axis＝1）

＃獲取信用卡無(wú)支出的行數(shù)據(jù)，NaN

exp＿new ＝ df［df［＇avg＿exp＇］．isnull（）］．copy（）．iloc［：， 2：］．drop（＇age2＇， axis＝1）

＃描述性統(tǒng)計(jì)分析

exp．describe（include＝＇all＇）

print（exp．describe（include＝＇all＇））

＃相關(guān)性分析

print（exp［［＇avg＿exp＇，＇Age＇，＇Income＇，＇dist＿h(yuǎn)ome＿val＇］］．corr（method＝＇pearson＇））

輸出結(jié)果。

發(fā)現(xiàn)收入（Income）和平均支出（avg＿exp）相關(guān)性較大，值為0．674。

使用簡(jiǎn)單線性回歸建立模型。

＃使用簡(jiǎn)單線性回歸建立模型

lm＿s ＝ ols（＇avg＿exp ～ Income＇， data＝exp）．fit（）

print（lm＿s．params）

＃輸出模型基本信息，回歸系數(shù)及檢驗(yàn)信息，其他模型診斷信息

print（lm＿s．summary（））

一元線性回歸系數(shù)的輸出結(jié)果如下。

從上可知，回歸系數(shù)值為97．73，截距值為258．05。

模型概況如下。

其中R值為0．454，P值接近于0，所以模型還是有一定參考意義的。

使用線性回歸模型測(cè)試訓(xùn)練數(shù)據(jù)集，得出其預(yù)測(cè)值及殘差。

＃生成的模型使用predict產(chǎn)生預(yù)測(cè)值，resid為訓(xùn)練數(shù)據(jù)集的殘差

print（pd．DataFrame（［lm＿s．predict（exp）， lm＿s．resid］， index＝［＇predict＇，＇resid＇］）．T．head（））

輸出結(jié)果，可與最開(kāi)始讀取數(shù)據(jù)時(shí)輸出的結(jié)果對(duì)比一下。

使用模型測(cè)試預(yù)測(cè)數(shù)據(jù)集的結(jié)果。

＃對(duì)待預(yù)測(cè)數(shù)據(jù)集使用模型進(jìn)行預(yù)測(cè)

print（lm＿s．predict（exp＿new）［：5］）

輸出結(jié)果。

1 2 下一頁(yè)>

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問(wèn)所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

圖片新聞