我們既然進(jìn)行數(shù)據(jù)挖掘,那就肯定和數(shù)據(jù)要做到一定關(guān)系,比如我們先要去了解數(shù)據(jù),在對數(shù)據(jù)進(jìn)行分析,然后處理等等,那這個過程是需要去操作實現(xiàn)的,我們在使用Python的時候要怎么去處理這些內(nèi)容呢?下面給大家整理了相關(guān)流程,讓大家可以快速處理數(shù)據(jù)。
Python數(shù)據(jù)預(yù)處理實戰(zhàn)
常見的數(shù)據(jù)預(yù)處理方法如下內(nèi)容:
1、缺失值處理
缺失值是指在一組數(shù)據(jù)中,某行數(shù)據(jù)缺失的某個特征值。
2、異常值處理
異常值產(chǎn)生的原因往往是數(shù)據(jù)在采集時發(fā)生了錯誤,如在采集數(shù)字68時發(fā)生了錯誤,誤將其采集成680。
填寫下面表單即可預(yù)約申請免費試聽java課程!害怕學(xué)不會?助教全程陪讀,隨時解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可全國推薦就業(yè)!
3、數(shù)據(jù)集成
相較于上文的缺失值處理和異常值處理,數(shù)據(jù)集成是一種較為簡單的數(shù)據(jù)預(yù)處理方式。
接下來以淘寶商品數(shù)據(jù)為例,介紹一下上文預(yù)處理的實戰(zhàn)。
在進(jìn)行數(shù)據(jù)預(yù)處理之前,首先需要從MySQL數(shù)據(jù)庫中導(dǎo)入淘寶商品數(shù)據(jù)。在開啟MySQL數(shù)據(jù)庫之后,對其中的taob表進(jìn)行查詢,得到了如下的輸出:
可以看到,taob表中有四個字段。其中title字段用于存儲淘寶商品的名稱;link字段存儲淘寶商品的鏈接;price存儲淘寶商品的價格;comment存儲淘寶商品的評論數(shù)(一定程度上代表商品的銷量)。
通過pymysql連接數(shù)據(jù)庫(如果出現(xiàn)亂碼,則對pymysql的源碼進(jìn)行修改),連接成功后,將taob中的數(shù)據(jù)全部檢索出來,然后借助pandas中的read_sql()方法便可以將數(shù)據(jù)導(dǎo)入到內(nèi)存中。
下一篇: 沒有了
初級會計職稱中級會計職稱經(jīng)濟(jì)師注冊會計師證券從業(yè)銀行從業(yè)會計實操統(tǒng)計師審計師高級會計師基金從業(yè)資格稅務(wù)師資產(chǎn)評估師國際內(nèi)審師ACCA/CAT價格鑒證師統(tǒng)計資格從業(yè)
一級建造師二級建造師消防工程師造價工程師土建職稱房地產(chǎn)經(jīng)紀(jì)人公路檢測工程師建筑八大員注冊建筑師二級造價師監(jiān)理工程師咨詢工程師房地產(chǎn)估價師 城鄉(xiāng)規(guī)劃師結(jié)構(gòu)工程師巖土工程師安全工程師設(shè)備監(jiān)理師環(huán)境影響評價土地登記代理公路造價師公路監(jiān)理師化工工程師暖通工程師給排水工程師計量工程師
人力資源考試教師資格考試出版專業(yè)資格健康管理師導(dǎo)游考試社會工作者司法考試職稱計算機營養(yǎng)師心理咨詢師育嬰師事業(yè)單位教師招聘公務(wù)員公選考試招警考試選調(diào)生村官
執(zhí)業(yè)藥師執(zhí)業(yè)醫(yī)師衛(wèi)生資格考試衛(wèi)生高級職稱護(hù)士資格證初級護(hù)師主管護(hù)師住院醫(yī)師臨床執(zhí)業(yè)醫(yī)師臨床助理醫(yī)師中醫(yī)執(zhí)業(yè)醫(yī)師中醫(yī)助理醫(yī)師中西醫(yī)醫(yī)師中西醫(yī)助理口腔執(zhí)業(yè)醫(yī)師口腔助理醫(yī)師公共衛(wèi)生醫(yī)師公衛(wèi)助理醫(yī)師實踐技能內(nèi)科主治醫(yī)師外科主治醫(yī)師中醫(yī)內(nèi)科主治兒科主治醫(yī)師婦產(chǎn)科醫(yī)師西藥士/師中藥士/師臨床檢驗技師臨床醫(yī)學(xué)理論中醫(yī)理論