今天SPSSPRO給會員朋友們分享的主題是《基于數(shù)據(jù)挖掘的電采暖電量預(yù)測及應(yīng)用》,本文的作者是陳廣宇,袁紹軍,夏革非等,發(fā)表于《科技資訊》。
《科技資訊》是由北京市科學(xué)技術(shù)研究院主管的科技期刊,創(chuàng)刊于2003年。該期刊專注于報道**動態(tài),促進(jìn)科技成果轉(zhuǎn)化,內(nèi)容涵蓋新技術(shù)、材料、設(shè)備及工藝等。設(shè)有多個欄目,面向科研人員、教育機(jī)構(gòu)和企業(yè),提供學(xué)術(shù)交流平臺,在學(xué)術(shù)界享有較高的聲譽(yù)和影響力。
1.研究背景
在我們的日常生活中,電力的需求正隨著社會的發(fā)展持續(xù)攀升,而如何提升能源的使用效率,已成為我們迫在眉睫的課題。為此,精確而高效的電力需求預(yù)測技術(shù)顯得尤為重要,它不僅能夠促進(jìn)能源的合理利用,還能優(yōu)化電網(wǎng)的運作狀態(tài),**配電網(wǎng)絡(luò)的經(jīng)濟(jì)和穩(wěn)定運行,較為電網(wǎng)公司的策略規(guī)劃和日常工作安排提供了有力的支持。
電量預(yù)測涉及到利用歷史電量數(shù)據(jù)、天氣狀況等信息,通過分析其變化趨勢來預(yù)測未來一段時間內(nèi)的電量需求。這里,我們可以分為兩大類方法:一是傳統(tǒng)的預(yù)測技術(shù),如時間序列和回歸分析法;二是較為現(xiàn)代的方法,比如運用支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)技術(shù)。
我們分享一下在SPSSPRO上如何使用傳統(tǒng)的統(tǒng)計分析方法以及機(jī)器學(xué)習(xí)方法進(jìn)行用電量的預(yù)測。
2. 數(shù)據(jù)背景
數(shù)據(jù)集涵蓋了從2015年1月1日到2020年10月6日的2016天時間范圍內(nèi),某個地區(qū)居民的用電需求,以及在不同季節(jié)和天氣條件下用電量的變化。數(shù)據(jù)集中我們需要研究的變量如下:
從數(shù)據(jù)集的變量我們可以看到,我們需要研究的因變量Y是電力需求量,其他因素都是自變量X。值得注意的是電力需求量可能收到零售價、氣溫這些數(shù)據(jù)集中已有的因素影響,也有可能受到天氣(晴天、雨天、陰天等)、日照時長、季節(jié)等因素的影響。
是否需要考慮更多影響因素,受到我們選擇的分析方法所影響,對于像時間序列分析(ARIMA) 這樣的單序列模型,我們只需要有電力需求量這一因變量Y就可以分析和建模,而對于回歸分析的話,則需要將相關(guān)產(chǎn)生影響的自變量X也納入模型中。如果我們數(shù)據(jù)集中的自變量X并不能解釋因變量Y的變化情況,那么建立的模型有效性會較低,從而導(dǎo)致我們無法作出準(zhǔn)確的預(yù)測。下面我們對比一下不同分析方法的特點。
3.統(tǒng)計學(xué)VS機(jī)器學(xué)習(xí)
統(tǒng)計學(xué)方法提供了理論基礎(chǔ)堅實、可解釋性強(qiáng)且廣泛適用的分析框架,特別適用于數(shù)據(jù)量較小且要求模型可解釋性的情況。然而,它們在處理復(fù)雜非線性關(guān)系、大數(shù)據(jù)集和高維度特征方面可能顯得能力有限,且對數(shù)據(jù)質(zhì)量和預(yù)處理的要求較高。在實踐中,結(jié)合使用統(tǒng)計學(xué)方法和機(jī)器學(xué)習(xí)技術(shù)往往能夠較好地解決分析問題,平衡各自的優(yōu)勢和劣勢。
4.灰色關(guān)聯(lián)分析
4.1.概念
灰色關(guān)聯(lián)分析通常用于處理不完全、不確定或不充分的信息?;疑P(guān)聯(lián)分析通過測量序列之間的相似度,來識別它們之間的關(guān)系強(qiáng)度、關(guān)聯(lián)度或影響程度。若兩個因素變化的趨勢具有一致性,即同步變化程度較高,即可謂二者關(guān)聯(lián)程度較高;反之,則較低。它特別適用于樣本數(shù)據(jù)量小和信息不完全的情況。
4.2.使用方法
一般來講,電力需求量具有明顯的季節(jié)氣候特性,受氣溫變化影響顯著,而且具有較強(qiáng)的時序特征。在案例數(shù)據(jù)中,電量各影響因素之間的關(guān)系無法用固定的公式表示,變量之間關(guān)系呈灰態(tài),是典型的灰色系統(tǒng)。 同時,電量與影響因素之間的關(guān)系是非線性的,因此平常的相關(guān)性分析方法并不適用。灰色關(guān)聯(lián)分析從模糊的角度出發(fā),分析影響因素與電量之間的關(guān)聯(lián)性,對樣本數(shù)據(jù)沒有特殊的要求。相比于傳統(tǒng)的相關(guān)性分析方法,灰色關(guān)聯(lián)分析較適用于電采暖電量影響因素辨識,為建立電量預(yù)測模型打下基礎(chǔ)。
接下來我們利用灰色關(guān)聯(lián)分析求取各類影響因素與用電量之間的相關(guān)性,確定每一個因素與用電量之間的關(guān)聯(lián)度,根據(jù)關(guān)聯(lián)度大小選取特征指標(biāo)。
4.3.分析過程
1. 確定分析數(shù)列,母序列為電力需求,其他因素是特征序列。
2. 數(shù)據(jù)歸一化,由于不同變量之間單位不同,需要使用均值化方法統(tǒng)一量綱。
3. 計算關(guān)聯(lián)系數(shù)。
4. 計算關(guān)聯(lián)度,由于關(guān)聯(lián)系數(shù)是比較序列與參考 序列在各個時刻的關(guān)聯(lián)程度值,所以它不止一個。因此將各個時刻的關(guān)聯(lián)系數(shù)取平均值,作為比較數(shù)列與參考數(shù)列間關(guān)聯(lián)程度的數(shù)量表示。
4.4.分析結(jié)果
關(guān)聯(lián)度表示各比較數(shù)列與參考數(shù)列之間的相似關(guān) 聯(lián)程度,介于 0~1 之間。該值越大表示比較數(shù)列與參 考數(shù)列的關(guān)聯(lián)度越高,意味著比較數(shù)列與參考數(shù)列之 間關(guān)系越緊密,相關(guān)性越高。
根據(jù)關(guān)聯(lián)度大小將特征指標(biāo)排序,分析指標(biāo)對電 采暖電量的影響程度。在表中我們可以看到,各個影響因素與用電量之間的關(guān)聯(lián)度都**過0.95,具有較強(qiáng)的關(guān)聯(lián)關(guān)系,我們需要將全部數(shù)據(jù)集中的影響因素都納入模型進(jìn)行分析。值得注意的是,雖然我們認(rèn)為這些因素都是跟因變量Y有灰色關(guān)聯(lián)關(guān)系,但不代表這些因素可以全部解釋因變量Y的變化情況。接下來我們分別是用統(tǒng)計學(xué)的回歸分析以及機(jī)器學(xué)習(xí)方法來建立預(yù)測模型。
5.線性回歸分析
5.1.概念
線性回歸是用來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法,在線性回歸分析中,只包括一個自變量和一個因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。
5.2.使用方法
在灰色關(guān)聯(lián)分析中,全部數(shù)據(jù)集中的自變量X都有比較強(qiáng)的灰色關(guān)聯(lián)度,所以我們將全部變量都納入線性回歸分析模型中。
從分析結(jié)果來看,除了較高氣溫以外,其他自變量都是顯著的,與灰色關(guān)聯(lián)分析的結(jié)果較為一致。但模型預(yù)測的準(zhǔn)確性指標(biāo)R^2僅有0.136,預(yù)測效果較差,導(dǎo)致這個結(jié)果的主要原因可能有兩個,**是因變量Y和自變量X之間并非線性關(guān)系,*二是有其他較重要的因素影響用電量。針對**個問題,我們可以嘗試使用機(jī)器學(xué)習(xí)的方法進(jìn)行模型擬合和預(yù)測。
6.機(jī)器學(xué)習(xí) - XGboost回歸
6.1.概念
XGBoost(Extreme Gradient Boosting)是一種高效的機(jī)器學(xué)習(xí)算法,基于梯度提升框架的優(yōu)化實現(xiàn),XGBoost在回歸和分類問題上表現(xiàn)出色,可以被用于預(yù)測短期或長期的電力需求、負(fù)荷或價格。
6.2.使用方法
在SPSSPRO上,即使是復(fù)雜的機(jī)器學(xué)習(xí)算法,也可以通過簡單的拖拉拽操作,將我們需要研究的變量放在合適的變量選擇框中即可,使用方法與線性回歸的基本一致。
在機(jī)器學(xué)習(xí)的算法中,我們需要選擇的參數(shù)比較多,常見的有以下幾個:
1. 數(shù)據(jù)洗牌,對于有序數(shù)據(jù),我們選擇否。2. 訓(xùn)練占比,選擇訓(xùn)練集和測試機(jī)的比例,我們將一部份(默認(rèn)70%)數(shù)據(jù)作為訓(xùn)練集,訓(xùn)練出來的模型再用于測試集的預(yù)測,由于測試集我們已經(jīng)知道因變量Y的值,所以通過對比模型生成的結(jié)果,以及原始數(shù)據(jù)中測試機(jī)的因變量Y的結(jié)果,即可知道我們模型的準(zhǔn)確性。
3. 樹算法參數(shù),較深入的模型應(yīng)用,我們可以調(diào)整算法參數(shù),例如基學(xué)習(xí)器的種類和數(shù)量,學(xué)習(xí)呂、樣本采樣率等等,通過仔細(xì)調(diào)整算法參數(shù),可以進(jìn)一步提高模型的準(zhǔn)確性。
6.3.分析結(jié)果
在機(jī)器學(xué)習(xí)中,我們關(guān)注的結(jié)果更多是模型的準(zhǔn)確性(性能),沒有統(tǒng)計分析中的假設(shè)以及前提條件,所以我們重點是通過調(diào)整變量和參數(shù),不斷提升有效性指標(biāo)例,從而能獲得準(zhǔn)確的預(yù)測結(jié)果。
從模型評估結(jié)果可以看到,訓(xùn)練集中模型的擬合效果較好(R^2為0.959),而測試集的擬合效果較差(R^2為0.406),這種典型問題稱為“過擬合”。
● 過擬合(Overfitting)
指的是模型在訓(xùn)練集上表現(xiàn)得非常好,幾乎能夠**地預(yù)測或解釋數(shù)據(jù),但在未見過的測試集上表現(xiàn)很差。這意味著模型可能過度學(xué)習(xí)了訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié),而不是捕捉到了數(shù)據(jù)的真實潛在規(guī)律。過擬合導(dǎo)致模型泛化能力差,即模型不能很好地適應(yīng)新數(shù)據(jù)。
● 優(yōu)化方向
1. 改變模型
XGboost是梯度提升方法,另外SPSSPRO中還提供了較為決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等機(jī)器學(xué)習(xí)方法,對比使用不同模型的預(yù)測準(zhǔn)確性并選擇合適的模型。
2. 調(diào)整參數(shù)
通過調(diào)整模型復(fù)雜度、學(xué)習(xí)速率、采樣方式等等,經(jīng)過對比測試,看能否有效的提高在測試集上的準(zhǔn)確性,值得注意的是機(jī)器學(xué)習(xí)算法本身具有隨機(jī)性,所以即使參數(shù)一致,多次運算也會產(chǎn)生變化,我們要區(qū)分清楚變化是由參數(shù)引起的,還是隨機(jī)性引起的。
3. 特征工程(調(diào)整變量)
特征工程是機(jī)器學(xué)習(xí)中的一個關(guān)鍵過程,涉及使用領(lǐng)域知識選擇、修改和構(gòu)建適用于創(chuàng)建有效模型的特征。例如從原始數(shù)據(jù)中選擇較相關(guān)的特征,減少模型的復(fù)雜性,提高模型的性能;創(chuàng)建新的特征,以揭示數(shù)據(jù)中的重要信息或模式;將特征轉(zhuǎn)換為較適合模型的形式。常見的轉(zhuǎn)換包括歸一化、標(biāo)準(zhǔn)化、對數(shù)轉(zhuǎn)換和箱型轉(zhuǎn)換等。
提高模型性能的方法并非一蹴而就,隨著我們對分析場景的深入理解,進(jìn)行有效的特征工程,選擇合適的模型,可以逐步提升模型性能,進(jìn)而對研究問題由較加深入的洞察,并且將結(jié)果應(yīng)用于實踐,提高我們的用電效率,降低成本。
參考:
【1】數(shù)據(jù)集來自國家公開的數(shù)據(jù)庫kaggle
以上文章來源于SPSSPRO,作者SPSSPRO
北京天演融智軟件有限公司(科學(xué)軟件網(wǎng))是SPSSPRO在中國的授權(quán)經(jīng)銷商,為中國的軟件用戶提供優(yōu)質(zhì)的軟件銷售和培訓(xùn)服務(wù)。
詞條
詞條說明
CATS是由哥本哈根大學(xué)的Jonathan G. Dennis、Katarina Juselius、Soren Johansen和Henrik Hansen編寫的一套用于RATS軟件的協(xié)整分析程序。CATS提供了各種各樣的工具來分析數(shù)據(jù)、選擇和檢驗協(xié)整模型。該程序幾乎完全由菜單和對話框驅(qū)動。首先運行一個RATS程序來定義數(shù)據(jù)并加載CATS進(jìn)程。這會將多個CATS菜單添加到RATS中,您可以通過從這
TOUGH3TOUGH3 V1.0使得在PC機(jī)上使用單一代碼對裂隙多孔介質(zhì)中非等溫多相流動進(jìn)行預(yù)測建模的模擬成為可能。憑借其改進(jìn)的功能、可用性和輸出選項,TOUGH3 是一種較強(qiáng)大、較高效的工具,用于解決與地下流動建模相關(guān)的各種科學(xué)和實際應(yīng)用中的困難和計算要求高的問題。?注意:可執(zhí)行文件版本可用于Windows系統(tǒng)。Mac 或 Linux系統(tǒng),請使用源代碼版本并編譯代碼。?TO
快速準(zhǔn)確地創(chuàng)建醫(yī)療保健經(jīng)濟(jì)模型,這樣你可以做出良好的醫(yī)療決策,TreeAge Pro包含了所有需要的模型。TreeAge Pro分為Healthcare和Business/Law版本。TreeAge Pro HealthcareTreeAge Pro for Business/LawHealth EconomistsAttorneysPhysiciansBusiness AnalystsPharm
東城電力系統(tǒng)仿真軟件流程 電力系統(tǒng)仿真軟件在電力系統(tǒng)規(guī)劃、設(shè)計、運行和控制等方面發(fā)揮著重要作用。隨著科學(xué)技術(shù)的不斷進(jìn)步,電力系統(tǒng)仿真軟件也在不斷完善和發(fā)展。在眾多電力系統(tǒng)仿真軟件中,我們將**介紹幾種常用的軟件以及東城電力系統(tǒng)仿真軟件的流程。 一、PSS/E (Power System Simulator for Engineering) PSS/E是由Siemens開發(fā)的軟件,主要用于電力系統(tǒng)穩(wěn)
公司名: 北京天演融智軟件有限公司
聯(lián)系人: 王經(jīng)理
電 話: 4008104001
手 機(jī): 18510103847
微 信: 18510103847
地 址: 北京海淀北京市海淀區(qū)上地東路35號院1號樓3層1-312-318、1-312-319
郵 編:
網(wǎng) 址: turntech8843.b2b168.com
公司名: 北京天演融智軟件有限公司
聯(lián)系人: 王經(jīng)理
手 機(jī): 18510103847
電 話: 4008104001
地 址: 北京海淀北京市海淀區(qū)上地東路35號院1號樓3層1-312-318、1-312-319
郵 編:
網(wǎng) 址: turntech8843.b2b168.com
智能云閱卷機(jī) 高速閱讀機(jī) 讀卡機(jī)怎么識別答題卡
¥13800.00