引論:我們?yōu)槟砹?篇數(shù)據(jù)分析方法論文范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。

數(shù)據(jù)分析方法論文:關(guān)于我國電子商務(wù)企業(yè)的數(shù)據(jù)分析方法的探討
為了驗證所提煉的因子影響程度及重要程度、檢驗問卷結(jié)構(gòu)效度和后續(xù)回歸分析的需要,本文首先對調(diào)查數(shù)據(jù)進行了因子分析,剔除不符合要求的題目,最終得到問卷;然后,使用spss軟件對問卷調(diào)查數(shù)據(jù)進行信度、效度、描述性統(tǒng)計、方差和相關(guān)分析;,建立回歸方程模型對假設(shè)進行檢驗。
1因子分析模型及其統(tǒng)計檢驗
因子分析是一種通過顯在變量測評潛在變量,通過具體指標測評抽象因子的統(tǒng)計分析方法。因子分析的目的即在找出量表潛在的結(jié)構(gòu),減少題目的數(shù)目,使之成為一組數(shù)量較少而彼此相關(guān)較大的變量。在本文中以主成分因素抽取法抽取共同因素,根據(jù)kaiesr(1960)的觀點選取特征值大于1.0以上的共同因素,再以較大變異法進行共同因素正交旋轉(zhuǎn)處理,保留共同度大于0.6以及因素負荷量大于0.5以上的題目。因素負荷量為碩士論文因素結(jié)構(gòu)中原始變量與抽取出共同因素相關(guān),負荷量越高表示該題目在該共同因素的重要性越大。共同度和特征值是因子分析的兩個重要指標。共同度是每個變量在每個共同因子的負荷量的平方和,也就是個別變量可以被共同因子解釋的變異量百分比,是個別變量與共同因子間多元相關(guān)的平方。特征值是每個變量在某一共同因子的因子負荷量的平方總和。
因子分析的數(shù)學(xué)模型及其統(tǒng)計檢驗描述如下:
彼此之間是獨立的,則模型(4.1)稱為正交因子模型;相反,如果公共因子彼此之間有一定相關(guān)性,則稱為斜交因子模型。由于斜交因子模型比較復(fù)雜,在本文中只考慮正交因子模型,而且假定各公共因子的均值為0,方差為1。
模型中的矩陣a稱為因子載荷矩陣,a稱為因子“載荷”,是第i個變量在第j個因子上的負荷。因子載荷陣的求解方法有很多,本文用常用的主成分分析法,求解載荷陣得到僅包含m個因子的因子載荷陣。主要問題就在于如何通過spss統(tǒng)計軟件對數(shù)據(jù)的分析來估計因子載荷矩陣a,負荷量大的指標給予保留,否則剔除。保留下來的指標所構(gòu)成的體系就是本文最終研究得到的指標體系。關(guān)于因子載荷的檢驗有:模型的標準化,這主要是為了得到抽象的因子含義,即對因子各維度進行命名;變量共同度檢驗,變量的共同度越高,說明該因子分析模型的解釋能力越高;因子的方差貢獻檢驗,用因子的累計方差貢獻率來確定公共因子提取的個數(shù),也就是尋找一個使得累計方差貢獻率達到較大百分比的自然數(shù),即最終提取方差貢獻大于1的因子作為公共因子。
由于本文的論題是電子商務(wù)環(huán)境下服務(wù)業(yè)企業(yè)績效評價指標體系構(gòu)建,本文主要運用平衡計分卡把評價指標體系分為四個方面,18個二級指標作為18個因子,按照因子分析法來選取有效指標,各項指標在選取時,需要遵循兩個原則,一是該指標在以前的研究中出現(xiàn)的概率,二是指標與所要研究的問題的潛在相關(guān)性。本文在四個方面的指標的選取上,另外考慮了①性,要求所選的指標能反映企業(yè)的經(jīng)營、客戶、企業(yè)學(xué)習(xí)與成長、財務(wù)方面的狀況;②有效性,要求選擇那些能夠?qū)︻A(yù)測企業(yè)的整體狀況有指示作用的重要指標;如,若各項指標的雙尾t檢驗的顯著性概率小于0.05,則能有效的反映企業(yè)的四個方面的狀況,反之,則是無效指標,應(yīng)剔除。③同趨勢性,即當各項指標增大時,表示企業(yè)的整體狀況改善,反之當各項指標減少時,表示企業(yè)的整體狀況惡化;④可操作性,采用易得到的數(shù)據(jù)。
2信度、效度、描述性統(tǒng)計、方差和相關(guān)分析方法
信度分析是采用一定的方法來衡量回收問卷中各變量的內(nèi)部一致性,它主要考查的是問卷測量的性,檢驗每一個因素中各個題目測量相同或相似的特性。本文采用克隆巴赫(cronbach a)一致性系數(shù)檢驗量表的信度和各分量表的信度。效度分析是采用一定的方法對問卷的理論構(gòu)思效度進行驗證。首先,必須對題目的結(jié)構(gòu)、測量的總體安排以及題目見的關(guān)系做出說明,然后運用一定的方法從數(shù)據(jù)中得出基本構(gòu)思,以此來對測量構(gòu)思的效度進行分析。用于評價結(jié)構(gòu)效度的主要指標有累積貢獻率、共同度和因子負荷。累積貢獻率反映公因素對量表或問卷的累積有效程度,共同度反映由公因素解釋原變量的有效程度,因子負荷反映原變量與某個公因素的相關(guān)度。描述性統(tǒng)計分析是對各維度中的測量題目的均值、標準差、方差等描述性統(tǒng)計量碩士論文進行統(tǒng)計,了解各維度中題目設(shè)置的水平。方差分析又稱變異數(shù)分析或f檢驗,其目的是推斷兩組或多組資料的總體均數(shù)是否相同,檢驗兩個或多個樣本均數(shù)的差異是否具有統(tǒng)計學(xué)意義。
方差分析對客觀事物數(shù)量進行依存關(guān)系的分析,主要刻畫兩類變量間線性相關(guān)的密切程度,其兩個變量全是隨機變量,且處于平等地位。兩變量之間的相關(guān)關(guān)系可以通過繪制散點圖或計算相關(guān)系數(shù)來反映。
3回歸模型及其統(tǒng)計檢驗
現(xiàn)實世界中,一個事物的運動變化,總是與其他事物相關(guān)聯(lián)。其中,有的還存在因果關(guān)系,這種因果關(guān)系有的是線性的,有的是非線性的。當預(yù)測對象與其影響因素的關(guān)系是線性的,且只有一個影響因素時,就可以用一元線性回歸方法建立其一元線性回歸預(yù)測模型,來表述和分析其因果關(guān)系;當有兩個或多個影響因素同時作用于一個預(yù)測對象時,則用多元線性回歸法建立多元線性回歸預(yù)測模型。
本文就是以多對一的關(guān)系,因此,用多元線性回歸模型進行統(tǒng)計檢驗。對于多元線性回歸模型及其統(tǒng)計檢驗描述如下:
當預(yù)測對象y同時受到多個解釋變量x1,x2,...,xm影響,且各個xj(j=1,2,...,m)與y都近似地表現(xiàn)為線性相關(guān)時,則可建立多元線性回歸模型來進行預(yù)測和分析,模型為:
3)回歸方程整體顯著性檢驗
回歸模型的顯著性檢驗包括兩個方面,即回歸方程的顯著性檢驗和回歸系數(shù)的顯著
性檢驗。
(1)回歸方程的顯著性檢驗
回歸方程的顯著性檢驗用于檢驗被解釋變量與所有解釋變量之間的線性關(guān)系是否顯著?;貧w模型總體函數(shù)的線性關(guān)系是否顯著,其實質(zhì)就是判斷回歸平方和與殘差平方和之比值的大小問題,可以通過方差分析的思想,構(gòu)造f統(tǒng)計量來進行檢驗,f檢驗是用來檢驗多元線性回歸模型的總體效果。
(2)回歸系數(shù)顯著性檢驗
回歸方程總體顯著并不意味著每個解釋變量對被解釋變量的影響都是重要的,還需要對每個回歸系數(shù)的顯著性進行檢驗。回歸系數(shù)顯著性檢驗通過構(gòu)造t統(tǒng)計量來進行,
4)殘差正態(tài)性檢驗
殘差e是隨機擾動項ε的體現(xiàn)。對殘差進行分析的目的是檢驗隨機擾動項是否服從經(jīng)典假設(shè)。殘差分析的內(nèi)容包括殘差正態(tài)性檢驗、序列相關(guān)檢驗、異方差檢驗等。本文應(yīng)用殘差的累計概率散點圖進行殘差正態(tài)性檢驗。
5)異方差檢驗
異方差常常表現(xiàn)為殘差隨某個解釋變量取值的變化而變化,因此,檢驗隨機擾動項是否存在異方差可以通過繪制被解釋變量與解釋變量的散點圖來簡單的判斷。如果散點圖呈帶狀分布,則不存在異方差;如果隨著解釋變量的增大,被解釋變量波動逐漸增大或減少,則很可能存在異方差的現(xiàn)象。實踐中,常常使用加權(quán)最小二乘法消除異方差。
7)多重共線性檢驗
所謂多重共線性是指各個解釋變量之間存在線性關(guān)系或接近線性關(guān)系的現(xiàn)象。多重共線性常常會導(dǎo)致回歸系數(shù)方差增大,從而使得t檢驗難以通過。用spss檢驗多重共線性共有四種方法:容忍度、方差膨脹因子、條件指數(shù)和方差比例。本文選用條件指數(shù)和比例方差這兩種方法來檢驗共線性。
(2)方差比例
通過對解釋變量協(xié)差陣進行矩陣分解,協(xié)差陣的每個特征根可以解釋各個解釋變量方差的一部分。若對于幾個不同的解釋變量,某個特征根能夠解釋的方差比例都很高(一般認為都超過50%),則可以認為這幾個解釋變量之間存在較強的共線性。
需要注意的是,多元線性回歸模型的構(gòu)建中,可能會遇到多重共線性的問題。如果變量相關(guān),則(x tx)?1不存在,最小二乘法失效。應(yīng)用最小二乘法估計回歸系數(shù)的一個重要條件就是自變量之間為不的線性相關(guān)。如果這種相關(guān)程度較低,其影響可以忽略;擔任若高度相關(guān)時,則回歸系數(shù)無效或無意義,因而所建模型無效或無意義。這時應(yīng)該選擇其他新的自變量以替代相關(guān)的變量或采用其他方法來建立模型。在本文中就是采用其他新的自變量,從模型中剔除不顯著的變量,在這里剔除的是意義相對次要的變量。
數(shù)據(jù)分析方法論文:探討統(tǒng)計數(shù)據(jù)分析體系中統(tǒng)計分析方法的選擇與比較
探討統(tǒng)計數(shù)據(jù)分析體系中統(tǒng)計分析方法的選擇與比較
一、數(shù)據(jù)統(tǒng)計分析的內(nèi)涵
數(shù)據(jù)分析是指運用一論文聯(lián)盟定的分析方法對數(shù)據(jù)進行處理,從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數(shù)據(jù)統(tǒng)計分析就是運用統(tǒng)計學(xué)的方法對數(shù)據(jù)進行處理。在實際的市場調(diào)研工作中,數(shù)據(jù)統(tǒng)計分析能使我們挖掘出數(shù)據(jù)中隱藏的信息,并以恰當?shù)男问奖憩F(xiàn)出來,并最終指導(dǎo)決策的制定。
二、數(shù)據(jù)統(tǒng)計分析的原則
(1)科學(xué)性??茖W(xué)方法的顯著特征是數(shù)據(jù)的收集、分析和解釋的客觀性,數(shù)據(jù)統(tǒng)計分析作為市場調(diào)研的重要組成部分也要具有同其他科學(xué)方法一樣的客觀標準。(2)系統(tǒng)性。市場調(diào)研是一個周密策劃、精心組織、科學(xué)實施,并由一系列工作環(huán)節(jié)、步驟、活動和成果組成的過程,而不是單個資料的記錄、整理或分析活動。(3)針對性。就不同的數(shù)據(jù)統(tǒng)計分析方法而言,無論是基礎(chǔ)的分析方法還是高級的分析方法,都會有它的適用領(lǐng)域和局限性。(4)趨勢性。市場所處的環(huán)境是在不斷的變化過程中的,我們要以一種發(fā)展的眼光看待問題。(5)實用性。市場調(diào)研說到底是為企業(yè)決策服務(wù)的,而數(shù)據(jù)統(tǒng)計分析也同樣服務(wù)于此,在保障其專業(yè)性和科學(xué)性的同時也不能忽略其現(xiàn)實意義。
三、推論性統(tǒng)計分析方法
(1)方差分析。方差分析是檢驗多個總體均值是否相等的一種統(tǒng)計方法,它可以看作是t檢驗的一種擴展。它所研究的是分類型自變量對數(shù)值型因變量的影響,比如它們之間有沒有關(guān)聯(lián)性、關(guān)聯(lián)性的程度等,所采用的方法就是通過檢驗各個總體的均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響。(2)回歸分析。在數(shù)據(jù)統(tǒng)計分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對應(yīng)的因果變化往往無法用的數(shù)學(xué)公式來描述,只有通過大量觀察數(shù)據(jù)的統(tǒng)計工作才能找到他們之間的關(guān)系和規(guī)律,解決這一問題的常用方法是回歸分析?;貧w分析是從定量的角度對觀察數(shù)據(jù)進行分析、計算和歸納。
四、多元統(tǒng)計分析方法
(1)相關(guān)分析。相關(guān)分析是描述兩組變量間的相關(guān)程度和方向的一種常用的統(tǒng)計方法。值得注意的是,事物之間有相關(guān)關(guān)系,不一定是因果關(guān)系,也可能僅僅是伴隨關(guān)系;但如果事物之間有因果關(guān)系,則兩者必然存在相關(guān)關(guān)系。(2)主成分分析。在大部分數(shù)據(jù)統(tǒng)計分析中,變量之間是有一定的相關(guān)性的,人們自然希望找到較少的幾個彼此不相關(guān)的綜合指標盡可能多地反映原來眾多變量的信息。所謂的主成分
轉(zhuǎn)貼于論文聯(lián)盟
分析就是利用降維的思想,把多指標轉(zhuǎn)化為幾個綜合指標的多元統(tǒng)計分析方法,很顯然在一個低維空間識別系統(tǒng)要比在一個高維空間容易的多。(3)因子分析。因子分析的目的是使數(shù)據(jù)簡單化,它是將具有錯綜復(fù)雜關(guān)系的變量綜合為數(shù)量較少的幾個因子,以再現(xiàn)原始變量與因子之間的相互關(guān)系,同時根據(jù)不同因子,對變量進行分類。這些因子是不可觀測的潛在變量,而原先的變量是可觀測的顯在變量。(4)聚類分析。在市場調(diào)論文聯(lián)盟研中,市場細分是最常見的營銷術(shù)語之一,它按照一定的標準將市場分割為不同的族群,并使族群之間具有某種特征的顯著差異,而族群內(nèi)部在這種特征上具有相似性。聚類分析就是實現(xiàn)分類的一種多元統(tǒng)計分析方法,它根據(jù)聚類變量將樣本分成相對同質(zhì)的族群。聚類分析的主要優(yōu)點是,對所研究的對象進行了的綜合分析,歸類比較客觀,有利于分類指導(dǎo)。(5)判別分析。判別分析是判別樣品所屬類型的一種多元統(tǒng)計方法。若在已知的分類下,遇到新的樣本,則可利用此法選定一種判別標準,以判定將該新樣品放置于哪個類中。由定義我們可以知道判別分析區(qū)別于聚類分析的地方,而在判別分析中,至少要有一個已經(jīng)明確知道類別的“訓(xùn)練樣本”,從而利用這個數(shù)據(jù)建立判別準則,并通過預(yù)測變量來為未知類別的觀測值進行判別。與聚類分析相同的地方是,判別分析也是利用距離的遠近來把對象歸類的。轉(zhuǎn)貼于論文聯(lián)盟
數(shù)據(jù)分析方法論文:環(huán)境空氣檢測數(shù)據(jù)分析及處理方法
摘要:隨著社會的快速發(fā)展,人們的生活水平越來越高,同時伴隨著而來的是環(huán)境質(zhì)量的下降,現(xiàn)在城市空氣質(zhì)量問題屢亮紅燈,人們越來越關(guān)注環(huán)境的質(zhì)量?,F(xiàn)代科技的快速發(fā)展,使得在環(huán)境空氣檢測方面人工檢測的越來越少,自動檢測的越來越多,給人們帶來了很多的方便。本文分析環(huán)境空氣檢測的數(shù)據(jù),對一些異常數(shù)據(jù)的檢測判斷分析,以及對這些異常數(shù)據(jù)該如何正確的處理。
關(guān)鍵詞:環(huán)境空氣檢測;數(shù)據(jù)分析;處理方法;異常數(shù)據(jù)
環(huán)境空氣自動檢測系統(tǒng)早已在空氣質(zhì)量檢測中運用嫻熟,在我國的各個城市的空氣質(zhì)量檢測得到廣泛的運用。環(huán)境空氣自動監(jiān)測系統(tǒng)是基于干法儀器的生產(chǎn)技術(shù),利用定電位電解傳感器原理,結(jié)合電子技術(shù)和網(wǎng)絡(luò)通訊技術(shù),研制、開發(fā)出來的近期科技產(chǎn)品,是開展城市環(huán)境空氣自動監(jiān)測的理想儀器。
目前,我國有上百個城市都運用了此系統(tǒng)來進行城市空氣質(zhì)量的檢測。但是,這個系統(tǒng)也并不是百利無一害的,因為檢測中會面臨一些氣候異常現(xiàn)象、還有設(shè)備的維修、斷電現(xiàn)象,諸如此類的現(xiàn)象會導(dǎo)致環(huán)境空氣自動檢測系統(tǒng)出現(xiàn)一些異常數(shù)據(jù),這就需要工作人員對這些異常數(shù)據(jù)進行分析探討,促進環(huán)境空氣質(zhì)量檢測數(shù)據(jù)的標準化。
1環(huán)境空氣自動檢測系統(tǒng)的組成部分
環(huán)境空氣自動檢測系統(tǒng)可對環(huán)境空氣質(zhì)量進行24小時自動連續(xù)檢測。該系統(tǒng)由檢測中心站、檢測子站和質(zhì)量保障實驗室組成。其中空氣環(huán)境檢測子站包括采樣系統(tǒng)、氣體分析儀器、校準裝置、氣象系統(tǒng)、子站數(shù)據(jù)采集等。子站檢測的數(shù)據(jù)通過電話線傳送至環(huán)境檢測中心站進行實時控制、數(shù)據(jù)管理及圖表生成。
檢測的項目為:so2、no、no2、nox、co、o3、pm10、氣象的五個參數(shù)(即:風(fēng)向、風(fēng)速、溫度、相對濕度、大氣壓力)子站計算機可連續(xù)自動采集大氣污染監(jiān)測儀、氣象儀、現(xiàn)場校準的數(shù)據(jù)及狀態(tài)信息等,并進行預(yù)處理和貯存,等待中心計算機輪詢或指令。采樣集氣管由采樣頭、總管、支路接頭、抽氣風(fēng)機、排氣口等組成。遠程數(shù)據(jù)通訊設(shè)備由調(diào)制解調(diào)器和公用電話線路組成,有線調(diào)傳或直接使用無線pc卡(支持gprs)。
2異常數(shù)據(jù)
環(huán)境空氣自動檢測系統(tǒng)在24小時無人值班的情況下檢測中,經(jīng)常會出現(xiàn)一些異常數(shù)據(jù)。據(jù)統(tǒng)計,我國每年實時檢測的上萬個檢測數(shù)據(jù)中有0.95%——3.18%的異常數(shù)據(jù),這些數(shù)據(jù)主要表現(xiàn)在一下幾個方面:
2.1可預(yù)知的異常數(shù)據(jù)
有的異常數(shù)據(jù)是因為儀器自身出現(xiàn)的故障、斷電等問題產(chǎn)生的,這種可預(yù)知的數(shù)據(jù)一般而言是不需要進行分析的,這種可預(yù)知的異常數(shù)據(jù)被視作為無效數(shù)據(jù),不參與均值計算。
2.2數(shù)據(jù)出現(xiàn)負值
出現(xiàn)負值的數(shù)據(jù)會有兩種情況,及時種是:檢測的環(huán)境中氣體濃度極低,接近于儀器的零點值,這個時候會因為儀器的零點漂移而產(chǎn)生負值的數(shù)據(jù)。第二種是因為儀器本身的故障導(dǎo)致的負值,這種就作為無效數(shù)據(jù),不予分析。
2.3數(shù)據(jù)在零值附近徘徊
單個檢測子站的某項污染物的濃度出現(xiàn)極高值時,就會導(dǎo)致數(shù)據(jù)在零值附近徘徊5個小時以上。這個時候,要根據(jù)周圍的環(huán)境、氣象、風(fēng)向等來分析判斷。
2.4突然產(chǎn)生的異常數(shù)據(jù)
有的時候,當外界環(huán)境發(fā)生急劇的變化時就會導(dǎo)致檢測的數(shù)據(jù)突然的發(fā)生異常情況,一般情況下只有當發(fā)生突然的空氣污染問題時才會出現(xiàn)這種情況,也就是空氣中某一
或者幾種大氣污染物的濃度突然的急劇增加。這種情況需要工作人員根據(jù)當?shù)氐沫h(huán)境和以往的經(jīng)驗進行判斷分析數(shù)據(jù),對出現(xiàn)的異常數(shù)據(jù)進行正確的取舍,將無效的數(shù)據(jù)不參與均值計算。
3處理方法
子站臨時停電或斷電,則從停電或斷電時起,至恢復(fù)供電后儀器完成預(yù)熱為止時段內(nèi)的任何數(shù)據(jù)都為無效數(shù)據(jù),不參加統(tǒng)計?;謴?fù)供電后儀器完成預(yù)熱一般需要0.5~1 小時。
對于低濃度未檢出結(jié)果和在監(jiān)測分析儀器零點漂移技術(shù)指標范圍內(nèi)的負值,應(yīng)該取監(jiān)測儀器低檢出限的1/2 數(shù)值,作為檢測結(jié)果參加均值計算。
有子站自動校準裝置的系統(tǒng),儀器在校準零/跨度期間,發(fā)現(xiàn)儀器零點漂移或跨度漂移超出漂移控制限,應(yīng)從發(fā)現(xiàn)超出控制限的時刻算起,到儀器恢復(fù)到調(diào)節(jié)控制限以下這段時間內(nèi)的檢測數(shù)據(jù)作為無效數(shù)據(jù),不參加均值計算,但要對該數(shù)據(jù)進行標注,作為以后的參考數(shù)據(jù)保留。
對于手工校準的系統(tǒng),儀器在校準零/跨度期間,發(fā)現(xiàn)儀器零點漂移或跨度漂移超出漂移控制限,應(yīng)從發(fā)現(xiàn)超出控制刻的前24小時算起,到儀器恢復(fù)到調(diào)節(jié)控制限以下這段時間內(nèi)的監(jiān)測數(shù)據(jù)作為無效數(shù)據(jù),不參加統(tǒng)計,但對該數(shù)據(jù)進行標注,作為參考數(shù)據(jù)保留。
在儀器校準零/跨度期間出現(xiàn)的異常數(shù)據(jù)作為無效數(shù)據(jù),不參加統(tǒng)計,但應(yīng)對該數(shù)據(jù)進行標注,作為以后儀器檢查的依據(jù)予以保留。
結(jié)束語
隨著社會的發(fā)展,環(huán)境保護工作受到的關(guān)注越來越多,城市規(guī)模的不斷擴大給城市環(huán)境帶來了各種各樣的問題,人們對環(huán)境質(zhì)量的要求也越來越高。對環(huán)境的保護很重要的根據(jù)就是環(huán)境空氣檢測的數(shù)據(jù),這些數(shù)據(jù)是做好環(huán)境保護工作的依據(jù)。而在環(huán)境空氣檢測系統(tǒng)中經(jīng)常會出現(xiàn)一些異常數(shù)據(jù)。對這些異常數(shù)據(jù),先判斷是否是因為儀器自身的故障而產(chǎn)生的數(shù)據(jù),排除這些無效的數(shù)據(jù)之外的異常數(shù)據(jù),要根據(jù)具體情況進行分析,尋找出出現(xiàn)異常數(shù)據(jù)的原因,然后找出解決問題的具體方法,保障環(huán)境檢測系統(tǒng)能夠健康安全的運轉(zhuǎn)下去,為環(huán)境保護工作貢獻自己的一份力量。
數(shù)據(jù)分析方法論文:信息通信網(wǎng)絡(luò)告警數(shù)據(jù)分析方法
【摘要】信息通信網(wǎng)的運行故障時有發(fā)生,要確保其運行安全,首先要做好網(wǎng)絡(luò)維護工作,通過網(wǎng)絡(luò)告警分析和處理故障。告警數(shù)據(jù)應(yīng)采用多維度的分析方法,以構(gòu)建層次化的網(wǎng)絡(luò)告警管理體系,提供多維度的,有效的信息通信網(wǎng)安全防護措施。
【關(guān)鍵詞】信息通信網(wǎng);網(wǎng)絡(luò)告警;告警數(shù)據(jù);多維度分析
信息通信網(wǎng)告警是指在網(wǎng)絡(luò)運行異常時獲得網(wǎng)絡(luò)運行狀態(tài),對網(wǎng)絡(luò)運行進行正確的評估,判斷網(wǎng)絡(luò)故障。告警系統(tǒng)的應(yīng)用有效的減少了故障發(fā)生概率,提高了生產(chǎn)效率。多維度分析方法是告警數(shù)據(jù)的一大特點,文章將其進行具體的分析如下。
1信息通信網(wǎng)絡(luò)告警管理的層次體系
構(gòu)建網(wǎng)絡(luò)告警管理層次體系,拓展其影響范圍并實現(xiàn)管理創(chuàng)新具有必要性。在以往的信息通信網(wǎng)告警管理中,網(wǎng)絡(luò)設(shè)備是其主要實現(xiàn)途徑,有效的實現(xiàn)了對網(wǎng)絡(luò)的監(jiān)督。隨著科技的發(fā)展,現(xiàn)階段網(wǎng)絡(luò)告警不僅可以應(yīng)用網(wǎng)絡(luò)設(shè)備,還能夠?qū)崿F(xiàn)級報警,也就是對所得信息進行分級處理,得到一定的網(wǎng)絡(luò)狀態(tài)后,從整體上考慮,完成性能級告警、業(yè)務(wù)感知告警、容量負荷類告警和網(wǎng)絡(luò)運行異常告警等多層次的告警內(nèi)容,并可以對不同的告警內(nèi)容實施不同的管理方案,進一步提高了通信網(wǎng)的告警效率。他是按照性能需求將網(wǎng)絡(luò)業(yè)務(wù)設(shè)定標準,超出標準后即出現(xiàn)報警。在通信網(wǎng)使用過程中,由于用戶量劇增,因此容量負荷是主要故障之一。針對這類故障我們設(shè)置了運行負荷進行監(jiān)測,即在超出負荷后發(fā)出預(yù)警??傊?,信息通信網(wǎng)絡(luò)的告警是多維度的,多層次的,只有這樣才能保障系統(tǒng)的安全運行。
2信息通信網(wǎng)絡(luò)告警數(shù)據(jù)的多維度分析方法
2.1故障工單數(shù)據(jù)的獲得
故障數(shù)據(jù)是提供解決方案的基礎(chǔ),因此信息通信網(wǎng)絡(luò)告警的分析首要問題就是獲得數(shù)據(jù)源提供的故障數(shù)據(jù)工單,工單數(shù)據(jù)不同于告警數(shù)據(jù),它主要體現(xiàn)在電子運維系統(tǒng)中。是通過對網(wǎng)絡(luò)結(jié)構(gòu)的分析而獲得的相關(guān)數(shù)據(jù),用以判斷是否存在系統(tǒng)故障。對于故障處理實施在線監(jiān)控,可以隨時發(fā)現(xiàn)其中存在的故障。網(wǎng)絡(luò)管理系統(tǒng)具有多樣性,通常是由多個商家提供,但是可以實現(xiàn)對故障的集中處理,具有詳細性和性特征。故障分析過程包括了全部字段,如設(shè)備告警息息字段、告警派單相關(guān)字段、告警標準化字段以及處理過程等。確保電子運維系統(tǒng)的運行安全才能保障信息通信網(wǎng)絡(luò)的安全。其作用就是反饋信息,并對相關(guān)數(shù)據(jù)進行存儲和處理。創(chuàng)建工單序列號,時間以及處理整個流程,進而解決故障問題。
2.2多維度信息通信網(wǎng)絡(luò)告警數(shù)據(jù)分析
信息通信網(wǎng)絡(luò)告警數(shù)據(jù)具有層次性,因此應(yīng)根據(jù)不同的特征將其進行分類,采用獨立分析與結(jié)合分析的方式提高數(shù)據(jù)的處理效率。筆者將信息通信網(wǎng)絡(luò)告警信息分為總量類、單量類和邏輯類三種,并對其進行相應(yīng)的分析。分析信息中是否存在三超信息,也就是信息量操長告警、超量告警以及超短告警,利用該方法可以快速定位故障并予以解決。通過維護人員的故障分析方法則可以保障故障工單的反饋有效,積累大量的維護經(jīng)驗,實現(xiàn)資源的共享。隨著我國通信業(yè)務(wù)的發(fā)展,不僅業(yè)務(wù)量增多,業(yè)務(wù)類型也不斷的增多,因此信息數(shù)據(jù)的種類是復(fù)雜的,對其處理應(yīng)采用科技化的方式,以減少處理過程中的資源浪費,確保系統(tǒng)的運行問題。多維度分析方法分為幾個重要的模塊,在大量告警系統(tǒng)的分析下,通過小模塊逐步分析,并將結(jié)果匯總的方式,得到最終的故障位置,這種分析方法符合信息系統(tǒng)運行規(guī)律,可以確保信息系統(tǒng)的運行穩(wěn)定,具有積極意義。
2.3信息通信網(wǎng)絡(luò)告警多維度分析的應(yīng)用
信息通信網(wǎng)絡(luò)告警多維度分析主要應(yīng)用于電信、工業(yè)以及服務(wù)等領(lǐng)域,將其應(yīng)用于設(shè)備管理具有高效性,由于傳統(tǒng)設(shè)備檢驗過程時間長,檢驗效果不理想。而對其采用多維度告警分析后,能夠及時查找設(shè)備故障,并提供必要的解決方案。多維度分析方法能獲得網(wǎng)絡(luò)的運行動態(tài)信息,使對網(wǎng)絡(luò)運行的判斷更加,對所有數(shù)據(jù)進行分析和統(tǒng)計,進而提高了網(wǎng)絡(luò)運行維護水平,是我國現(xiàn)階段主要推廣應(yīng)用的信息通信網(wǎng)絡(luò)故障處理方式。在告警數(shù)據(jù)的分析和處理下,網(wǎng)絡(luò)異?,F(xiàn)象得到了解決,并且對網(wǎng)絡(luò)運行具有監(jiān)督作用,一旦出現(xiàn)異常,就會立刻報警。當然,多維度分析方法的預(yù)警也是的,不會出現(xiàn)誤報警現(xiàn)象。因此為及時的發(fā)現(xiàn)通信系統(tǒng)故障提供了基礎(chǔ)。未來,這一技術(shù)將進一步發(fā)展,并從根本上解決信息通信系統(tǒng)的故障問題,提高網(wǎng)絡(luò)運行質(zhì)量。
3總結(jié)
文章主要分析了信息通信網(wǎng)絡(luò)的告警系統(tǒng),致力于實現(xiàn)告警的多維度分析方法。我國信息通信的增多,對其質(zhì)量要求也就更高。通過多維度分析方法可以建立完善的預(yù)警設(shè)備,對數(shù)據(jù)進行收集、整理和處理,實現(xiàn)對網(wǎng)絡(luò)運行狀態(tài)的實時監(jiān)控,一旦出現(xiàn)故障,會及時告警,從而保障了設(shè)備維修,促進了設(shè)備的運行穩(wěn)定。同時,多維度分析方法的實施還需要專業(yè)維修人員的配合,不斷的提高我國網(wǎng)絡(luò)運行維護水平和服務(wù)水平,提供更加品質(zhì)的服務(wù),才能促進其可持續(xù)發(fā)展。
作者:楊潤智 單位:廣東海格怡創(chuàng)科技有限公司
數(shù)據(jù)分析方法論文:供電企業(yè)信息安全大數(shù)據(jù)分析方法
摘要:本文將針對供電企業(yè)中的信息安全大數(shù)據(jù)進行探討,并針對大數(shù)據(jù)的分析方法進行研究。
關(guān)鍵詞:供電企業(yè);信息安全;大數(shù)據(jù);分析方法;思路;探討
前言
智能化的電網(wǎng)正在地實施建設(shè)。隨著以大數(shù)據(jù)為中心的IT技術(shù)的不斷融入,當前我國的供電企業(yè)展開了大數(shù)據(jù)分析的研究,以便更好地使得大數(shù)據(jù)應(yīng)用到整個配網(wǎng)的規(guī)劃當中。此外,還要根據(jù)電網(wǎng)的實際數(shù)據(jù)情況,把數(shù)據(jù)應(yīng)用到智能變電站的建立、智能電網(wǎng)的調(diào)度及供電信息的采集等各個方面。進而有效地提高我國供電企業(yè)的管理水平及處理業(yè)務(wù)的能力。然而,信息化新技術(shù)在應(yīng)用的過程中也具有一定的風(fēng)險因素,所以需要建立大數(shù)據(jù)的安全分析結(jié)構(gòu),進而對數(shù)據(jù)進行相應(yīng)的處理并把安全分析方法應(yīng)用到整個供電企業(yè)的信息系統(tǒng)中去,進而更好地為供電企業(yè)的數(shù)據(jù)安全提供保障。
1供電企業(yè)的信息風(fēng)險分析
大數(shù)據(jù)作為供電企業(yè)的管理工具是一把雙刃劍,給供電企業(yè)管理提供了便利,提高供電企業(yè)的管理水平和管理能力的同時,也給供電企業(yè)帶來了一定的挑戰(zhàn)和風(fēng)險因素。使得企業(yè)數(shù)據(jù)處理、收集及傳輸?shù)娘L(fēng)險等級提高。若企業(yè)內(nèi)部的數(shù)據(jù)出現(xiàn)問題,則會使得數(shù)據(jù)在進行傳輸?shù)倪^程中被盜取和竊聽,這給企業(yè)的管理帶來了很大的風(fēng)險。除此之外,企業(yè)在進行數(shù)據(jù)中進行一定的儲存和利用的過程中,也會由于大數(shù)據(jù)系統(tǒng)的內(nèi)部維護不到位而帶了很大的風(fēng)險。若企業(yè)的數(shù)據(jù)被長時間地竊聽,就會使得不法分子有機可乘,采用各種方法來對數(shù)據(jù)后臺進行攻擊和試探,并尋找系統(tǒng)的薄弱之處。實行致命的攻擊,并造成系統(tǒng)的癱瘓。所以,大數(shù)據(jù)給在方便企業(yè)的信息管理的同時,也帶來了一定的信息安全挑戰(zhàn)。
2供電企業(yè)信息安全大數(shù)據(jù)所面臨的數(shù)據(jù)安全的需要
傳統(tǒng)的電力信息系統(tǒng)逐漸地走向了信息化處理的進程,智能化的電網(wǎng)模式帶給了供電企業(yè)信息系統(tǒng)數(shù)據(jù)安全更大的要求。每次進行數(shù)據(jù)的訪問時,都需要確定數(shù)據(jù)的訪問權(quán)限,并核實訪問者的身份,并查看是否被授權(quán)。供電企業(yè)的數(shù)據(jù)信息需要被完整地保護,并保障其不被刪除或者惡意的篡改。一旦供電企業(yè)發(fā)生一定的突發(fā)事件,需要大數(shù)據(jù)平臺對數(shù)據(jù)進行自動的備份,并使數(shù)據(jù)得到安全的保護。④要采取一定的措施來保障供電企業(yè)的數(shù)據(jù)在運行過程中的安全性不被破壞。⑤要切實保障整個供電企業(yè)的信息系統(tǒng)的網(wǎng)絡(luò)安全,控制供電企業(yè)信息系統(tǒng)的基礎(chǔ)安全信息網(wǎng)絡(luò)和供電企業(yè)內(nèi)部比較重要的業(yè)務(wù)系統(tǒng)的安全。
3供電企業(yè)的信息安全大數(shù)據(jù)分析思路
當前供電企業(yè)內(nèi)容的安全信息系統(tǒng)逐漸地向著對抗型的信息安全系統(tǒng)方式轉(zhuǎn)變,并使得電力系統(tǒng)的大數(shù)據(jù)網(wǎng)絡(luò)可以積極地應(yīng)對外界的攻擊。并對潛在的敵人進行分析和識別,并歸納總結(jié)當前的供電企業(yè)的信息安全大數(shù)據(jù)的風(fēng)險類型,從而采取相應(yīng)的對策,并先發(fā)制人,提高安全大數(shù)據(jù)系統(tǒng)的防御能力。這就是當前供電企業(yè)的信息安全大數(shù)據(jù)的分析思路。大數(shù)據(jù)的分析和挖掘技術(shù)需要不斷地融入到大數(shù)據(jù)的安全分析中去,下圖是大數(shù)據(jù)的安全結(jié)構(gòu)分析思路。供電企業(yè)的信息安全大數(shù)據(jù)分析思路是基于技術(shù)的安全分析和理念,是至今為止比較完善的大數(shù)據(jù)安全分析辦法,是供電企業(yè)大數(shù)據(jù)的核心環(huán)節(jié),是對相對分散的信息進行采集并實現(xiàn)存儲,并對其進行一定的分析,把其分析結(jié)果進行分發(fā),把所有的安全分析體系結(jié)合在一起,并實現(xiàn)安全技術(shù)的互動。
4供電企業(yè)信息安全大數(shù)據(jù)安全分析結(jié)構(gòu)的數(shù)據(jù)處理
供電企業(yè)的信息安全大數(shù)據(jù)的結(jié)構(gòu)具體根據(jù)業(yè)務(wù)的不同分為不同的數(shù)據(jù)庫進行處理。關(guān)系數(shù)據(jù)庫是當前最豐富的數(shù)據(jù)庫,是進行供電企業(yè)信息安全處理的主要形式。而數(shù)據(jù)倉庫屬于一種多維的數(shù)據(jù)結(jié)構(gòu),可以允許用戶進行匯總級別的計算,并對數(shù)據(jù)進行觀察。事務(wù)數(shù)據(jù)庫中記錄了每一個事務(wù),并同時附帶了一些相互關(guān)聯(lián)的附加表。文本數(shù)據(jù)庫是對圖象進行描述的數(shù)據(jù)庫,文本數(shù)據(jù)庫與圖書館數(shù)據(jù)庫類似。而多媒體數(shù)據(jù)庫則是對圖像以及音頻和視頻的存儲,并用于存放內(nèi)容的檢索。供電企業(yè)的信息安全大數(shù)據(jù)的存儲往往需要先確定好處理的目標,并對數(shù)據(jù)進行量化的處理,對數(shù)據(jù)進行一定的評估,進行結(jié)果的展示。將大量的數(shù)據(jù)進行集中化的處理可以切實地反映出安全數(shù)據(jù)的指標,并根據(jù)指標對安全數(shù)據(jù)進行相應(yīng)的評估。
5供電企業(yè)信息安全大數(shù)據(jù)安全分析方法
當前,進行供電企業(yè)信息安全大數(shù)據(jù)安全分析的方法有很多,隨著大數(shù)據(jù)的技術(shù)體系逐漸成熟,目前對安全數(shù)據(jù)的分析算法也變得多樣化,很多分析方法比如分類技術(shù)方法、序列分析方法等等對大量的數(shù)據(jù)的分析具有很好的效果。而對于不同的數(shù)據(jù)庫可以采用不同的分析算法進行分析。比如,當利用關(guān)系數(shù)據(jù)庫和事務(wù)數(shù)據(jù)庫時,就可以利用序列分析的辦法進行數(shù)據(jù)的挖掘和統(tǒng)計;而數(shù)據(jù)倉庫除了需要進行聯(lián)機處理以外,還需要進行數(shù)據(jù)的挖掘;文本數(shù)據(jù)庫則是利用模式匹配以及關(guān)聯(lián)分析等方法相互結(jié)合來進行數(shù)據(jù)的挖掘分析。
6結(jié)論
針對供電企業(yè)的信息安全的大數(shù)據(jù)分析有很多的途徑,在進行供電企業(yè)信息安全的大數(shù)據(jù)分析時,需要對供電企業(yè)的安全數(shù)據(jù)信息進行預(yù)測,并利用多種分析辦法綜合處理。隨著當前大數(shù)據(jù)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,根據(jù)大數(shù)據(jù)的分析特點進行安全分析的辦法也在不斷地完善?;谛畔踩拇髷?shù)據(jù)分析方法和思路具有很大的發(fā)展前景,安全大數(shù)據(jù)技術(shù)的不斷革新,使得供電企業(yè)的防護網(wǎng)絡(luò)更加地發(fā)達,并逐漸實現(xiàn)了供電企業(yè)的大數(shù)據(jù)信息安全的評估系統(tǒng)的完善,使得供電企業(yè)的信息安全大數(shù)據(jù)發(fā)展更為迅速。
作者:李迪 冷金敏 馮濤 單位:國網(wǎng)山東省電力公司聊城供電公司
數(shù)據(jù)分析方法論文:提高環(huán)境監(jiān)測數(shù)據(jù)分析質(zhì)量的方法
一、環(huán)境監(jiān)測數(shù)據(jù)分析的方法
環(huán)境監(jiān)測數(shù)據(jù)可以反映出某一區(qū)域內(nèi)的環(huán)境質(zhì)量狀況、污染物的排放情況以及環(huán)境受污染的程度。各項數(shù)據(jù)的不斷匯總并分析為各級環(huán)保主管部門以及相關(guān)機構(gòu)做決策提供了技術(shù)依據(jù)。因此,采用健全的質(zhì)量保障體系以及方法來保障數(shù)據(jù)的分析質(zhì)量很有必要。首先,我們先來了解監(jiān)測數(shù)據(jù)分析的方法。
(一)統(tǒng)計規(guī)律分析
就是采用數(shù)理統(tǒng)計方法、模糊數(shù)學(xué)方法以及適用于小同環(huán)境要素的數(shù)學(xué)和物理方程等方法,對所得的監(jiān)測數(shù)據(jù)進行深度剖析,做出詳細的分析評價。這種數(shù)據(jù)分析方法主要適用于環(huán)境調(diào)查、環(huán)境規(guī)劃和環(huán)評等工作。
(二)合理性分析
實際的環(huán)境監(jiān)測中,影響環(huán)境要素變化的因素錯綜復(fù)雜,而有效的能用于綜合分析的監(jiān)測數(shù)據(jù)十分有限,所以我們需要考慮到各種環(huán)境要素之間的相互影響,以及監(jiān)測項目之間的關(guān)系,理論結(jié)合實際分析數(shù)據(jù)的合理性,這樣才可能得到的、合理的監(jiān)測數(shù)據(jù)分析結(jié)果。
二、提高環(huán)境監(jiān)測數(shù)據(jù)分析質(zhì)量的方法
為了促進環(huán)境執(zhí)法工作的嚴肅和公正,在科學(xué)化環(huán)境管理政策中,提高環(huán)境數(shù)據(jù)分析質(zhì)量很有必要。在前人的研究工作基礎(chǔ)之上,我們提出了以下幾種方法來提高數(shù)據(jù)分析質(zhì)量。
(一)加強審核
加強各項審核是提高環(huán)境監(jiān)測數(shù)據(jù)分析質(zhì)量的重要方法,它主要是指加強對現(xiàn)有數(shù)據(jù)的綜合審核。在進行例行監(jiān)測或是年度監(jiān)測計劃時,我們的工作一般都是連續(xù)性的展開的,一年或是好幾年,因此,我們可以建立一個動態(tài)的分析數(shù)據(jù)庫,錄入每次的監(jiān)測數(shù)據(jù),包括每個污染源的詳細信息(污染點的地理位置和排放口的排污狀況等),在以后的審核中,我們可以迅速地在數(shù)據(jù)審核中對于同一采樣點、同一分析項目進行新舊數(shù)據(jù)的分析對比。當數(shù)據(jù)分析結(jié)果出現(xiàn)異常時,可以及時的發(fā)現(xiàn)并找到原因,這可以對污染應(yīng)急事故的發(fā)生起到提前警示的作用。另外,在數(shù)據(jù)審核中,也要密切注意到同一水樣、不同的分析項目之間的相關(guān)性,比如:同一水體中氟化物和總硬度、色度和pH的關(guān)系、氨氮和總氮之間的相關(guān)性等,這樣也能及時發(fā)現(xiàn)數(shù)據(jù)分析中出現(xiàn)的誤差。
(二)加強監(jiān)督機制
通過調(diào)研我們發(fā)現(xiàn),目前在傳統(tǒng)的監(jiān)測數(shù)據(jù)質(zhì)量控制系統(tǒng)中依舊存在許多不足,我們可以通過引入反饋和交流機制,加強監(jiān)督機制來有效提高數(shù)據(jù)分析的質(zhì)量。首先,通過強化平面控制,在系統(tǒng)內(nèi)部優(yōu)化管理的模式,提高工作人員的分析技術(shù)水平,盡可能的減少或消除數(shù)據(jù)誤差,以此來提高監(jiān)測分析的性;其次,我們應(yīng)該主動接受來自外界的監(jiān)督,對于外界有異議的監(jiān)測數(shù)據(jù)要進行反復(fù)的檢測;再次,我們也應(yīng)該多舉辦技術(shù)交流會,讓技術(shù)人員可以與各級環(huán)境監(jiān)測部門的人員溝通,學(xué)習(xí)他們的先進技術(shù)和方法,同時進行數(shù)據(jù)分析結(jié)果對比,找到自身的不足,發(fā)現(xiàn)問題并能及時更正。
(三)加強采樣及實驗室測量質(zhì)量的控制
1.采樣控制
工作人員在每次采樣前,都應(yīng)該根據(jù)實際環(huán)境情況來制定采樣技術(shù)細則,做好采樣控制,比如:需要校準儀器并確保儀器可以正常運轉(zhuǎn);使用的采樣管和濾膜要正確安裝,采樣器干凈整潔沒有受到污染源的污染,其放置的位置也能滿足采樣要求等。采集好的樣品,要妥善存放避免污染。如果樣品不能及時進行檢測,考慮到樣品的穩(wěn)定性,好將樣品密封并存放在于冰箱中。
2.實驗室測量控制
在實驗室進行樣品測試之前,首先應(yīng)該對所要用到的玻璃量器及分析測試儀器進行校驗。日常工作中,也應(yīng)該根據(jù)各種儀器保養(yǎng)規(guī)定,對儀器定期進行維護和校驗,確保儀器可以正常運轉(zhuǎn)工作。其次,需要調(diào)配各種溶液,特別是標準溶液,配置時要使用合格的實驗用蒸餾水。測試數(shù)據(jù)時,先要測定標準樣品并繪制標準曲線。測定樣品時要檢查相關(guān)系數(shù)和計算回歸方程,并對實驗系統(tǒng)誤差進行測驗,每一步都不能少。
三、結(jié)束語
總得來說,提高環(huán)境監(jiān)測數(shù)據(jù)分析質(zhì)量是環(huán)境問題防治的基礎(chǔ)和前提,為了保障環(huán)境工作質(zhì)量和監(jiān)測數(shù)據(jù)分析結(jié)果的,我們首先要注意審核及采樣質(zhì)量的控制,同時將各種數(shù)據(jù)分析方法結(jié)合起來,綜合使用,以此來有效提高環(huán)境監(jiān)測數(shù)據(jù)分析的質(zhì)量,為環(huán)境保護提供科學(xué)的決策性依據(jù)。
作者:黃瓊 單位:黔東南苗族侗族自治州環(huán)境監(jiān)測中心站
數(shù)據(jù)分析方法論文:基于數(shù)據(jù)分析方法的屬性簡約算法的實現(xiàn)
摘要:屬性約簡是粗集理論中的研究熱點之一。 文章通過數(shù)據(jù)分析方法討論了屬性約簡問題,該算法直觀,易于理解,能計算出所有的約簡,克服了啟發(fā)式算法的不完備性,以及基于區(qū)分矩陣的屬性約簡算法中出現(xiàn)時間和空間浪費的問題。實例表明,該法是行之有效的。
關(guān)鍵詞:粗糙集理論;數(shù)據(jù)分析方法;信息系統(tǒng);決策表;屬性約簡
1 引言
粗糙集(Rough Set)理論[1]是波蘭數(shù)學(xué)家Z.Pawlak于1982年提出的,它建立在完善的數(shù)學(xué)基礎(chǔ)之上,是一種新的處理含糊性和不確定性問題的數(shù)學(xué)工具。其主要思想是在保持分類能力不變的前提下,通過知識約簡,導(dǎo)出問題的決策或分類規(guī)則[2]。由于粗糙集理論不需要任何預(yù)備或額外的有關(guān)數(shù)據(jù)信息,使得粗糙集理論成為研究熱點之一,被廣泛應(yīng)用與知識發(fā)現(xiàn)、機器學(xué)習(xí)、決策分析、模式識別、專家系統(tǒng)和數(shù)據(jù)挖掘等領(lǐng)域。
屬性約簡是粗糙集理論中核心研究內(nèi)容之一[3]。在眾多的屬性約簡算法中,大致可以分為兩類:一類是基于信息熵的啟發(fā)式算法[4],這類算法往往不能得到系統(tǒng)的所有約簡.另一類是基于區(qū)分矩陣和區(qū)分函數(shù)構(gòu)造的算法[5],這種算法直觀,易于理解,能夠計算出所有約簡。但在區(qū)分矩陣中會出現(xiàn)大量的重復(fù)元素,造成時間和空間的浪費,從而降低了屬性約簡算法的效率。
本文基于數(shù)據(jù)分析方法[6]的屬性簡約算法是在保持分類能力不變的前提下,逐個約去冗余的屬性,直到不再有冗余的屬性,此時得到的屬性集是最小屬性集,即為約簡。該算法簡單,能夠求出所有約簡,不會出現(xiàn)區(qū)分矩陣中大
量的重復(fù)元素,從而提高了屬性約簡的效率。
2 粗糙集概念
定義2.1設(shè)U為所討論對象的非空有限集合,稱為論域;R為建立在U上的一個等價關(guān)系族,稱二元有序組S=(U,R)為近似空間。
定義2.2令R為等價關(guān)系族,設(shè)P?哿R,且P≠?I,則P中所有等價關(guān)系的交集稱為P上的不可分辨關(guān)系,記作IND(P),即有:[x] IND(P)= ∩ [x]R,顯然IND(P)也是等價關(guān)系。
定義2.3稱4元有序組K=(U,A,V,f)為信息系統(tǒng),其中U為所考慮對象的非空有限集合,稱為論域;A為屬性的非空有限集合;V=∪Va,Va為屬性a的值域;f:U×AV是一個信息函數(shù),?坌x∈U,a∈A,f(x,a)∈Va。對于給定對象x,f(x,a)賦予對象x在屬性a下的屬性值。信息系統(tǒng)也可簡記為K=(U,A)。若A=C∪D且C∩D=?I,則S稱,為決策表,其中C為條件屬性集,D為決策屬性集。
顯然,信息系統(tǒng)中的屬性與近似空間中的等價關(guān)系相對應(yīng)。
定義2.4設(shè)K=(U,A,V,f)為信息系統(tǒng),P?哿A且P≠?I,定義由屬性子集P導(dǎo)出的二元關(guān)系如下:
IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}
則IND(P)也是等價關(guān)系,稱其為由屬性集P導(dǎo)出的不可分辨關(guān)系。
定義2.5稱決策表是一致的當且僅當D依賴于C,即IND(C)?哿IND(D),否則決策表是不一致的。一致決策表說明:在不同個體的條件屬性值相同時,他們的決策屬性值也相同。
定義2.6設(shè)K=(U,A)為一個信息系統(tǒng)。若P?哿A是滿足IND(P)=IND(A)的極小屬性子集,則稱P為A的一個約簡,或稱為信息系統(tǒng)的一個約簡。
定義2.7設(shè)K=(U,CUD)為一個決策表,其中C為條件屬性集,D為決策屬性,若P?哿C為滿足POSC(D)=POSP(D)的極小屬性子集,則稱P為決策表K的一個約簡。其中POSC(D)表示決策D關(guān)于屬性集C的正域。
定義2.8數(shù)據(jù)分析方法對于信息系統(tǒng)K=(U,A),逐個移去A中的屬性,每移去一個屬性即刻檢查新得到的屬性子集的不可分辨關(guān)系,如果等于IND(A),則該屬性可被約去,否則該屬性不可被約去;對于決策表K=(U,CUD),逐個移去C中的屬性,每移去一個屬性即刻檢其決策表,如果不出現(xiàn)新的不一致,則該屬性可被約去,否則該屬性不可被約去。
3 基于數(shù)據(jù)分析方法的屬性簡約算法
3.1 算法思路
利用函數(shù)的遞歸調(diào)用,逐個判定信息系K=(U,A)中屬性a(a∈A),若IND(A)=ND(A-{a}),則a可以約去,A‘=A-{a},否則a不可以約去,繼續(xù)檢查A‘中的每個屬性是否能被約去,此過程一直進行下去,直到出現(xiàn)某一屬性子集中的每個屬性都不可約去為止,此時該屬性子集即為所求的屬性簡約。對于決策表,每次檢查是否增加了不一致的決策規(guī)則,作為是否約去屬性的依據(jù)。
以上給出的函數(shù)是求解信息系統(tǒng)的屬性約簡算法;對于決策表,只要將Match(A’)函數(shù)中的if語句的條件換成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是條件屬性個數(shù),ag是決策屬性。Reduce (A)函數(shù)中|R|換成|C|即可。該算法適用于一致決策表,對非一致決策表,算法類似,也就是逐個移去屬性并檢查決策表是否出現(xiàn)新的不一致,作為約去此屬性的依據(jù)。
數(shù)據(jù)分析方法論文:基因調(diào)控網(wǎng)絡(luò)的研究內(nèi)容及其數(shù)據(jù)分析方法
摘要:基因調(diào)控網(wǎng)絡(luò)以系統(tǒng)的觀點從基因之間相互作用的角度揭示復(fù)雜的生命現(xiàn)象,是功能基因組學(xué)研究的重要內(nèi)容,本文著重研究基因調(diào)控網(wǎng)絡(luò)的研究內(nèi)容、數(shù)據(jù)分析研究方法。
關(guān)鍵詞:基因調(diào)控網(wǎng)絡(luò);自組織圖聚類;機器學(xué)習(xí)
基因調(diào)控網(wǎng)絡(luò)是計算機科學(xué)、數(shù)學(xué)、信息學(xué)向分子生物學(xué)滲透形成的交叉點,是運用生物信息學(xué)的方法和技術(shù)通過數(shù)據(jù)采集、分析、建模、模擬和推斷等手段研究復(fù)雜的基因網(wǎng)絡(luò)關(guān)系。作為一種系統(tǒng)的、定量的研究方法建立在包括分子生物學(xué),非線性數(shù)學(xué)和程序算法設(shè)計等知識等基礎(chǔ)上,運用生物信息學(xué)的方法和技術(shù)通過數(shù)據(jù)采集、分析、建模、模擬和推斷等手段,整合已有的實驗數(shù)據(jù)和知識,構(gòu)建生物基因調(diào)控網(wǎng)絡(luò),從整體的層次,了解細胞的功能;從整體的角度,闡述基因參與的生物調(diào)控過程,在全基因組水平上以系統(tǒng)的、全局的觀點研究生命現(xiàn)象及其本質(zhì),是后基因組時代研究的重要內(nèi)容。
1 基因調(diào)控網(wǎng)絡(luò)概念
基因調(diào)控網(wǎng)絡(luò)本質(zhì)上是一個連續(xù)而復(fù)雜的動態(tài)系統(tǒng),即復(fù)雜的動力系統(tǒng)網(wǎng)絡(luò)。
1.1 基因調(diào)控網(wǎng)絡(luò)的定義
生物體任何細胞的遺傳信息、基因都是同樣的,但同一個基因在不同組織、不同細胞中的表現(xiàn)并不一樣。一個基因的表達既影響其它的基因,又受其它基因的影響,基因之間相互促進、相互抑制,在特定的細胞內(nèi)和時間下綜合環(huán)境等因素這樣的大環(huán)境中呈現(xiàn)活化狀態(tài),構(gòu)成一個復(fù)雜的基因調(diào)控網(wǎng)絡(luò)。
1.2 基因調(diào)控網(wǎng)絡(luò)的特性:
基因調(diào)控網(wǎng)絡(luò)是連續(xù)的多層次動力系統(tǒng)模型,具有穩(wěn)定姓、層次性、復(fù)雜性、動態(tài)性等。
1.2.1 復(fù)雜性
生物具有大量的基因,諸多基因組成各個模塊,不同的基因網(wǎng)絡(luò)模塊可以在不同層次上發(fā)生相互作用,同一個基因可能參與各種不同的分子機理,使得基因網(wǎng)絡(luò)有著高度的復(fù)雜性。
1.2.2 層次性
基因調(diào)控網(wǎng)絡(luò)具有一定層次結(jié)構(gòu),按照調(diào)控元件、motif、模塊和整個網(wǎng)絡(luò)的四層結(jié)構(gòu),將各個節(jié)點有規(guī)律的來接在一起。調(diào)控元件分為順式(cis-)和反式(trans-)兩種類型, 分別表示受調(diào)控基因的結(jié)合位點DNA 序列和結(jié)合在該序列上對基因起激活或者抑制作用的轉(zhuǎn)錄因子。Motif 和模塊都是由基因集合構(gòu)成的調(diào)控模式, 是分析網(wǎng)絡(luò)局部特征和網(wǎng)絡(luò)構(gòu)成以及研究調(diào)控機理的重要結(jié)構(gòu)。
1.2.3 動態(tài)性
生物過程是動態(tài)的,用來理解生物過程意義的基因調(diào)控網(wǎng)絡(luò)自然就動態(tài)存在?;蛘{(diào)控網(wǎng)絡(luò)是隨著生物過程的動態(tài)發(fā)生而具有動態(tài)的特性,不同條件、不同時間的基因調(diào)控網(wǎng)絡(luò)是不同的。
1.2.4 穩(wěn)定性
基因調(diào)控網(wǎng)絡(luò)的穩(wěn)定性體現(xiàn)在生物體緩解突變的影響方面,功能上無關(guān)基因之間的相互作用可以抵抗系統(tǒng)突變;一個基因在突變中喪失的功能,有另外一個或更多具有相似功能的基因所補償,以減弱該突變對表型造成的影響,保持生物進化中的穩(wěn)定性。
1.2.5 功能模塊性
基因調(diào)控相關(guān)的生物功能主要是通過網(wǎng)絡(luò)模塊來實現(xiàn)的,有適當尺度下的動力學(xué)特征和生物學(xué)功能解釋的模塊是由多個motif 構(gòu)成的,實現(xiàn)相同功能的基因或蛋白質(zhì)存在拓撲結(jié)構(gòu)上是相關(guān)的。
1.3 基因調(diào)控網(wǎng)絡(luò)研究的目的
通過對基因調(diào)控網(wǎng)絡(luò)的研究,識別和推斷基因網(wǎng)絡(luò)的結(jié)構(gòu)、特性和調(diào)控關(guān)系,認識復(fù)雜的分子調(diào)控過程,理解支配基因表達和功能的基本規(guī)則,揭示基因表達過程中的信息傳輸規(guī)律,清楚整體的框架下研究基因的功能。
2 基因調(diào)控網(wǎng)絡(luò)研究內(nèi)容
基因調(diào)控網(wǎng)絡(luò)的研究是假設(shè)兩個基因列譜相似,則這兩個基因協(xié)作調(diào)控,并可能功能相近,有同樣表達模式的基因可能有同樣的表達過程。基因調(diào)控網(wǎng)絡(luò)主要在三個水平上進行:DNA水平、轉(zhuǎn)錄水平、翻譯水平。DNA水平主要是研究基因在空間上的關(guān)系影響基因的表達;轉(zhuǎn)錄水平主要研究代謝或者是信號轉(zhuǎn)導(dǎo)過程決定轉(zhuǎn)錄因子濃度的調(diào)控過程;翻譯水平主要研究蛋白質(zhì)翻譯后修飾,從而影響基因產(chǎn)物的活性和種類的過程?;蜣D(zhuǎn)錄調(diào)控信息隱藏在基因組序列中,基因表達數(shù)據(jù)代表基因轉(zhuǎn)錄調(diào)控的結(jié)果,是轉(zhuǎn)錄調(diào)控信息的實際體現(xiàn)。
基因調(diào)控網(wǎng)絡(luò)試圖從DNA微陣列等海量數(shù)據(jù)中推斷基因之間的調(diào)控關(guān)系,對某一物種或組織中全部基因的表達關(guān)系進行整體性研究。采用帶有反饋回路的基因網(wǎng)絡(luò),首先是按照同步或反同步表達,以及表達強度的變化,系統(tǒng)地識別各基因的特點,再用聚類的方法將各基因歸類,在此基礎(chǔ)上構(gòu)建基因調(diào)控網(wǎng)絡(luò),分析相關(guān)控制參數(shù).利用其本身或調(diào)節(jié)位點或拓撲結(jié)構(gòu)進行不同的研究。
3 基因調(diào)控網(wǎng)絡(luò)研究數(shù)據(jù)分析方法
基因相互作用形成的網(wǎng)絡(luò)可以利用計算機語言來描述,并進行計算機模擬,計算機仿真語言以及一些數(shù)學(xué)處理工具如Matlab等對基因網(wǎng)絡(luò)進行分析;利用拓撲學(xué)方法、模糊數(shù)學(xué)方法、圖論和各種可視化技術(shù)等數(shù)學(xué)技術(shù)輔助建模、設(shè)計并改進算法;利用統(tǒng)計語言學(xué)方法,建立DNA序列的多層次信息結(jié)構(gòu)模型,發(fā)展真核基因預(yù)測的新算法;利用語言學(xué)的方法進行調(diào)控序列分析,尋找轉(zhuǎn)錄因子結(jié)合位點的新算法;利用基因表達譜數(shù)據(jù),結(jié)合啟動子及其結(jié)合位點,利用Bayes網(wǎng)絡(luò)及因果分析等統(tǒng)計方法,重構(gòu)基因轉(zhuǎn)錄網(wǎng)絡(luò),認識基因的調(diào)控規(guī)律并進行基因協(xié)作功能的分析。
研究基因調(diào)控網(wǎng)絡(luò)的方法目前主要有(1)聚類分析建立模型;(2)微擾分析重構(gòu)模型口 ;(3)逆向工程推斷網(wǎng)絡(luò);(4)基于表達譜和ChIP―chip的分析方法,(5)基于表達譜和啟動子序列的分析方法,(6)機器學(xué)習(xí)(machine learning)的方法等幾大類。
數(shù)據(jù)分析方法論文:大數(shù)據(jù)分析方法及應(yīng)用初探①
摘 要:大數(shù)據(jù)在很多的行業(yè)和企業(yè)得到了應(yīng)用,對大數(shù)據(jù)的研究和分析也受到了很多的學(xué)者的青睞。大量非結(jié)構(gòu)化流式數(shù)據(jù)已成為大數(shù)據(jù)時代的主要數(shù)據(jù)形態(tài),這給傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)架構(gòu)帶來非常大的挑戰(zhàn),必將使大數(shù)據(jù)處理系統(tǒng)漸漸由流程設(shè)計轉(zhuǎn)變?yōu)閿?shù)據(jù)設(shè)計。為此,該文主要從大數(shù)據(jù)分析的方法理論入手,對現(xiàn)今各行各業(yè)即將運用的大數(shù)據(jù)處理方法進行研究,總結(jié)出一種較適用的大數(shù)據(jù)分析方法及其應(yīng)用,以供行業(yè)和企業(yè)在未來的業(yè)務(wù)活動中作參考。
關(guān)鍵詞:預(yù)測分析 大數(shù)據(jù)處理 大數(shù)據(jù)應(yīng)用 數(shù)據(jù)挖掘
隨著云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)等新一代信息技術(shù)的發(fā)展,傳統(tǒng)企業(yè)級IT架構(gòu)正在朝基于互聯(lián)網(wǎng)的分布式新架構(gòu)轉(zhuǎn)型。大數(shù)據(jù)作為新一代信息技術(shù)的核心,正在使各個領(lǐng)域變得越來越可感知,并走向智能化。大數(shù)據(jù)將會發(fā)揮自身獨特的優(yōu)勢,帶給我們更多的方便和便捷。大數(shù)據(jù)分析的方法理論有哪些、在行業(yè)、企業(yè)的活動中有哪些應(yīng)用。
1 大數(shù)據(jù)分析的五個基本要素
1.1 大數(shù)據(jù)預(yù)測性分析
大數(shù)據(jù)技術(shù)的主要應(yīng)用是預(yù)測性分析,如在線教學(xué)資源網(wǎng)站通過數(shù)據(jù)分析用戶會對推薦的教學(xué)模是否感興趣,保險公司通過數(shù)據(jù)預(yù)測被保險人是否會違規(guī),地震監(jiān)測部門通過對大數(shù)據(jù)的分析,預(yù)測某地點發(fā)生地震的大致時間,氣象部門利用數(shù)據(jù)預(yù)測天氣變化等。預(yù)測是人類本能的一部分,通過大數(shù)據(jù)預(yù)測人類才可以獲得有意義的、智能的信息。許許多多的行業(yè)應(yīng)用都會涉及到大數(shù)據(jù),大數(shù)據(jù)的豐富特征表述了快速增長的存儲數(shù)據(jù)的復(fù)雜性。大數(shù)據(jù)預(yù)測分析打破了數(shù)據(jù)預(yù)測一直是象牙塔里數(shù)據(jù)科學(xué)家和統(tǒng)計學(xué)家的工作,伴隨著大數(shù)據(jù)的出現(xiàn),并融合到現(xiàn)有的MIS、MRPII、DSS 、CIMS和其他核心業(yè)務(wù)系統(tǒng),大數(shù)據(jù)預(yù)測分析將起到越來越重要的作用。
1.2 數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量
大數(shù)據(jù)分析跟數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理緊密相關(guān),而質(zhì)量高的數(shù)據(jù)和有效的數(shù)據(jù)管理可以使分析結(jié)果有價值、真實并得到有力的保障。
1.3 可視化分析
普通用戶和大數(shù)據(jù)分析專家是大數(shù)據(jù)分析的直接使用者,因此他們對大數(shù)據(jù)分析的基本要求就是要可視化,因為他們想通過可視化分析獲得可觀的大數(shù)據(jù)特征,讓用戶直觀看到結(jié)果。
提高解釋信息的能力可以通過數(shù)據(jù)的可視化展示來實現(xiàn),而可視化展示主要由圖形和圖表來呈現(xiàn)。要從大量的數(shù)據(jù)和信息中找尋相關(guān)性非常的不容易,而圖形或圖表能夠在短時間內(nèi)展示數(shù)據(jù)之間的相關(guān)信息,并為用戶提供所需的信息。
1.4 語義引擎
語義引擎是把現(xiàn)有的數(shù)據(jù)標注語義,其實可以把它理解為結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)集上的一個語義疊迭層。它是數(shù)據(jù)分析及語義技術(shù)最直接的應(yīng)用,好的語義引擎能夠使大數(shù)據(jù)分析用戶快而準地獲得比較的數(shù)據(jù)。
數(shù)據(jù)分析的新挑戰(zhàn)及困難主要表現(xiàn)在非結(jié)構(gòu)化數(shù)據(jù)與異構(gòu)數(shù)據(jù)等的多樣性,必須配合大量的工具去分析、解析、提取數(shù)據(jù)。語義引擎的設(shè)計可以達到能夠從文檔中自動提取有用信息,使語義引擎能挖掘出大數(shù)據(jù)的特征,在此基礎(chǔ)上科學(xué)建模和輸入新的數(shù)據(jù),來預(yù)測未來的可用數(shù)據(jù)。
1.5 數(shù)據(jù)挖掘算法
大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘。各種數(shù)據(jù)的算法基于不同的數(shù)據(jù)類型和格式,能更加科學(xué)地呈現(xiàn)出數(shù)據(jù)本身的特點,能更快速地處理大數(shù)據(jù)。如果采用一個算法需要花好幾年才能得出結(jié)論,那大數(shù)據(jù)價值也就無從f起了??梢暬墙o人看的,數(shù)據(jù)挖掘是給機器看的。集群、分割、孤立點分析還有其他的算法可以使我們深入挖掘數(shù)據(jù)內(nèi)部的價值,并且這些算法能夠處理大數(shù)據(jù)的數(shù)據(jù)量,也可以滿足處理大數(shù)據(jù)的效率要求。
2 大數(shù)據(jù)處理方法
大數(shù)據(jù)處理技術(shù)在社會的發(fā)展中占有重要的地位,現(xiàn)在有很多的研究者對大數(shù)據(jù)處理技術(shù)進行研究,將大數(shù)據(jù)處理技術(shù)與交互設(shè)計結(jié)合,讓交叉科學(xué)得到發(fā)展,計算機技術(shù)的進步,讓交叉技術(shù)被廣泛應(yīng)用,并引起了很多人的重視,例如:計算機技術(shù)可以在藝術(shù)中被應(yīng)用,進行色彩搭配,還可以將計算機技術(shù)應(yīng)用到垃圾分類里,這些都是研究人員對計算機和交叉設(shè)計的結(jié)合。這種結(jié)合讓設(shè)計學(xué)與計算機技術(shù)緊急的結(jié)合在一起,將傳統(tǒng)的調(diào)研方式和測試方式應(yīng)用到交叉科學(xué)領(lǐng)域,這種方法的研究可以為用戶調(diào)研和測試方法提供依據(jù),能夠減少人工的成本。大數(shù)據(jù)處理方法其實有很多,筆者根據(jù)長時間的實踐,總結(jié)了幾種基本的大數(shù)據(jù)處理方法,如非結(jié)構(gòu)數(shù)據(jù)處理法、自然語言處理法等,該文主要介紹非結(jié)構(gòu)數(shù)據(jù)處理流程涉及到的主要方法和技術(shù)。非結(jié)構(gòu)化數(shù)據(jù)處理流程主要以網(wǎng)頁處理為例來闡述,包括3個階段,分別是信息采集、網(wǎng)頁預(yù)處理和網(wǎng)頁分類。
2.1 信息采集
信息采集主要是根據(jù)相關(guān)主題由固定的專業(yè)人士來完成,其采集的數(shù)據(jù)只能用于所針對的主題和相關(guān)的模塊,出于對效率和成本的考慮不必對整個互聯(lián)網(wǎng)進行遍歷,因此,模塊信息采集時往往需要研究以哪種方式預(yù)測鏈接指向的頁面與主題的關(guān)聯(lián)性,并測算其是否值得訪問;然后研究以哪種相關(guān)策略訪問Web,以在采集到主題相關(guān)頁面的同時,盡可能地減少采集到主題無關(guān)的頁面。
預(yù)先設(shè)定好種子鏈接是信息采集的基本方法,充分使用HTTP協(xié)議下載被訪問的頁面,運用分析算法對頁面與主題的相關(guān)性進行分析,然后確定待訪問的相關(guān)鏈接,預(yù)測可能指向主題相關(guān)頁面的鏈接,循環(huán)迭代地運用不同的相關(guān)策略訪問網(wǎng)頁。
2.2 網(wǎng)頁預(yù)處理
網(wǎng)頁預(yù)處理最主要涉及到網(wǎng)頁去重處理,網(wǎng)頁去重可以歸為兩類:一類是基于URL的對比去重,它適用哈希算法;另一類是基于內(nèi)容的對比去重,它適用基于信息指紋的文本相似度算法。
網(wǎng)頁去重是先抽取文檔對象的特征,再對文檔內(nèi)容進行分解,將文檔的特征集合表示出來,然后有目的針對特征集合的壓縮編碼,通過將哈希編碼等文本轉(zhuǎn)為數(shù)字串映射方式,為后續(xù)的特征存儲以及特征比較提供方便,這樣可以起到減少存儲空間,提高比較速度的作用,就是計算文檔的相似度,此步需要根據(jù)文檔特征重復(fù)比例來確定文檔內(nèi)容是否重復(fù)。一般是提取網(wǎng)頁的某一個信息特征,通常是一組關(guān)鍵詞,或者是關(guān)鍵詞加權(quán)重的組合,調(diào)用相應(yīng)的算法,轉(zhuǎn)換為一組關(guān)鍵代碼,也被稱為指紋,若兩個頁面有大數(shù)量的相似指紋,那么可以預(yù)測這兩個頁面內(nèi)容具有很高的重復(fù)性。
2.3 網(wǎng)頁分類
網(wǎng)絡(luò)時代,人類所面臨的一個非常重要且具有普遍意義的問題就是網(wǎng)頁分類。將網(wǎng)絡(luò)信息正確分類,方便人們更好地使用網(wǎng)絡(luò)資源,使雜亂無章的網(wǎng)絡(luò)環(huán)境變得有條理。而網(wǎng)頁分類一般是先對網(wǎng)頁中的文本素材進行分類,通常采用文本分類來完成。文本分類主要應(yīng)用于電子郵件分類、信息過濾、文獻翻譯、數(shù)據(jù)檢索等任務(wù),文本分類的一個關(guān)鍵問題是特征詞的選擇問題及其權(quán)重分配。
在搜索引擎中,文本分類主要有以下用途:相關(guān)性排序會根據(jù)不同的網(wǎng)頁類型做相應(yīng)的排序規(guī)則;根據(jù)網(wǎng)頁是索引頁面還是信息頁面,下載調(diào)度時會做不同的調(diào)度策略;在做頁面信息抽取的時候,會根據(jù)頁面分類的結(jié)果做不同的抽取策略;在做檢索意圖識別的時候,會根據(jù)用戶所點擊的URL所屬的類別來推斷檢索串的類別等。
網(wǎng)頁分類方法有SVM分方法和樸素貝葉斯方法,其中比較推薦的是支持向量機分類方法(SVM),該算法主要基于統(tǒng)計學(xué)理論及線性分類器準則之上,從線性可分入手,再擴展到線性不可分的情況。甚至有時會擴展到使用非線性函數(shù)中去,這種分類器統(tǒng)稱為支持向量機。近年來,支持向量機分類方法越來越多的受到網(wǎng)頁分類技術(shù)人員的青睞。
3 大數(shù)據(jù)分析在行業(yè)活動中的應(yīng)用
非結(jié)構(gòu)數(shù)據(jù)處理和數(shù)據(jù)挖掘的應(yīng)用范圍較廣,它可能應(yīng)用于運營商、銀行、傳統(tǒng)企業(yè)和電商,挑選幾個具有代表性的案例與大家分享。
3.1 電信行業(yè)
某城市電信運營商的上網(wǎng)日志分析系統(tǒng),該系統(tǒng)通過收集用戶上網(wǎng)日志歷史記錄數(shù)據(jù),分析出每個用戶的偏好。首先該系統(tǒng)通過并行統(tǒng)計出每個人有效歷史上網(wǎng)日志URL;然后從日志URL中抓取網(wǎng)頁內(nèi)容,提取正文,并通過文本分類算法計算分類;通過統(tǒng)計出每個用戶上網(wǎng)關(guān)注類別總數(shù),分析出每個用戶的偏好。
3.2 地產(chǎn)行業(yè)
某房地產(chǎn)企業(yè)的社會化品牌實時營銷系統(tǒng),該系統(tǒng)通過社交媒體數(shù)據(jù),進行網(wǎng)絡(luò)口碑監(jiān)測,負面情緒被及時地發(fā)現(xiàn)并制止;通過與客戶進行互動,爭取客戶忠誠度;通過監(jiān)控同行及競爭對手的各方面資訊,量化評估競爭態(tài)勢;快速提升品牌知曉度和美譽度,將媒體影響力轉(zhuǎn)換為客戶量,縮短人氣聚集周期。
3.3 證券行業(yè)
某證券商戰(zhàn)略信息監(jiān)測通過歷史回顧與信息摘要,提供題目、摘要、原文URL,今日輿情焦點,今日輿論,展示抓取的所有期貨產(chǎn)品相關(guān)信息的縮略,并提供全文鏈接。通過熱點事件列表可以看到歷史相似事件對趨勢的影響,通過天氣指數(shù)與趨勢對應(yīng)曲線可以看到歷史相似天氣與歷史趨勢的對照。
3.4 金融行業(yè)
某大型股份制商業(yè)銀行供應(yīng)商風(fēng)險評估系統(tǒng),該系統(tǒng)通過抓取供應(yīng)商內(nèi)部數(shù)據(jù),如企業(yè)年報、公司變動、領(lǐng)導(dǎo)情況、財務(wù)狀況等數(shù)據(jù),分析公司運營指數(shù);通過計算各供應(yīng)商社交數(shù)據(jù),對其社會影響力做評估;通過同行之間的數(shù)據(jù)分析對比,對供應(yīng)商進行實力評估,這些數(shù)據(jù)指數(shù)可以有效協(xié)助商業(yè)銀行進行供應(yīng)商風(fēng)險評估。
4 結(jié)語
大數(shù)據(jù)處理數(shù)據(jù)的基本理念是用全體代替抽樣,用效率代替,用相關(guān)代替因果。證券、微商、地產(chǎn)等行業(yè)每天都會產(chǎn)生巨大的數(shù)據(jù)量,大數(shù)據(jù)分析與處理已成為大數(shù)據(jù)技術(shù)的最重要的應(yīng)用,通過大數(shù)據(jù)技術(shù)從海量數(shù)據(jù)中提取、挖掘?qū)I(yè)務(wù)發(fā)展有價值的、潛在的信息,找出產(chǎn)品或服務(wù)未來發(fā)展趨勢,為決策者提供有力依據(jù),有益于推動企業(yè)內(nèi)部的科學(xué)化、信息化管理。
數(shù)據(jù)分析方法論文:淺談小學(xué)科學(xué)實驗數(shù)據(jù)分析方法
在小學(xué)科學(xué)探究活動中,經(jīng)常要涉及實驗數(shù)據(jù)。實驗數(shù)據(jù)是客觀事實的反映,但實驗數(shù)據(jù)并不等于實驗結(jié)論,只有在實驗的基礎(chǔ)上進行科學(xué)分析處理,才能得出正確的結(jié)論。探究活動中學(xué)生經(jīng)歷提出問題、猜想假設(shè)、設(shè)計方案、進行實驗、收集數(shù)據(jù)等環(huán)節(jié)后, 就要引導(dǎo)學(xué)生分析實驗數(shù)據(jù),找出規(guī)律。分析數(shù)據(jù)有時要花很長時間,有的需要一定的方法,但有的老師為了完成教學(xué)任務(wù),將數(shù)據(jù)分析過程草率處理,或者直接給出結(jié)論。這種對實驗數(shù)據(jù)的態(tài)度,嚴重違背了課程標準對情感、態(tài)度、價值觀的要求, 更不用說像科學(xué)家一樣來探究問題。本文結(jié)合筆者的教學(xué)實際,談?wù)効茖W(xué)探究活動中處理實驗數(shù)據(jù)的幾種方法。
一、定量計算法
在探究中我們會收集到很多數(shù)據(jù),我們可以把收集到的數(shù)據(jù)運用數(shù)學(xué)運算方法,得出各數(shù)量之間的關(guān)系。例如六上《杠桿的科學(xué)》一課中,學(xué)生通過實驗得到了以下數(shù)據(jù):
杠桿的科學(xué)
阻力點情況 用力點情況
教師引導(dǎo)學(xué)生分別比較阻力點與用力點的鉤碼數(shù)和格子數(shù),發(fā)現(xiàn)杠桿平衡時每組數(shù)據(jù)都是用力點的鉤碼數(shù)與格子數(shù)的積等于阻力點的鉤碼數(shù)與距離的積,教師利用數(shù)據(jù)之間的等量關(guān)系,幫助學(xué)生很好掌握了杠桿平衡的規(guī)律。
二、對比分析法
對比是常用的思維方法。在探究活動中,教師可以通過有意識控制一定的條件,讓學(xué)生觀察數(shù)據(jù)在不同情況的表現(xiàn),找到它們之間的不同點和共同點,從而揭示事物的本質(zhì)和現(xiàn)象。如在五下《擺的研究》一課中,針對擺的快慢與哪些因素有關(guān)這一問題,讓學(xué)生利用三個鉤碼和三根長度不同的擺繩進行實驗并采集了以下數(shù)據(jù):
15秒擺動次數(shù)記錄表
引導(dǎo)學(xué)生比較數(shù)據(jù),可以得出這樣的結(jié)論:在擺繩長度相同時,擺的快慢與擺重?zé)o關(guān);在擺的重量相同時,擺線越長,擺的速度越慢。學(xué)生在數(shù)據(jù)的比較中,發(fā)現(xiàn)了擺的特點。
三、示意圖分析法
示意圖分析法是指利用簡單的圖和形,把實驗采集的數(shù)據(jù),繪制成簡明的圖形,用來說明所研究對象量與量之間關(guān)系的一種方法。如六上《下沉的物體會受到水的浮力嗎》一課,學(xué)生采集了以下數(shù)據(jù)(見下表):
下教師讓學(xué)生用示意圖,將重力和浮力之間的關(guān)系,用圖示方法(見上圖)畫出,并附上簡單的文字說明,然后利用示意圖解釋石塊在水下沉的原因。在這里,教師用示意圖搭建數(shù)據(jù)與概念之間的橋梁,把抽象的力之間的關(guān)系用直觀的手段表現(xiàn)出來,幫助學(xué)生理解石塊下沉的原因,突破了學(xué)生學(xué)習(xí)上的難點。
示意圖直觀,形象和簡捷,通過示意圖來分析數(shù)據(jù),既有利于學(xué)生對知識的理解和記憶,又可以提高學(xué)生的學(xué)習(xí)興趣,提升學(xué)生的學(xué)習(xí)能力及情感、態(tài)度和價值觀等方面的素養(yǎng)。
四、圖表圖像法
圖表圖像法是結(jié)合數(shù)據(jù)與圖形之間的密切關(guān)系,形象地表達數(shù)據(jù)趨勢和規(guī)律的一種方法。在六上《抵抗彎曲》一課中,探究 “紙的抗彎曲能力和什么有關(guān)” 這個問題時,學(xué)生通過實驗來獲得紙在不同寬度和不同厚度時承受壓力(墊圈個數(shù))的數(shù)據(jù)。(見下表)
教師利用“折線統(tǒng)計圖” 將上面的數(shù)據(jù)用統(tǒng)計圖表示如下:
在完成圖表和圖像后,讓學(xué)生結(jié)合表格中的數(shù)據(jù)觀察折線圖,在圖上清晰看到了紙的寬度和厚度的抗彎曲能力,同時對紙的厚度更能影響紙的抗彎曲能力有了更直觀的認識。在這里,教師利用統(tǒng)計圖,引導(dǎo)學(xué)生比較紙的寬度和厚度的抗彎曲能力,方法巧妙,目標清晰,學(xué)生對概念的印象也深刻。
五、推理分析法
數(shù)據(jù)推理方法是運用數(shù)學(xué)思想,通過推導(dǎo)、分析一組已知數(shù)據(jù),來判斷、推測與它對應(yīng)數(shù)值的一種分析方法。如五上《我們的小纜車》中,一小組在2、4、6個墊圈拉力時,測得小車運行時間分別為2.5秒、1.8秒和1.2秒,教師引導(dǎo)提問:“推測一下,你們的小纜車在8個墊圈的時候,速度大概是多少?并說說理由?!睂W(xué)生:“我們認為8個墊圈應(yīng)該在0.6秒左右?!苯處煟骸罢f說理由?!睂W(xué)生:“因為我們組2個墊圈是2.5秒,4個墊圈是1.8秒,6個墊圈是1.2秒,增加2個墊圈,時間減少0.6秒左右,所以我們估計8個墊圈在0.6秒左右?!苯處煟骸澳悄銈兡懿荒芾脛偛诺膶嶒炑b置來驗證一下你們的猜測?”學(xué)生:“可以?!?
……
在上述案例中,學(xué)生根據(jù)自己的實驗數(shù)據(jù),通過對相鄰數(shù)據(jù)的連續(xù)觀察,發(fā)現(xiàn)其中的一些科學(xué)規(guī)律,經(jīng)過分析、推敲,得出一個可能的稻蕁T謖飧齬程中,教師引導(dǎo)學(xué)生運用推理方法分析數(shù)據(jù),不僅加深了學(xué)生對力與運動的進一步認識,而且提高了兒童的思維能力和探究能力。
上面所說的是一些科學(xué)探究活動中常用的數(shù)據(jù)分析方法。事實上,對科學(xué)探究中的實驗數(shù)據(jù)進行分析、處理的方法很多。只有根據(jù)具體的實際情況,引導(dǎo)學(xué)生選擇恰當?shù)姆椒▽嶒灁?shù)據(jù)進行合理處理,才能快速發(fā)現(xiàn)規(guī)律,得出科學(xué)的結(jié)論,形成科學(xué)概念??茖W(xué)探究的過程是曲折的,在科學(xué)探究的路上,從一堆數(shù)據(jù)中找出規(guī)律來,有的要花費科學(xué)家畢生的精力,甚至需要一代又一代的不懈努力。我們在引導(dǎo)學(xué)生進行探究活動時, 不能只為完成教學(xué)任務(wù),急功近利,應(yīng)多在引導(dǎo)學(xué)生分析數(shù)據(jù)上下功夫,真正讓學(xué)生體會到科學(xué)探究的艱辛和樂趣。
數(shù)據(jù)分析方法論文:幾種功率譜估計方法在飛行試驗數(shù)據(jù)分析中的研究
摘 要:在飛行試驗數(shù)據(jù)處理中為了頻域分析的需要,針對輸入數(shù)據(jù)進行功率譜估計,文章使用經(jīng)典功率譜估計中的周期圖法、Welch法以及現(xiàn)代功率譜估計中的Burg法、MTM法對飛機輸入激勵信號進行譜估計,從而得到各種方法對該信號的功率譜圖并分析其頻域特性,然后比較得出Welch法的結(jié)果更適用于該類信號的頻域分析,得到的結(jié)果能夠較好地應(yīng)用于飛行品質(zhì)頻域準則的評估。
關(guān)鍵詞:經(jīng)典功率譜估計;現(xiàn)代功率譜估計;飛行試驗
1 概述
當飛機在閉環(huán)補償跟蹤任務(wù)中飛行時,飛機飛行品質(zhì)的一種量度是它的穩(wěn)定裕度,因而將在不危及穩(wěn)定性的情況下可以進行閉環(huán)跟蹤的較大頻率定義為頻寬。頻寬是衡量較大頻率的一個指標,它對高增益飛機特別有用,不論是對駕駛員操縱力和操縱位移的俯仰姿態(tài)響應(yīng)還是根據(jù)航向角或者橫向航跡角對座艙直接力空中輸入的開環(huán)頻率響應(yīng),它都可以在這個頻率條件下實現(xiàn)閉環(huán)跟蹤而不需要駕駛員提供有利的動態(tài)補償且不對穩(wěn)定性構(gòu)成惡化[5]。因此,在飛行試驗的數(shù)據(jù)分析中,獲取精準的飛機響應(yīng)的頻域特性尤為重要,這就需要首先對操縱輸入信號進行功率譜估計,本文列出4種功率譜估計方法,并用這些方法對飛機的輸入激勵信號進行譜估計,以便得到適用于飛行品質(zhì)頻域準則評估的頻域特性。功率譜估計可分為經(jīng)典譜估計和現(xiàn)代譜估計。
2 經(jīng)典譜估計
功率譜密度是一種概論統(tǒng)計方法,是對隨機變量均方值的量度。平穩(wěn)信號的自相關(guān)函數(shù)的傅立葉變換稱為功率譜密度。實際中采用有限長的數(shù)據(jù)來估計隨機過程的功率譜密度[2、3]。
2.1 周期圖法
周期圖法是信號功率譜的一個有偏估計,它對觀測到的有限長序列x(n)求其N點離散傅立葉變換XN(ej?棕),再取其模值的平方除以N,得到計算公式:
周期圖法是基本的功率譜估計方法,計算簡便,計算效率高,但是當數(shù)據(jù)長度N過大時,功率譜曲線起伏加劇,當N過小,譜分辨率較差。
2.2 加權(quán)交疊平均法(Welch法)
Welch法是對隨機序列分段處理,使每一段部分重疊,然后對每一段數(shù)據(jù)用一個合適的窗函數(shù)進行平滑處理,對各段譜求平均。這樣可以得到序列x(n)的功率譜估計:
(n)是窗函數(shù)[1],由于各段數(shù)據(jù)的交疊,數(shù)據(jù)段數(shù)L增大,從而減小了方差,另外,通過選擇合適的窗函數(shù),也可使遺漏的頻譜減少,改進了分辨率。因此這是一種把加窗處理和平均處理結(jié)合起來的方法,它能夠滿足譜估計對分辨率和方差的要求,但是如果信號數(shù)據(jù)過短,也會無法進行觀測。
3 現(xiàn)代功率譜估計
現(xiàn)代功率譜估計分為參數(shù)模型法和非參數(shù)模型法。
3.1 參數(shù)模型法(AR模型的Burg法)
參數(shù)模型法是將數(shù)據(jù)建模成一個由白噪聲驅(qū)動的線性系統(tǒng)輸出,并估計該系統(tǒng)的參數(shù)。最常用的線性系統(tǒng)模型是全極點模型,也就是一個濾波器,這樣的濾波器輸入白噪聲后的輸出是一個自回歸(設(shè)AR模型的沖擊響應(yīng)在方差?滓2的白噪聲序列作用下產(chǎn)生輸出,再由初值定理得到:
這就是AR模型的Yule-Walker方程。本文采用的是該方程的Burg法,即先估計反射系數(shù),然后利用Levinson遞推算法,用反射系數(shù)求AR參數(shù)。Burg法在信號長度較短時能夠獲得較高的分辨率,并且計算高效。
3.2 非參數(shù)模型法(多窗口法)
多窗口法也叫做Thompson Multitaper Method,MTM法,它使用一組濾波器計算估計值,這些FIR濾波器是由一組離散扁平類球體序列(DPSS)得到的,除此之外,MTM法提供了一個時間-帶寬參數(shù),它能在估計方差和分辨率之間進行平衡。因此,MTM法具有更大的自由度,在估計精度和估計波動方面均有較好的效果,其增加的窗口也會使序列兩端丟失的信息大幅減少[7]。
4 實例分析
本文采用Matlab計算,輸入信號使用飛行試驗中常用的掃頻和倍脈沖信號。通過Matlab中的譜估計函數(shù)方法[4、6],編寫程序?qū)o定的輸入信號分別進行周期圖法、Welch法、Burg法和MTM法的譜估計并分析。估計結(jié)果如圖1、圖2所示:
從圖1、圖2可以看出:
(1)周期圖法得到的掃頻功率譜曲線起伏大,倍脈沖信號的頻譜分辨率低;(2)Welch法明顯改善了周期圖法的不足,方差性能得到很大的改善,只要窗函數(shù)選取適當,可減少頻譜泄露。圖中可見Welch法的譜估計曲線比較光滑,在飛行品質(zhì)關(guān)注的頻段頻譜分辨率高;(3)Burg法的曲線平滑性好,頻譜分辨率高,但是其譜峰窄而尖,在飛行品質(zhì)關(guān)注的低頻段頻譜并不理想,也就是不能在所需的頻段內(nèi)產(chǎn)生足夠的能量;(4)MTM法得到的結(jié)果介于周期圖法和Welch法之間,但是對于時間序列較長的信號,MTM法的功率譜曲線起伏較大,分辨率變低。
5 結(jié)束語
通過4種功率譜估計方法對飛機輸入激勵信號的譜估計分析,采用Welch法得到了更有效的輸入信號的譜估計,得到的頻域特性能夠更好地進行飛行品質(zhì)頻域準則的評估,這對飛行品質(zhì)的等級界定提供了有效的依據(jù)。
數(shù)據(jù)分析方法論文:運用數(shù)據(jù)分析方法 把握概念的內(nèi)涵與外延
摘 要:文章以弱酸的電離平衡常數(shù)Ka為例,簡述如何運用數(shù)據(jù)分析方法,把握化學(xué)概念的內(nèi)涵與外延,幫助學(xué)生理解概念本質(zhì),提升學(xué)生的科學(xué)素養(yǎng),提高學(xué)生綜合應(yīng)用概念的水平,提高學(xué)生計算能力,體現(xiàn)化學(xué)基本概念對元素化合物性質(zhì)學(xué)習(xí)的指導(dǎo)作用。
關(guān)鍵詞:數(shù)據(jù)分析方法; 概念的內(nèi)涵與外延 ;弱酸電離平衡常數(shù)Ka
概念的內(nèi)涵就是反映在概念中的事物的本質(zhì)屬性,這是概念的內(nèi)容。概念的外延就是具有概念所反映的本質(zhì)屬性的對象,這是概念的適用范圍。學(xué)生對于概念的掌握程度可以通過各種判斷題、選擇題的綜合檢測得到體現(xiàn),概念的正確掌握能從根本上解決計算題、實驗題及綜合題等。只有學(xué)好的基本概念,深刻理解概念的內(nèi)涵和外延,把握概念的本質(zhì)屬性,才能扎實地掌握相關(guān)的知識內(nèi)容,正確而有效地學(xué)好化學(xué)知識。
一、運用數(shù)據(jù)分析,把握化學(xué)概念的內(nèi)涵
高中化學(xué)選修四《化學(xué)反應(yīng)原理》一書中的一些化學(xué)基本概念比較抽象,教師應(yīng)在教學(xué)中依據(jù)教材提供的數(shù)據(jù)材料或通過實驗所得數(shù)據(jù)及推理演算,引導(dǎo)學(xué)生在探索中得出相關(guān)概念,并進一步理解概念的本質(zhì)。通過數(shù)據(jù)分析的教學(xué),讓學(xué)生自己收集數(shù)據(jù),應(yīng)用數(shù)據(jù)分析,從而感受數(shù)據(jù)分析的實際價值,深刻理解概念的內(nèi)涵。
例如,弱電解質(zhì)電離平衡常數(shù)用Ki表示。弱電解質(zhì)通常為弱酸或弱堿,所以在化學(xué)上,可以用Ka、Kb分別表示弱酸和弱堿的電離平衡常數(shù)。用HA表示弱酸,則其電離方程式為HA H++A-,則電離常數(shù)Ka=[H]*[A]/[HA],電離平衡常數(shù)描述了一定溫度下弱電解質(zhì)的電離能力。在相同溫度和濃度時,電離度的大小也可以表示弱電解質(zhì)的相對強弱。用電離度比較幾種電解質(zhì)的相對強弱時,應(yīng)當注意所給條件,即濃度和溫度,如不注明溫度通常指25℃。
在教學(xué)過程中,我們發(fā)現(xiàn)這些概念抽象難以用啟發(fā)式教學(xué)法讓學(xué)生去學(xué)習(xí),因為學(xué)生對于課本上弱酸的電離平衡常數(shù)的理解總是基于表面,沒能真正理解化學(xué)概念的內(nèi)涵。
教師在教學(xué)中應(yīng)充分利用課本中的數(shù)據(jù),分析Ka與電離度α的關(guān)系,比較Ka與電離度α的相同點與不同點。電離常數(shù)K與電離度α的關(guān)系可近似地表示為K=cα2,其中c為弱電解質(zhì)溶液的濃度。教師通過設(shè)計一組具體數(shù)據(jù),讓學(xué)生從電離常數(shù)可以算出不同濃度、不同溫度時弱電解質(zhì)的電離度,比較電離常數(shù)與電離度的區(qū)別,可看出Ka是常數(shù)而α不是常數(shù)。Ka隨溫度而變化,α隨Ka而變化,因此α也隨溫度而變化,Ka不因濃度改變而變化,但α卻隨濃度而變化,Ka不因溶液中其他電解質(zhì)的存在而變化,但α卻因溶液中其他電解質(zhì)離子的存在而變化。
例如,在醋酸溶液中加入醋酸鈉(CH3COONa),則因同離子效應(yīng)而使平衡向左移動,α將減小。在室內(nèi)溫度下,醋酸的電離常數(shù)是1.8×10-5,學(xué)生對這一數(shù)據(jù)并沒有什么印象,但通過計算可以得出它的電離度α=1.3%,學(xué)生得出每1000個醋酸分子室溫條件下只有13個醋酸分子發(fā)生電離,987個醋酸分子的形式存在溶液中。通過數(shù)據(jù)的分析轉(zhuǎn)換,學(xué)生容易理解弱電解質(zhì)的電離程度的大小,有利于把握化學(xué)概念的內(nèi)涵。
二、運用數(shù)據(jù)分析,化學(xué)概念的外延
化學(xué)課本中有許多數(shù)據(jù),教學(xué)中并不要求具體記憶這些數(shù)值,但對這些數(shù)據(jù)的統(tǒng)計分析,既能幫助學(xué)生理解概念本質(zhì),形成學(xué)科觀念,又有利于培養(yǎng)學(xué)生嚴謹?shù)目茖W(xué)態(tài)度,提升科學(xué)素養(yǎng)。對這些數(shù)據(jù)的統(tǒng)計分析,有利于學(xué)生建立的數(shù)據(jù)觀念,可以發(fā)展學(xué)生的數(shù)據(jù)意識,學(xué)生從中提取相關(guān)信息,從而充分體現(xiàn)化學(xué)基本概念對元素化合物性質(zhì)學(xué)習(xí)的指導(dǎo)作用。例如,關(guān)于Ka概念外延的教學(xué),我們應(yīng)該清楚該概念的適用范圍。
(1)根據(jù)Ka判斷弱酸的酸性強弱。通過Ka的學(xué)習(xí)達到指導(dǎo)元素化合物性質(zhì)的學(xué)習(xí)。相同條件下,Ka越大,酸性越強。通過比較Ka,我們可以得出常見弱酸的酸性:CH3COOH>H2CO3>
H2SiO3;H2CO3>HClO;H2CO3>Al(OH)3。這樣,學(xué)生就很容易理解醋酸溶液與碳酸鈣的反應(yīng),還有漂白粉放置在空氣中失效、水玻璃溶液中通入二氧化碳氣體、偏鋁酸鈉溶液中通入二氧化碳氣體等一系列反應(yīng),這些反應(yīng)都是高一化學(xué)課本中的重要反應(yīng),都符合“酸性強的制取酸性弱”的基本原理。
(2)以Ka來判斷鹽類物質(zhì)的水解相對大小。根據(jù)鹽類水解規(guī)律“越弱越水解”,我們可以判斷出相同條件下醋酸銨溶液、氯化銨溶液、次氯酸銨溶液水解的相對大小,從而判斷出溶液的酸堿性。分析利用醋酸Ka和氨水Kb數(shù)據(jù)的特殊性可知:醋酸銨溶液接近中性,進而可以探究Mg(OH)2沉淀溶于濃銨鹽的反應(yīng)原理。
(3)根據(jù)Ka1、Ka2判斷酸式鹽溶液的酸堿性。在25℃時,碳酸的電離平衡常數(shù)分別為:碳酸Ka1=4.30×10-7,Ka2=5.61×10-11;亞硫酸的電離平衡常數(shù)Ka1=1.54×10-2 ,Ka2=1.02×10-7。對于酸式鹽NaHA的水溶液, NaHA 中 HA-既可電離:HA- H++A2-,也可水解:HA-+ H2O H2A + OH-。酸式鹽溶液由于NaHCO3溶液的Ka1Kh1而顯酸性。
(4)根據(jù)Ka1、Ka2的相對大小判斷物|的性質(zhì)、理解離子反應(yīng)的實質(zhì)。碳酸Ka1=4.30×10-7 ,Ka2=5.61×10-11 ;苯酚C6H5OH ,Ka=1.0×10-10; 氫氧化鋁的酸式電離Ka= 6.3×10-13 。通過對這些數(shù)據(jù)的分析,我們?nèi)菀椎贸鏊嵝裕篐2CO3>HCO3->Al(OH)3-;H2CO3>
C6H5OH>HCO3-。這樣就容易理解以下四個反應(yīng):
A.往苯酚鈉水溶液中通入少量或足量CO2 : C6H5O-+H2O+CO2 C6H5OH+
HCO3-
B.往偏鋁酸鈉水溶液中通入少量CO2 :AlO2-+H2O+CO2Al(OH)3+CO32-
C.往偏鋁酸鈉水溶液中通入足量CO2:AlO2-+H2O+CO2Al(OH)3+
HCO3-
D. 偏鋁酸鈉水溶液與碳酸氫鈉水溶液混合: AlO2-+HCO3-+H2O
Al(OH)3+CO32-
三、運用數(shù)據(jù)分析,拓展提高學(xué)生綜合應(yīng)用概念的水平
化學(xué)計算是中學(xué)化學(xué)教學(xué)的重要內(nèi)容,也是中學(xué)生必須掌握的一個基本技能,學(xué)會數(shù)據(jù)分析是提高計算能力的關(guān)鍵?;瘜W(xué)計算題中,往往題目數(shù)據(jù)多、綜合性強,但學(xué)生們因綜合分析能力差,不善于對知識遷移,因而覺得十分棘手。分析化學(xué)過程、融會貫通理解化學(xué)概念的內(nèi)涵是正確解決化學(xué)計算題的基礎(chǔ)。
在學(xué)習(xí)《溶液中的離子反應(yīng)》專題后,許多教師會引導(dǎo)學(xué)生對化學(xué)平衡常數(shù)K、酸堿電離平衡常數(shù)Ka、Kb、水的離子積Kw、難溶電解質(zhì)的溶度積Ksp等一些概念進行比較歸納,分析他們的異同,但是若能進一步拓展到酸電離平衡常數(shù)Ka與鹽的水解常數(shù)Kh、與難溶電解質(zhì)的溶度積Ksp、配合物的穩(wěn)定系數(shù)Kw之間的聯(lián)系,就能進一步提高學(xué)生的綜合能力。
例如,在25℃下,于0.010mol?L-1
FeSO4溶液中通入H2S(g), 使其成為飽和溶液 (C(H2S)= 0.10mol?L-1) 。
用HCl調(diào)節(jié)pH值,使C(HCl)= 0.30mol?L-1 ,試判斷能否有FeS生成。這樣一道計算題融合了Ksp與Ka的計算,體現(xiàn)了概念的外延,拓展了學(xué)生綜合應(yīng)用概念的水平,既能幫助學(xué)生理解概念本質(zhì),形成學(xué)科觀念,又有利于培養(yǎng)學(xué)生的計算能力、解題能力,提升學(xué)生的科學(xué)素養(yǎng)。
總之,運用數(shù)據(jù)分析方法,把握化學(xué)概念的內(nèi)涵與外延,有利于促進學(xué)生化學(xué)綜合素養(yǎng)的提升。本文僅從以上三個方面予以論述,以供參考。
(作者單位:福建省永春及時中學(xué))
數(shù)據(jù)分析方法論文:一種大數(shù)據(jù)智能分析平臺的數(shù)據(jù)分析方法及實現(xiàn)技術(shù)
摘要:文章介紹了一種用于大數(shù)據(jù)智能分析平臺的數(shù)據(jù)分析方法及實現(xiàn)技術(shù),介紹了這種方法的需求和意義;和該方法的總體架構(gòu),以及在數(shù)據(jù)傳輸、數(shù)據(jù)清洗和數(shù)據(jù)分析的實現(xiàn);概述了這種技術(shù)高并發(fā)、大數(shù)據(jù)量的優(yōu)化措施和跨平臺的實現(xiàn)。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)挖掘
1 綜述
1.1 簡介
在數(shù)字化時代,需要新一代系統(tǒng)架構(gòu)提升業(yè)務(wù)創(chuàng)新能力。在新一代系統(tǒng)架構(gòu)中,大數(shù)據(jù)是核心要素。業(yè)務(wù)應(yīng)用能否自主發(fā)現(xiàn)與自助獲得高質(zhì)量的大數(shù)據(jù),就成為業(yè)務(wù)創(chuàng)新成敗的關(guān)鍵。這就要在搭建大數(shù)據(jù)平臺時,就著手大數(shù)據(jù)治理相關(guān)建設(shè)。
1.2 需求和意義
從某種意義上說大數(shù)據(jù)治理架構(gòu)需要以元數(shù)據(jù)為核心、提高大數(shù)據(jù)質(zhì)量、透明化大數(shù)據(jù)資產(chǎn)、自助化數(shù)據(jù)開發(fā)、自動化數(shù)據(jù)、智能化數(shù)據(jù)安全,提升大數(shù)據(jù)平臺服務(wù)能力,讓大數(shù)據(jù)平臺變得易使用、易獲得、高質(zhì)量。
但是,目前很多技術(shù)解決方案存在諸多安全和效率隱患:業(yè)務(wù)系統(tǒng)多,監(jiān)管力度大;數(shù)據(jù)量龐大且呈碎片化分布,急需提升大數(shù)據(jù)質(zhì)量;數(shù)據(jù)格式不規(guī)范、難以在短時間內(nèi)找到所需數(shù)據(jù);數(shù)據(jù)在各階段的應(yīng)用角度不同,需要降低系統(tǒng)間的集成復(fù)雜度。
2 功能設(shè)計
2.1 總體架構(gòu)
本文講述的數(shù)據(jù)分析方法及實現(xiàn)技術(shù)是建立在Hadoop/Spark技術(shù)生態(tài)圈的基礎(chǔ)之上,以實現(xiàn)用戶集成處理、、清理、分析的一個統(tǒng)一的數(shù)據(jù)處理平臺;按數(shù)據(jù)類別分為線數(shù)據(jù)、歸檔數(shù)據(jù);按數(shù)據(jù)格式分為非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù);按數(shù)據(jù)模型分類為范式化模型數(shù)據(jù)、維度模型數(shù)據(jù);按數(shù)據(jù)采集頻度分為非實時數(shù)據(jù)、準實時數(shù)據(jù)處理架構(gòu);并提供數(shù)據(jù)中心平臺與安全管理方案,為企業(yè)級用戶建立一個通用數(shù)據(jù)處理和分析中心。如圖1所示。
2.2 在線數(shù)據(jù)
在線數(shù)據(jù)在線通過接口去獲得的數(shù)據(jù),一般要求為秒級或速度更快。首先應(yīng)當將數(shù)據(jù)進行區(qū)分:在線數(shù)據(jù)、或歸檔數(shù)據(jù)。本平臺中采用:Storm或Spark Streaming框架進行實現(xiàn)。Spark Streaming將數(shù)據(jù)切分成片段,變成小批量時間間隔處理,Spark抽象一個持續(xù)的數(shù)據(jù)流稱為DStream(離散流),一個DStream是RDD彈性分布式數(shù)據(jù)集的micro-batch微批次,RDD是分布式集合能夠并行地被任何函數(shù)操作,也可以通過一個滑動窗口的數(shù)據(jù)進行變換。
2.3 歸檔數(shù)據(jù)
歸檔數(shù)據(jù)是在線存儲周期超過數(shù)據(jù)生命周期規(guī)劃的數(shù)據(jù),處理的要求一般在分鐘級或速度更慢。通常歸檔數(shù)據(jù)的計算量、數(shù)據(jù)量、數(shù)據(jù)復(fù)雜度均超過試試數(shù)據(jù)處理。本平臺中采用:Hadoop、Spark技術(shù)生態(tài)體系內(nèi)的框架進行計算,這里不詳細闡述。
2.4 非結(jié)構(gòu)化數(shù)據(jù)
通常非結(jié)構(gòu)化的數(shù)據(jù)不一定具備字段,即使具備字段其長度也不固定,并且字段的又可是由可不可重復(fù)和重復(fù)的子字段組成,不僅可以包含結(jié)構(gòu)化數(shù)據(jù),更適合處理非結(jié)構(gòu)化數(shù)據(jù)。常見的非結(jié)構(gòu)化數(shù)據(jù)包括XML、文本、圖象、聲音、影音、各類應(yīng)用軟件產(chǎn)生的文件。
針對包含文字、數(shù)據(jù)的為結(jié)構(gòu)化數(shù)據(jù)應(yīng)當先利用數(shù)據(jù)清洗、數(shù)據(jù)治理工具進行提取,這項工作目前仍依賴技術(shù)員進行操作,由于格式的復(fù)雜性所以難以使用自動化方式進行較為高效的批處理。在治理數(shù)據(jù)的過程中,需要根據(jù)情況對數(shù)據(jù)本身額外建立描述數(shù)據(jù)結(jié)構(gòu)的元數(shù)據(jù)、以及檢索數(shù)據(jù)的索引服務(wù),以便后續(xù)更佳深度利用數(shù)據(jù)。
2.5 結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù)具備特定的數(shù)據(jù)結(jié)構(gòu),通??梢赞D(zhuǎn)換后最終用二維的結(jié)構(gòu)的數(shù)據(jù),并且其字段的含義明確,是挖掘數(shù)據(jù)價值的主要對象。
本平臺中主要使用Hadoop Impala和Spark SQL來進行結(jié)構(gòu)化數(shù)據(jù)的處理。Impale底層采用C++實現(xiàn),而非Hadoop的基于Java的Map-Reduce機制,將性能提高了1-2個數(shù)量級。而Spark SQL提供很好的性能并且與Shark、Hive兼容。提供了對結(jié)構(gòu)化數(shù)據(jù)的簡便的narrow-waist操作,為高級的數(shù)據(jù)分析統(tǒng)一了SQL結(jié)構(gòu)化查詢語言與命令式語言的混合使用。
結(jié)構(gòu)化數(shù)據(jù)根據(jù)采集頻度可以繼續(xù)分類為:非實時數(shù)據(jù)、準實時數(shù)據(jù)。
2.6 準實時數(shù)據(jù)
通常準實時數(shù)據(jù)是指數(shù)據(jù)存儲在平臺本身,但更新頻率接近于接口調(diào)用數(shù)據(jù)源的數(shù)據(jù)。適合用于支持數(shù)據(jù)和信息的查詢,但數(shù)據(jù)的再處理度不高,具有計算并發(fā)度高、數(shù)據(jù)規(guī)模大、結(jié)果性較高的特點。通常使用分布式數(shù)據(jù)處理提高數(shù)據(jù)規(guī)模、使用內(nèi)存數(shù)據(jù)進行計算過程緩沖和優(yōu)化。本平臺主要采用Spark SQL結(jié)合高速緩存Redis的技術(shù)來實現(xiàn)。Spark SQL作為大數(shù)據(jù)的基本查詢框架,Redis作為高速緩存去緩存數(shù)據(jù)熱區(qū),減小高并發(fā)下的系統(tǒng)負載。
2.7 非實時數(shù)據(jù)
非實時數(shù)據(jù)主要應(yīng)用于支持分析型應(yīng)用,時效性較低。通常用于數(shù)據(jù)的深度利用和挖掘,例如:因素分析、信息分類、語義網(wǎng)絡(luò)、圖計算、數(shù)值擬合等。
非實時數(shù)據(jù)根據(jù)數(shù)據(jù)模型可繼續(xù)分類為:范式化模型數(shù)據(jù)、維度模型數(shù)據(jù)。
2.8 范式化模型
范式化模型主要是針對關(guān)系型數(shù)據(jù)庫設(shè)計范式,通常稻菔遣捎玫諶范式3NF或更高范式。面向近源數(shù)據(jù)查詢、數(shù)據(jù)主題的整合。范式化模型數(shù)據(jù)的數(shù)據(jù)存儲區(qū),建議使用并行MPP數(shù)據(jù)庫集群,既具備關(guān)系型數(shù)據(jù)庫的優(yōu)點,又兼顧了大數(shù)據(jù)下的處理。
2.9 基于維度模型
維度模型數(shù)據(jù)主要應(yīng)用于業(yè)務(wù)系統(tǒng)的數(shù)據(jù)挖掘和分析。過去多維度數(shù)據(jù)處理主要依賴OLAP、BI等中間件技術(shù),而在大數(shù)據(jù)和開源框架的時代下,本技術(shù)平臺采用Hadoop Impala來進行實現(xiàn)。Impala并沒有使用MapReduce這種不太適合做SQL查詢的范式,而是參考了MPP并行數(shù)據(jù)庫的思想另起爐灶,省掉不必要的shuffle、sort等開銷,使運算得到優(yōu)化。
3 應(yīng)用效果
本系統(tǒng)在不同的業(yè)務(wù)領(lǐng)域上都可以應(yīng)用,以2016年在某銀行的應(yīng)用案例為例:該銀行已完成數(shù)據(jù)倉庫建設(shè),但眾多數(shù)據(jù)質(zhì)量問題嚴重影響了數(shù)據(jù)應(yīng)用的效果,以不同的數(shù)據(jù)存儲方式,以更高的要求去進行數(shù)據(jù)的統(tǒng)一管理。通過組織、制度、流程三個方面的實施,以元數(shù)據(jù)、數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量平臺為支撐,實現(xiàn)了數(shù)據(jù)管控在50多個分支,60個局,1000余處的推廣,實現(xiàn)了全行的覆蓋;管理了120個系統(tǒng)和數(shù)據(jù)倉庫,顯著提升了新系統(tǒng)的快速接入能力;通過14個數(shù)據(jù)規(guī)范和流程明確了數(shù)據(jù)管控的分工;數(shù)據(jù)考核機制的實施,使其在數(shù)據(jù)質(zhì)量評比中名列前茅。
4 結(jié)語
本文介紹了大數(shù)據(jù)下數(shù)據(jù)分析方法及實現(xiàn)技術(shù)的大體設(shè)計和思路,從需求分析、總體架構(gòu)和數(shù)據(jù)處理以及數(shù)據(jù)分析這幾個方面來介紹。文章在介紹出了這種平臺的應(yīng)用效果。筆者相信這些思路和技術(shù)能夠在業(yè)務(wù)中能得到很好的應(yīng)用。