《【數(shù)據(jù)庫理論論文】數(shù)據(jù)庫技術(shù)在大數(shù)據(jù)的應用》由會員分享,可在線閱讀,更多相關(guān)《【數(shù)據(jù)庫理論論文】數(shù)據(jù)庫技術(shù)在大數(shù)據(jù)的應用(3頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、【數(shù)據(jù)庫理論論文】數(shù)據(jù)庫技術(shù)在大數(shù)據(jù)的應用
摘要:互聯(lián)網(wǎng)技術(shù)發(fā)展非常驚人,大量的數(shù)據(jù)產(chǎn)生。在云計算高速發(fā)展的今天,大數(shù)據(jù)結(jié)合數(shù)據(jù)庫集群技術(shù),提升了數(shù)據(jù)處理的效率。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)庫集群技術(shù);分布集群
一、分布集群數(shù)據(jù)庫在大數(shù)據(jù)中的應用
目前,許多數(shù)據(jù)增長率很高的大型數(shù)據(jù)庫系統(tǒng)正被用于改善全球人類活動,如通信、社交網(wǎng)絡、交易、銀行等,分布集群數(shù)據(jù)庫已成為提高數(shù)據(jù)訪問速度的解決方案之一。為多種類型的用戶在多個存儲中組織數(shù)據(jù)訪問,分布集群數(shù)據(jù)庫的問題不僅在于如何管理大量的數(shù)據(jù),而且在于如何組織分布式存儲中的數(shù)據(jù)模式。智能數(shù)據(jù)組織是提高檢索
2、速度、減少磁盤I/O數(shù)量、縮短查詢響應時間的最佳方法之一。基于規(guī)則的聚類是提供數(shù)據(jù)庫自動聚類和數(shù)據(jù)存儲模式解釋的解決方案之一,基于規(guī)則的集群通過分析屬性和記錄上的數(shù)據(jù)庫結(jié)構(gòu),將數(shù)據(jù)模式表示為規(guī)則。使用不同規(guī)則池分區(qū)的每個集群,每個規(guī)則與內(nèi)部集群中的規(guī)則相似,與外部集群中的規(guī)則不同。分布集群數(shù)據(jù)庫是一種有向圖結(jié)構(gòu)的進化優(yōu)化技術(shù),用于數(shù)據(jù)分類,在緊湊的程序中具有顯著的表示能力,這源于節(jié)點的可重用性,而節(jié)點本身就是圖形結(jié)構(gòu)的功能。為了實現(xiàn)基于規(guī)則的集群,分布集群數(shù)據(jù)庫可以通過分析記錄來處理數(shù)據(jù)集的規(guī)則提取。分布集群數(shù)據(jù)庫的圖形結(jié)構(gòu)由三種節(jié)點組成:起始節(jié)點、判斷節(jié)點和處理節(jié)點。開始節(jié)點表示節(jié)點轉(zhuǎn)換的開
3、始位置;判斷節(jié)點表示要在數(shù)據(jù)庫中檢查的屬性。分布集群數(shù)據(jù)庫規(guī)則提取的節(jié)點準備包括兩個階段:節(jié)點定義和節(jié)點排列。節(jié)點定義的目的是準備創(chuàng)建規(guī)則,節(jié)點排列是選擇重要的節(jié)點,以便高效地提取大量規(guī)則。節(jié)點排列由以下兩個順序過程執(zhí)行,第一個過程是查找模板規(guī)則,第二個過程是結(jié)合第一個過程中創(chuàng)建的模板生成規(guī)則。提取模板以獲得數(shù)據(jù)集中經(jīng)常發(fā)生的屬性組合。在模板提取過程中,分布集群數(shù)據(jù)庫規(guī)則提取中只使用了少數(shù)幾個屬性,它旨在增加獲得高支持模板的可能性。與沒有模板規(guī)則的方法相比,該節(jié)點排列方法具有更好的聚類結(jié)果,這兩個過程中的規(guī)則生成都是通過圖結(jié)構(gòu)的演化來實現(xiàn)。
二、在線規(guī)則更新系統(tǒng)的應用
4、
在線規(guī)則更新系統(tǒng)用于通過分析所有記錄從數(shù)據(jù)集中提取規(guī)則,在大數(shù)據(jù)應用中,每個節(jié)點都有自己的節(jié)點號,描述每個節(jié)點號的節(jié)點信息。程序大小取決于節(jié)點的數(shù)量,這會影響程序創(chuàng)建的規(guī)則的數(shù)量。起始節(jié)點表示根據(jù)連接順序執(zhí)行的判斷節(jié)點序列的起始點,開始節(jié)點的多個位置將允許一個人提取各種規(guī)則。判斷節(jié)點表示數(shù)據(jù)集的屬性,顯示屬性索引。在大數(shù)據(jù)應用環(huán)節(jié),從每個起始節(jié)點開始的節(jié)點序列用虛線a、b和c表示,節(jié)點序列流動,直到支持判斷節(jié)點的下一個組合不滿足閾值。在節(jié)點序列中,如果具有已出現(xiàn)在上一個節(jié)點序列,將跳過這些節(jié)點。在更新每個集群中的規(guī)則時,重要的是要找到與最新數(shù)據(jù)不匹配的屬性。因此,規(guī)則更新中要考慮的屬性
5、由以下過程確定。當計算集群中每個屬性和數(shù)據(jù)之間的輪廓值時,閾值設置為0.85,只有輪廓值低于0.85的屬性。將為規(guī)則更新過程中的判斷節(jié)點的屬性選擇。一些數(shù)據(jù)的庫存值和權(quán)重值低于0.85,因此這些值不包括在國民生產(chǎn)總值的規(guī)則更新中。在線規(guī)則更新系統(tǒng)中包含用于更新規(guī)則的屬性,每個集群都具有屬性的主要值,這些屬性是集群質(zhì)量的錨定點,進而影響輪廓值。在線規(guī)則更新系統(tǒng)應用中,完成主要的規(guī)則提取過程,這是一個標準的規(guī)則提取,在線規(guī)則更新系統(tǒng)考慮到數(shù)據(jù)集中的所有屬性。執(zhí)行該過程,對初始數(shù)據(jù)集進行初始集群;改善規(guī)則更新過程,僅對輪廓值低于閾值的數(shù)據(jù)執(zhí)行。
三、大規(guī)模并行處理技術(shù)的應用
6、
大規(guī)模并行處理技術(shù)主要用于編寫和調(diào)試現(xiàn)代處理器的程序,而不是本地匯編程序,所有的書面代碼都是從C/C++語言翻譯成一個低級的核心匯編程序。在大數(shù)據(jù)應用中,會產(chǎn)生很多數(shù)據(jù),在數(shù)據(jù)的分析和計算中,應該結(jié)合編程技術(shù),標準語言是面向傳統(tǒng)體系結(jié)構(gòu)的,這就是為什么編譯器不能使用所有可能的DSP體系結(jié)構(gòu)以最佳效率生成代碼的原因。為了獲得一個良好的優(yōu)化代碼,有必要直接在低級匯編語言上編寫代碼。為了簡化編寫程序的任務,可以在某個處理器上使用面向代碼生成器。使用一個專門的匯編代碼生成器,使用并行結(jié)構(gòu)化的編程語言可以獲得比在C/C++中翻譯的應用程序更高效的代碼,生成高效的匯編代碼,該代碼積極利用DSP內(nèi)核
7、的并行性和其他特性。低級匯編代碼是由所有編譯器生成的,但是它們與傳統(tǒng)的基于文本的語言(如C/C++)一起工作。大數(shù)據(jù)應用環(huán)節(jié),在數(shù)據(jù)分類和計算中,當兩個計算操作在不同的操作單元上執(zhí)行時,才能在一個dsp核心的vliw命令中并行執(zhí)行兩個計算操作。根據(jù)運算執(zhí)行單元的不同,計算運算可分為op1和op2兩種類型。屬于不同組使得在一個命令中執(zhí)行兩個操作成為可能。第一種類型包括由算術(shù)和邏輯單元執(zhí)行的操作,第二種類型包括由乘法器、移位器ms執(zhí)行的操作。在模板中,標記“1”表示第一種類型的標識,標記“2”分別表示第二種類型。如果兩個操作具有不同的類型并且沒有數(shù)據(jù)依賴關(guān)系,則可以進行并行化,DSP核心的并行性是
8、通過在一個核心中存在多個操作單元來保證的。在大數(shù)據(jù)計算和分析中,如果有足夠多的通用寄存器來執(zhí)行這兩個操作,并且它們可以并行執(zhí)行,代碼就會并行化,提升數(shù)據(jù)計算的效率。
四、結(jié)語
如今,計算機技術(shù)發(fā)展非常迅速,大數(shù)據(jù)得到廣泛應用。在海量數(shù)據(jù)產(chǎn)生后,應該結(jié)合數(shù)據(jù)庫管理相關(guān)技術(shù),提升數(shù)據(jù)管理的效率。
參考文獻
[1]胡世昆.分布式數(shù)據(jù)庫技術(shù)在大數(shù)據(jù)中的應用[J].電子技術(shù)與軟件工程,2019(01):153.
[2]賈鑫.探析分布式數(shù)據(jù)庫技術(shù)在大數(shù)據(jù)中的應用[J].計算機產(chǎn)品與流通,2017(12):3-4.
[3]陳雪.分布式數(shù)據(jù)庫技術(shù)在大數(shù)據(jù)中的應用[J].科技傳播,2016,8(12):108+120.
作者:袁霞