基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)設(shè)計(jì)
基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)設(shè)計(jì)
簡(jiǎn)要:摘 要: 傳統(tǒng)的圖像聚類(lèi)系統(tǒng)得到的聚類(lèi)結(jié)果往往不是最優(yōu)結(jié)果。為了解決這一問(wèn)題,基于大數(shù)據(jù)分析技術(shù)設(shè)計(jì)了一種新的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)。系統(tǒng)硬件由圖像搜索器、網(wǎng)
摘 要: 傳統(tǒng)的圖像聚類(lèi)系統(tǒng)得到的聚類(lèi)結(jié)果往往不是最優(yōu)結(jié)果。為了解決這一問(wèn)題,基于大數(shù)據(jù)分析技術(shù)設(shè)計(jì)了一種新的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)。系統(tǒng)硬件由圖像搜索器、網(wǎng)絡(luò)端效勞器、特征索引器、查詢(xún)器、預(yù)處理器、圖像數(shù)據(jù)庫(kù)、聚類(lèi)器組成。圖像搜索器利用Spider處理器完成搜索,利用API接口和嵌入式管理系統(tǒng)管理圖像數(shù)據(jù)庫(kù),建立顏色直方圖實(shí)現(xiàn)顏色特征處理。軟件由圖像搜索、圖像特征處理、冗余特征聚類(lèi)三步組成,利用IGroup算法實(shí)現(xiàn)聚類(lèi)。與傳統(tǒng)聚類(lèi)系統(tǒng)進(jìn)行實(shí)驗(yàn)比照,結(jié)果說(shuō)明,新的聚類(lèi)系統(tǒng)能夠在短時(shí)間內(nèi)輸出最優(yōu)的聚類(lèi)結(jié)果,適合圖像處理工作。
關(guān)鍵詞: 系統(tǒng)設(shè)計(jì); 冗余特征聚類(lèi); 混合屬性圖像; 圖像搜索; 大數(shù)據(jù)分析; 圖像處理
本文源自:?現(xiàn)代電子技術(shù)? 2022年13期
0 引 言
隨著Internet的高速開(kāi)展,圖像被越來(lái)越多地使用在內(nèi)容表達(dá)和信息承載上。網(wǎng)絡(luò)具有規(guī)模大、分布范圍廣、資源增長(zhǎng)速度快的特征,互聯(lián)網(wǎng)擁有的圖像數(shù)以?xún)|計(jì),想要通過(guò)人工的手段將混合屬性圖像冗余特征聚類(lèi)到一起十分困難,因此,必須要設(shè)計(jì)有效的圖像冗余特征聚類(lèi)系統(tǒng)[1]。
圖像冗余特征聚類(lèi)問(wèn)題與圖像信息收集和信息檢索問(wèn)題相關(guān),圖像的冗余特征表現(xiàn)形式共有如下幾種:空間冗余、時(shí)間冗余、視覺(jué)冗余、信息熵冗余和知識(shí)冗余[2]。不同類(lèi)型的圖像含有的冗余特征不同[3],由于Internet具有邊緣化的特點(diǎn),所以圖像信息的格式也往往不同[4]。目前研究的圖像冗余特征聚類(lèi)系統(tǒng)主要有兩種:第一種是基于圖像內(nèi)容進(jìn)行聚類(lèi);第二種是基于圖像語(yǔ)義進(jìn)行聚類(lèi)?;趦?nèi)容的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)能夠?qū)D像的內(nèi)容本身進(jìn)行分析和研究,基于語(yǔ)義的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)能夠分析相關(guān)文字信息[5]。在目前研發(fā)的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)中,聚類(lèi)的準(zhǔn)確率和全面率都有所缺乏,系統(tǒng)的可擴(kuò)展性也存在很大的問(wèn)題[6]。
大數(shù)據(jù)分析技術(shù)是一種新的網(wǎng)絡(luò)技術(shù),能夠在短時(shí)間內(nèi)對(duì)海量數(shù)據(jù)進(jìn)行分析,并且篩選出有效數(shù)據(jù),對(duì)于冗余特征聚類(lèi)十分有效[7]。本文基于大數(shù)據(jù)分析技術(shù),設(shè)計(jì)了一種新的混合屬性圖像冗余特征聚類(lèi)系統(tǒng),對(duì)系統(tǒng)的硬件和軟件進(jìn)行了優(yōu)化設(shè)計(jì),分析了系統(tǒng)進(jìn)行聚類(lèi)的工作原理,并給出了相應(yīng)的聚類(lèi)算法,通過(guò)實(shí)驗(yàn)對(duì)聚類(lèi)系統(tǒng)有效性進(jìn)行探討。
1 混合屬性圖像冗余特征聚類(lèi)系統(tǒng)硬件設(shè)計(jì)
本文研究的聚類(lèi)系統(tǒng)針對(duì)混合屬性圖像設(shè)計(jì),該系統(tǒng)能夠?qū)⑺械膱D像同一特征進(jìn)行動(dòng)態(tài)聚類(lèi),并且配合主題關(guān)鍵詞,方便用戶(hù)查看。
基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)結(jié)構(gòu)如圖1所示。
觀(guān)察圖1可知,本文設(shè)計(jì)的冗余特征聚類(lèi)系統(tǒng)利用互聯(lián)網(wǎng)絡(luò)將各個(gè)設(shè)備連接到一起。硬件設(shè)備主要有圖像搜索器、網(wǎng)絡(luò)端效勞器、特征索引器、查詢(xún)器、預(yù)處理器、圖像數(shù)據(jù)庫(kù)、聚類(lèi)器,其中,聚類(lèi)器和預(yù)處理器是系統(tǒng)結(jié)構(gòu)的關(guān)鍵組成局部[8]。
1.1 圖像搜索器設(shè)計(jì)
圖像搜索器負(fù)責(zé)聚類(lèi)系統(tǒng)的引擎搜索工作,能夠在眾多混合屬性圖像中搜索冗余特征,并且提供相對(duì)滿(mǎn)意的搜索結(jié)果。搜索引擎中選擇的效勞器為Spider效勞器,該效勞器一改傳統(tǒng)的超鏈接拓?fù)漤樞颍贸跏嫉腢RL列表獲取對(duì)應(yīng)的網(wǎng)頁(yè)。Spider效勞器不僅能夠獲得URL列表,而且還可以根據(jù)獲取到的結(jié)構(gòu),尋找其他類(lèi)型的文件,重復(fù)進(jìn)行,直到搜索到指定數(shù)目的冗余特征為止。圖像搜索器的設(shè)計(jì)過(guò)程比擬簡(jiǎn)單,Spider處理器占據(jù)面積較小[9]。Spider處理器示意圖如圖2所示。
Spider處理器芯片是一個(gè)小型簡(jiǎn)單的芯片,能夠在短時(shí)間內(nèi)完成圖像冗余特征的搜索工作。
1.2 圖像數(shù)據(jù)庫(kù)設(shè)計(jì)
為了更好地分析混合屬性圖像冗余特征,本文在系統(tǒng)硬件結(jié)構(gòu)中參加了圖像數(shù)據(jù)庫(kù),圖像數(shù)據(jù)庫(kù)能夠?yàn)橄到y(tǒng)工作提供網(wǎng)頁(yè)的原始數(shù)據(jù),并且存儲(chǔ)含有冗余特征的混合屬性圖像[10]。圖像數(shù)據(jù)庫(kù)使用的管理系統(tǒng)為BERKELEY DB系統(tǒng),該系統(tǒng)是一個(gè)含有開(kāi)放源代碼的嵌入式數(shù)據(jù)庫(kù)管理系統(tǒng),具有極高的管理能力和極強(qiáng)的工作性能。圖像數(shù)據(jù)庫(kù)的提供很大程度地減輕了程序員的工作負(fù)擔(dān)。圖像數(shù)據(jù)庫(kù)不需要效勞器連接,應(yīng)用程序直接就能夠完成數(shù)據(jù)的保存、查詢(xún)、修改以及刪除工作。
圖像數(shù)據(jù)庫(kù)結(jié)構(gòu)如圖3所示。
觀(guān)察圖3可知,圖像數(shù)據(jù)庫(kù)中含有多個(gè)API接口能夠連接軟件程序,同時(shí),采用C語(yǔ)言、C++語(yǔ)言、Java語(yǔ)言、Perl語(yǔ)言等編程語(yǔ)言進(jìn)行操作,使系統(tǒng)可以在短時(shí)間內(nèi)完成多個(gè)圖像冗余特征的聚類(lèi)工作。多語(yǔ)言操作使系統(tǒng)的多個(gè)進(jìn)程可以在同一時(shí)間操控訪(fǎng)問(wèn)數(shù)據(jù)庫(kù)。數(shù)據(jù)加鎖、事務(wù)日志和存儲(chǔ)管理位于數(shù)據(jù)庫(kù)的底層,與數(shù)據(jù)庫(kù)函數(shù)完美融合,配合系統(tǒng)的工作。
本文設(shè)計(jì)的圖像數(shù)據(jù)庫(kù)自身內(nèi)存僅有250 KB,能夠管理高達(dá)380 TB的數(shù)據(jù),性能強(qiáng)于目前市面上的其他圖像數(shù)據(jù)庫(kù)。關(guān)鍵詞(Key)是圖像數(shù)據(jù)庫(kù)的管理根底,關(guān)鍵詞(Key)和數(shù)據(jù)(Data)為對(duì)應(yīng)關(guān)系,構(gòu)成了數(shù)據(jù)庫(kù)結(jié)構(gòu)的一個(gè)根本單元,用戶(hù)可以利用這些根本單元實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的訪(fǎng)問(wèn),不同的關(guān)鍵詞來(lái)源于不同的數(shù)據(jù)。數(shù)據(jù)庫(kù)中關(guān)鍵詞對(duì)應(yīng)的模型圖如圖4所示。
混合屬性圖像中的關(guān)鍵特征在經(jīng)過(guò)計(jì)算后得到矩陣,數(shù)據(jù)在一次計(jì)算后,會(huì)永久保存在數(shù)據(jù)庫(kù)中,隨時(shí)為用戶(hù)提供必要的效勞。需要特別指出的是,最初得到的冗余特征數(shù)據(jù)不會(huì)直接儲(chǔ)存在數(shù)據(jù)庫(kù)中,而是要經(jīng)過(guò)預(yù)處理器統(tǒng)一分析后,才能儲(chǔ)存到對(duì)應(yīng)的關(guān)鍵詞模型列表中。
1.3 圖像預(yù)處理器設(shè)計(jì)
圖像預(yù)處理器主要負(fù)責(zé)處理混合屬性圖像的冗余特征,包括視覺(jué)冗余特征和語(yǔ)義冗余特征。顏色冗余特征是最為廣泛的冗余特征,顏色冗余特征對(duì)圖像本身的尺寸、方向和視角有著很小的依賴(lài)性,自身具有很好的穩(wěn)健性。在處理顏色冗余特征時(shí),系統(tǒng)會(huì)自動(dòng)建立直方圖,統(tǒng)計(jì)每種顏色出現(xiàn)的次數(shù),利用的統(tǒng)計(jì)工具為RGB色彩工具,建立的顏色直方圖如圖5所示。
圖5中,RGB代表不同的色彩分量,R代表紅色(Red),G代表綠色(Green),B代表藍(lán)色(Blue)。顏色直方圖中每個(gè)顏色都擁有256種色彩區(qū)間。三種顏色區(qū)間加起來(lái)共有768維,不需要做特別的降維處理。
在處理語(yǔ)義特征時(shí),要從URL中提取相關(guān)的語(yǔ)義信息,分別分析標(biāo)記信息、網(wǎng)頁(yè)標(biāo)題、URL信息和meta標(biāo)記信息,對(duì)不同的信息設(shè)立不同的權(quán)重值,通過(guò)分析權(quán)重值完成冗余特征聚類(lèi)處理工作。
1.4 聚類(lèi)器設(shè)計(jì)
聚類(lèi)器在本文設(shè)計(jì)的系統(tǒng)中占據(jù)著核心地位,能夠通過(guò)動(dòng)態(tài)的方式將特征分成假設(shè)干組和假設(shè)干類(lèi),并確保每一組內(nèi)的數(shù)據(jù)都有著極高的相似度,不同組的相似度很低。聚類(lèi)器主要包括三個(gè)模塊:顏色特征聚類(lèi)模塊、語(yǔ)義特征聚類(lèi)模塊、顏色語(yǔ)義特征聚類(lèi)模塊。通過(guò)K?means算法將得到的聚類(lèi)結(jié)果保存在緩存區(qū)中,當(dāng)緩存區(qū)的結(jié)構(gòu)到達(dá)滿(mǎn)負(fù)荷時(shí),替換掉緩存區(qū)的內(nèi)容。聚類(lèi)器結(jié)構(gòu)如圖6所示。
2 混合屬性圖像冗余特征聚類(lèi)系統(tǒng)軟件設(shè)計(jì)
根據(jù)設(shè)計(jì)的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)硬件結(jié)構(gòu),對(duì)聚類(lèi)系統(tǒng)軟件結(jié)構(gòu)進(jìn)行設(shè)計(jì)。軟件選用的開(kāi)發(fā)環(huán)境為Micorsoft Windows 10,選用的CPU為Celeron,內(nèi)存高達(dá)500 MB,使用的開(kāi)發(fā)工具為VS2022,得到的軟件流程如圖7所示。
本文設(shè)計(jì)的軟件在工作之前,會(huì)建立一個(gè)初始的URL列表,利用超鏈接的拓?fù)漤樞蛱崛〔煌W(wǎng)頁(yè)圖像的冗余數(shù)據(jù),通過(guò)對(duì)這些冗余特征數(shù)據(jù)進(jìn)行分析,能夠得到根系結(jié)果,再將根系結(jié)果輸入數(shù)據(jù)庫(kù)中,以構(gòu)建索引庫(kù)。
軟件采用的聚類(lèi)算法為IGroup聚類(lèi)算法,該算法工作效率高,通用性強(qiáng),能夠以列表形式將聚類(lèi)結(jié)果反響給用戶(hù)。相較于其他聚類(lèi)算法,IGroup聚類(lèi)算法耗時(shí)更短。通過(guò)搜索圖像和文本,找到特征數(shù)據(jù),進(jìn)行合并,最后通過(guò)精選將得到的結(jié)果反響給用戶(hù)。該聚類(lèi)算法能夠?qū)?fù)雜的圖片聚類(lèi)轉(zhuǎn)換成文字聚類(lèi),工作過(guò)程簡(jiǎn)單,工作效果好。
聚類(lèi)算法流程如圖8所示。
3 實(shí)驗(yàn)研究
3.1 實(shí)驗(yàn)?zāi)康?
為了檢測(cè)本文設(shè)計(jì)的基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)的實(shí)際效果,與傳統(tǒng)聚類(lèi)系統(tǒng)進(jìn)行了比照,并分析實(shí)驗(yàn)結(jié)果。
3.2 實(shí)驗(yàn)參數(shù)設(shè)置
實(shí)驗(yàn)平臺(tái)及參數(shù)配置見(jiàn)表1。
3.3 實(shí)驗(yàn)結(jié)果
根據(jù)上述實(shí)驗(yàn)參數(shù),同時(shí)選取本文研究的聚類(lèi)系統(tǒng)和傳統(tǒng)聚類(lèi)系統(tǒng)對(duì)1 000幅混合屬性圖像冗余特征進(jìn)行聚類(lèi),聚類(lèi)結(jié)果比擬如圖9所示。
觀(guān)察圖9可知:傳統(tǒng)的冗余特征聚類(lèi)系統(tǒng)聚類(lèi)數(shù)量最高值僅能到達(dá)145左右,而本文的冗余特征聚類(lèi)系統(tǒng)聚類(lèi)數(shù)量能夠到達(dá)200,圖像含有的信息十分豐富,用戶(hù)查找起來(lái)極其方便,得到的聚類(lèi)結(jié)果更優(yōu)。
4 結(jié) 語(yǔ)
本文利用大數(shù)據(jù)提出了一種新的混合圖像冗余特征聚類(lèi)系統(tǒng),該聚類(lèi)系統(tǒng)能夠在短時(shí)間內(nèi)分析出圖像不同的屬性,尋找到冗余特征,給出最優(yōu)結(jié)果。本文在關(guān)鍵參數(shù)上進(jìn)行了動(dòng)態(tài)設(shè)計(jì),利用IGroup聚類(lèi)算法優(yōu)化了聚類(lèi)過(guò)程,使系統(tǒng)能夠?qū)崿F(xiàn)顏色冗余特征聚類(lèi)、語(yǔ)義冗余特征聚類(lèi)。本文研究的系統(tǒng)雖然具備上述優(yōu)點(diǎn),但是提供的效勞多是針對(duì)單一領(lǐng)域,未來(lái)該系統(tǒng)應(yīng)該隨著人工智能技術(shù)的進(jìn)步不斷深入研究,努力適應(yīng)各種圖像檢索技術(shù)。
參考文獻(xiàn)
[1] 侯莉莎.大數(shù)據(jù)集合中冗余特征排除的聚類(lèi)算法設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2022,41(14):48?50.
[2] 魏霖靜,寧璐璐,郭斌,等.大數(shù)據(jù)中基于熵加權(quán)的稀疏分?jǐn)?shù)特征選擇聚類(lèi)算法[J].計(jì)算機(jī)應(yīng)用研究,2022,35(8):2293?2294.
[3] 劉先花.基于群體協(xié)同智能聚類(lèi)的大數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2022,40(23):130?133.
[4] 李珍,刁鋼,趙慧峰.基于大數(shù)據(jù)分析的學(xué)生學(xué)業(yè)分類(lèi)管理體系:河北農(nóng)業(yè)大學(xué)商學(xué)院新生入學(xué)成績(jī)的K?mean聚類(lèi)分析[J].河北農(nóng)業(yè)大學(xué)學(xué)報(bào)(農(nóng)林教育版),2022,20(5):96?99.
[5] 文政穎,李運(yùn)娣.一種基于模糊層次聚類(lèi)分析的大數(shù)據(jù)挖掘算法[J].河南工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2022,30(3):70?74.
[6] 徐源,程潛善,李陽(yáng),等.基于大數(shù)據(jù)聚類(lèi)的電力系統(tǒng)中長(zhǎng)期負(fù)荷預(yù)測(cè)[J].電力系統(tǒng)及其自動(dòng)化學(xué)報(bào),2022,29(8):43?48.
[7] 王欣剛.基于大數(shù)據(jù)分析的業(yè)務(wù)平安預(yù)警系統(tǒng)設(shè)計(jì)[J].播送與電視技術(shù),2022,45(6):123?126.
[8] 梁耘,王維慶,王海云.基于分裂?合并策略改良多特征聚類(lèi)算法的風(fēng)電機(jī)組故障分析[J].可再生能源,2022,35(10):1537?1543.
[9] 鄧小盾.一種基于大數(shù)據(jù)的網(wǎng)絡(luò)日志分析模型構(gòu)建研究[J].電子設(shè)計(jì)工程,2022,25(23):97?100.
[10] 徐時(shí)芳,羅曉賓,陳陽(yáng)華.基于Spark的分布式大數(shù)據(jù)分析建模系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2022,41(20):172?174.
[11] 商娟葉.基于PSO的云計(jì)算環(huán)境中大數(shù)據(jù)優(yōu)化聚類(lèi)算法[J].電子設(shè)計(jì)工程,2022,26(19):80?83.
[12] 趙睿,王慶嶺.基于大數(shù)據(jù)技術(shù)在線(xiàn)學(xué)習(xí)過(guò)程行為分析框架設(shè)計(jì)[J].蘭州石化職業(yè)技術(shù)學(xué)院學(xué)報(bào),2022,17(4):15?18.
[13] 樊凌,龔偉.無(wú)線(xiàn)網(wǎng)絡(luò)MOOCs大數(shù)據(jù)聚類(lèi)方法優(yōu)化研究[J].計(jì)算機(jī)仿真,2022,33(7):435?439.
收藏
編號(hào):210477609
類(lèi)型:共享資源
大?。?span id="0qamqk0" class="font-tahoma">15.33KB
格式:DOCX
上傳時(shí)間:2023-05-17
18
積分
- 關(guān) 鍵 詞:
-
基于
數(shù)據(jù)
分析
混合
屬性
圖像
冗余
特征
系統(tǒng)
設(shè)計(jì)
- 資源描述:
-
基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)設(shè)計(jì)
簡(jiǎn)要:摘 要: 傳統(tǒng)的圖像聚類(lèi)系統(tǒng)得到的聚類(lèi)結(jié)果往往不是最優(yōu)結(jié)果。為了解決這一問(wèn)題,基于大數(shù)據(jù)分析技術(shù)設(shè)計(jì)了一種新的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)。系統(tǒng)硬件由圖像搜索器、網(wǎng)
摘 要: 傳統(tǒng)的圖像聚類(lèi)系統(tǒng)得到的聚類(lèi)結(jié)果往往不是最優(yōu)結(jié)果。為了解決這一問(wèn)題,基于大數(shù)據(jù)分析技術(shù)設(shè)計(jì)了一種新的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)。系統(tǒng)硬件由圖像搜索器、網(wǎng)絡(luò)端效勞器、特征索引器、查詢(xún)器、預(yù)處理器、圖像數(shù)據(jù)庫(kù)、聚類(lèi)器組成。圖像搜索器利用Spider處理器完成搜索,利用API接口和嵌入式管理系統(tǒng)管理圖像數(shù)據(jù)庫(kù),建立顏色直方圖實(shí)現(xiàn)顏色特征處理。軟件由圖像搜索、圖像特征處理、冗余特征聚類(lèi)三步組成,利用IGroup算法實(shí)現(xiàn)聚類(lèi)。與傳統(tǒng)聚類(lèi)系統(tǒng)進(jìn)行實(shí)驗(yàn)比照,結(jié)果說(shuō)明,新的聚類(lèi)系統(tǒng)能夠在短時(shí)間內(nèi)輸出最優(yōu)的聚類(lèi)結(jié)果,適合圖像處理工作。
關(guān)鍵詞: 系統(tǒng)設(shè)計(jì); 冗余特征聚類(lèi); 混合屬性圖像; 圖像搜索; 大數(shù)據(jù)分析; 圖像處理
本文源自:?現(xiàn)代電子技術(shù)? 2022年13期
0 引 言
隨著Internet的高速開(kāi)展,圖像被越來(lái)越多地使用在內(nèi)容表達(dá)和信息承載上。網(wǎng)絡(luò)具有規(guī)模大、分布范圍廣、資源增長(zhǎng)速度快的特征,互聯(lián)網(wǎng)擁有的圖像數(shù)以?xún)|計(jì),想要通過(guò)人工的手段將混合屬性圖像冗余特征聚類(lèi)到一起十分困難,因此,必須要設(shè)計(jì)有效的圖像冗余特征聚類(lèi)系統(tǒng)[1]。
圖像冗余特征聚類(lèi)問(wèn)題與圖像信息收集和信息檢索問(wèn)題相關(guān),圖像的冗余特征表現(xiàn)形式共有如下幾種:空間冗余、時(shí)間冗余、視覺(jué)冗余、信息熵冗余和知識(shí)冗余[2]。不同類(lèi)型的圖像含有的冗余特征不同[3],由于Internet具有邊緣化的特點(diǎn),所以圖像信息的格式也往往不同[4]。目前研究的圖像冗余特征聚類(lèi)系統(tǒng)主要有兩種:第一種是基于圖像內(nèi)容進(jìn)行聚類(lèi);第二種是基于圖像語(yǔ)義進(jìn)行聚類(lèi)?;趦?nèi)容的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)能夠?qū)D像的內(nèi)容本身進(jìn)行分析和研究,基于語(yǔ)義的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)能夠分析相關(guān)文字信息[5]。在目前研發(fā)的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)中,聚類(lèi)的準(zhǔn)確率和全面率都有所缺乏,系統(tǒng)的可擴(kuò)展性也存在很大的問(wèn)題[6]。
大數(shù)據(jù)分析技術(shù)是一種新的網(wǎng)絡(luò)技術(shù),能夠在短時(shí)間內(nèi)對(duì)海量數(shù)據(jù)進(jìn)行分析,并且篩選出有效數(shù)據(jù),對(duì)于冗余特征聚類(lèi)十分有效[7]。本文基于大數(shù)據(jù)分析技術(shù),設(shè)計(jì)了一種新的混合屬性圖像冗余特征聚類(lèi)系統(tǒng),對(duì)系統(tǒng)的硬件和軟件進(jìn)行了優(yōu)化設(shè)計(jì),分析了系統(tǒng)進(jìn)行聚類(lèi)的工作原理,并給出了相應(yīng)的聚類(lèi)算法,通過(guò)實(shí)驗(yàn)對(duì)聚類(lèi)系統(tǒng)有效性進(jìn)行探討。
1 混合屬性圖像冗余特征聚類(lèi)系統(tǒng)硬件設(shè)計(jì)
本文研究的聚類(lèi)系統(tǒng)針對(duì)混合屬性圖像設(shè)計(jì),該系統(tǒng)能夠?qū)⑺械膱D像同一特征進(jìn)行動(dòng)態(tài)聚類(lèi),并且配合主題關(guān)鍵詞,方便用戶(hù)查看。
基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)結(jié)構(gòu)如圖1所示。
觀(guān)察圖1可知,本文設(shè)計(jì)的冗余特征聚類(lèi)系統(tǒng)利用互聯(lián)網(wǎng)絡(luò)將各個(gè)設(shè)備連接到一起。硬件設(shè)備主要有圖像搜索器、網(wǎng)絡(luò)端效勞器、特征索引器、查詢(xún)器、預(yù)處理器、圖像數(shù)據(jù)庫(kù)、聚類(lèi)器,其中,聚類(lèi)器和預(yù)處理器是系統(tǒng)結(jié)構(gòu)的關(guān)鍵組成局部[8]。
1.1 圖像搜索器設(shè)計(jì)
圖像搜索器負(fù)責(zé)聚類(lèi)系統(tǒng)的引擎搜索工作,能夠在眾多混合屬性圖像中搜索冗余特征,并且提供相對(duì)滿(mǎn)意的搜索結(jié)果。搜索引擎中選擇的效勞器為Spider效勞器,該效勞器一改傳統(tǒng)的超鏈接拓?fù)漤樞?,利用初始的URL列表獲取對(duì)應(yīng)的網(wǎng)頁(yè)。Spider效勞器不僅能夠獲得URL列表,而且還可以根據(jù)獲取到的結(jié)構(gòu),尋找其他類(lèi)型的文件,重復(fù)進(jìn)行,直到搜索到指定數(shù)目的冗余特征為止。圖像搜索器的設(shè)計(jì)過(guò)程比擬簡(jiǎn)單,Spider處理器占據(jù)面積較小[9]。Spider處理器示意圖如圖2所示。
Spider處理器芯片是一個(gè)小型簡(jiǎn)單的芯片,能夠在短時(shí)間內(nèi)完成圖像冗余特征的搜索工作。
1.2 圖像數(shù)據(jù)庫(kù)設(shè)計(jì)
為了更好地分析混合屬性圖像冗余特征,本文在系統(tǒng)硬件結(jié)構(gòu)中參加了圖像數(shù)據(jù)庫(kù),圖像數(shù)據(jù)庫(kù)能夠?yàn)橄到y(tǒng)工作提供網(wǎng)頁(yè)的原始數(shù)據(jù),并且存儲(chǔ)含有冗余特征的混合屬性圖像[10]。圖像數(shù)據(jù)庫(kù)使用的管理系統(tǒng)為BERKELEY DB系統(tǒng),該系統(tǒng)是一個(gè)含有開(kāi)放源代碼的嵌入式數(shù)據(jù)庫(kù)管理系統(tǒng),具有極高的管理能力和極強(qiáng)的工作性能。圖像數(shù)據(jù)庫(kù)的提供很大程度地減輕了程序員的工作負(fù)擔(dān)。圖像數(shù)據(jù)庫(kù)不需要效勞器連接,應(yīng)用程序直接就能夠完成數(shù)據(jù)的保存、查詢(xún)、修改以及刪除工作。
圖像數(shù)據(jù)庫(kù)結(jié)構(gòu)如圖3所示。
觀(guān)察圖3可知,圖像數(shù)據(jù)庫(kù)中含有多個(gè)API接口能夠連接軟件程序,同時(shí),采用C語(yǔ)言、C++語(yǔ)言、Java語(yǔ)言、Perl語(yǔ)言等編程語(yǔ)言進(jìn)行操作,使系統(tǒng)可以在短時(shí)間內(nèi)完成多個(gè)圖像冗余特征的聚類(lèi)工作。多語(yǔ)言操作使系統(tǒng)的多個(gè)進(jìn)程可以在同一時(shí)間操控訪(fǎng)問(wèn)數(shù)據(jù)庫(kù)。數(shù)據(jù)加鎖、事務(wù)日志和存儲(chǔ)管理位于數(shù)據(jù)庫(kù)的底層,與數(shù)據(jù)庫(kù)函數(shù)完美融合,配合系統(tǒng)的工作。
本文設(shè)計(jì)的圖像數(shù)據(jù)庫(kù)自身內(nèi)存僅有250 KB,能夠管理高達(dá)380 TB的數(shù)據(jù),性能強(qiáng)于目前市面上的其他圖像數(shù)據(jù)庫(kù)。關(guān)鍵詞(Key)是圖像數(shù)據(jù)庫(kù)的管理根底,關(guān)鍵詞(Key)和數(shù)據(jù)(Data)為對(duì)應(yīng)關(guān)系,構(gòu)成了數(shù)據(jù)庫(kù)結(jié)構(gòu)的一個(gè)根本單元,用戶(hù)可以利用這些根本單元實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的訪(fǎng)問(wèn),不同的關(guān)鍵詞來(lái)源于不同的數(shù)據(jù)。數(shù)據(jù)庫(kù)中關(guān)鍵詞對(duì)應(yīng)的模型圖如圖4所示。
混合屬性圖像中的關(guān)鍵特征在經(jīng)過(guò)計(jì)算后得到矩陣,數(shù)據(jù)在一次計(jì)算后,會(huì)永久保存在數(shù)據(jù)庫(kù)中,隨時(shí)為用戶(hù)提供必要的效勞。需要特別指出的是,最初得到的冗余特征數(shù)據(jù)不會(huì)直接儲(chǔ)存在數(shù)據(jù)庫(kù)中,而是要經(jīng)過(guò)預(yù)處理器統(tǒng)一分析后,才能儲(chǔ)存到對(duì)應(yīng)的關(guān)鍵詞模型列表中。
1.3 圖像預(yù)處理器設(shè)計(jì)
圖像預(yù)處理器主要負(fù)責(zé)處理混合屬性圖像的冗余特征,包括視覺(jué)冗余特征和語(yǔ)義冗余特征。顏色冗余特征是最為廣泛的冗余特征,顏色冗余特征對(duì)圖像本身的尺寸、方向和視角有著很小的依賴(lài)性,自身具有很好的穩(wěn)健性。在處理顏色冗余特征時(shí),系統(tǒng)會(huì)自動(dòng)建立直方圖,統(tǒng)計(jì)每種顏色出現(xiàn)的次數(shù),利用的統(tǒng)計(jì)工具為RGB色彩工具,建立的顏色直方圖如圖5所示。
圖5中,RGB代表不同的色彩分量,R代表紅色(Red),G代表綠色(Green),B代表藍(lán)色(Blue)。顏色直方圖中每個(gè)顏色都擁有256種色彩區(qū)間。三種顏色區(qū)間加起來(lái)共有768維,不需要做特別的降維處理。
在處理語(yǔ)義特征時(shí),要從URL中提取相關(guān)的語(yǔ)義信息,分別分析標(biāo)記信息、網(wǎng)頁(yè)標(biāo)題、URL信息和meta標(biāo)記信息,對(duì)不同的信息設(shè)立不同的權(quán)重值,通過(guò)分析權(quán)重值完成冗余特征聚類(lèi)處理工作。
1.4 聚類(lèi)器設(shè)計(jì)
聚類(lèi)器在本文設(shè)計(jì)的系統(tǒng)中占據(jù)著核心地位,能夠通過(guò)動(dòng)態(tài)的方式將特征分成假設(shè)干組和假設(shè)干類(lèi),并確保每一組內(nèi)的數(shù)據(jù)都有著極高的相似度,不同組的相似度很低。聚類(lèi)器主要包括三個(gè)模塊:顏色特征聚類(lèi)模塊、語(yǔ)義特征聚類(lèi)模塊、顏色語(yǔ)義特征聚類(lèi)模塊。通過(guò)K?means算法將得到的聚類(lèi)結(jié)果保存在緩存區(qū)中,當(dāng)緩存區(qū)的結(jié)構(gòu)到達(dá)滿(mǎn)負(fù)荷時(shí),替換掉緩存區(qū)的內(nèi)容。聚類(lèi)器結(jié)構(gòu)如圖6所示。
2 混合屬性圖像冗余特征聚類(lèi)系統(tǒng)軟件設(shè)計(jì)
根據(jù)設(shè)計(jì)的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)硬件結(jié)構(gòu),對(duì)聚類(lèi)系統(tǒng)軟件結(jié)構(gòu)進(jìn)行設(shè)計(jì)。軟件選用的開(kāi)發(fā)環(huán)境為Micorsoft Windows 10,選用的CPU為Celeron,內(nèi)存高達(dá)500 MB,使用的開(kāi)發(fā)工具為VS2022,得到的軟件流程如圖7所示。
本文設(shè)計(jì)的軟件在工作之前,會(huì)建立一個(gè)初始的URL列表,利用超鏈接的拓?fù)漤樞蛱崛〔煌W(wǎng)頁(yè)圖像的冗余數(shù)據(jù),通過(guò)對(duì)這些冗余特征數(shù)據(jù)進(jìn)行分析,能夠得到根系結(jié)果,再將根系結(jié)果輸入數(shù)據(jù)庫(kù)中,以構(gòu)建索引庫(kù)。
軟件采用的聚類(lèi)算法為IGroup聚類(lèi)算法,該算法工作效率高,通用性強(qiáng),能夠以列表形式將聚類(lèi)結(jié)果反響給用戶(hù)。相較于其他聚類(lèi)算法,IGroup聚類(lèi)算法耗時(shí)更短。通過(guò)搜索圖像和文本,找到特征數(shù)據(jù),進(jìn)行合并,最后通過(guò)精選將得到的結(jié)果反響給用戶(hù)。該聚類(lèi)算法能夠?qū)?fù)雜的圖片聚類(lèi)轉(zhuǎn)換成文字聚類(lèi),工作過(guò)程簡(jiǎn)單,工作效果好。
聚類(lèi)算法流程如圖8所示。
3 實(shí)驗(yàn)研究
3.1 實(shí)驗(yàn)?zāi)康?
為了檢測(cè)本文設(shè)計(jì)的基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類(lèi)系統(tǒng)的實(shí)際效果,與傳統(tǒng)聚類(lèi)系統(tǒng)進(jìn)行了比照,并分析實(shí)驗(yàn)結(jié)果。
3.2 實(shí)驗(yàn)參數(shù)設(shè)置
實(shí)驗(yàn)平臺(tái)及參數(shù)配置見(jiàn)表1。
3.3 實(shí)驗(yàn)結(jié)果
根據(jù)上述實(shí)驗(yàn)參數(shù),同時(shí)選取本文研究的聚類(lèi)系統(tǒng)和傳統(tǒng)聚類(lèi)系統(tǒng)對(duì)1 000幅混合屬性圖像冗余特征進(jìn)行聚類(lèi),聚類(lèi)結(jié)果比擬如圖9所示。
觀(guān)察圖9可知:傳統(tǒng)的冗余特征聚類(lèi)系統(tǒng)聚類(lèi)數(shù)量最高值僅能到達(dá)145左右,而本文的冗余特征聚類(lèi)系統(tǒng)聚類(lèi)數(shù)量能夠到達(dá)200,圖像含有的信息十分豐富,用戶(hù)查找起來(lái)極其方便,得到的聚類(lèi)結(jié)果更優(yōu)。
4 結(jié) 語(yǔ)
本文利用大數(shù)據(jù)提出了一種新的混合圖像冗余特征聚類(lèi)系統(tǒng),該聚類(lèi)系統(tǒng)能夠在短時(shí)間內(nèi)分析出圖像不同的屬性,尋找到冗余特征,給出最優(yōu)結(jié)果。本文在關(guān)鍵參數(shù)上進(jìn)行了動(dòng)態(tài)設(shè)計(jì),利用IGroup聚類(lèi)算法優(yōu)化了聚類(lèi)過(guò)程,使系統(tǒng)能夠?qū)崿F(xiàn)顏色冗余特征聚類(lèi)、語(yǔ)義冗余特征聚類(lèi)。本文研究的系統(tǒng)雖然具備上述優(yōu)點(diǎn),但是提供的效勞多是針對(duì)單一領(lǐng)域,未來(lái)該系統(tǒng)應(yīng)該隨著人工智能技術(shù)的進(jìn)步不斷深入研究,努力適應(yīng)各種圖像檢索技術(shù)。
參考文獻(xiàn)
[1] 侯莉莎.大數(shù)據(jù)集合中冗余特征排除的聚類(lèi)算法設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2022,41(14):48?50.
[2] 魏霖靜,寧璐璐,郭斌,等.大數(shù)據(jù)中基于熵加權(quán)的稀疏分?jǐn)?shù)特征選擇聚類(lèi)算法[J].計(jì)算機(jī)應(yīng)用研究,2022,35(8):2293?2294.
[3] 劉先花.基于群體協(xié)同智能聚類(lèi)的大數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2022,40(23):130?133.
[4] 李珍,刁鋼,趙慧峰.基于大數(shù)據(jù)分析的學(xué)生學(xué)業(yè)分類(lèi)管理體系:河北農(nóng)業(yè)大學(xué)商學(xué)院新生入學(xué)成績(jī)的K?mean聚類(lèi)分析[J].河北農(nóng)業(yè)大學(xué)學(xué)報(bào)(農(nóng)林教育版),2022,20(5):96?99.
[5] 文政穎,李運(yùn)娣.一種基于模糊層次聚類(lèi)分析的大數(shù)據(jù)挖掘算法[J].河南工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2022,30(3):70?74.
[6] 徐源,程潛善,李陽(yáng),等.基于大數(shù)據(jù)聚類(lèi)的電力系統(tǒng)中長(zhǎng)期負(fù)荷預(yù)測(cè)[J].電力系統(tǒng)及其自動(dòng)化學(xué)報(bào),2022,29(8):43?48.
[7] 王欣剛.基于大數(shù)據(jù)分析的業(yè)務(wù)平安預(yù)警系統(tǒng)設(shè)計(jì)[J].播送與電視技術(shù),2022,45(6):123?126.
[8] 梁耘,王維慶,王海云.基于分裂?合并策略改良多特征聚類(lèi)算法的風(fēng)電機(jī)組故障分析[J].可再生能源,2022,35(10):1537?1543.
[9] 鄧小盾.一種基于大數(shù)據(jù)的網(wǎng)絡(luò)日志分析模型構(gòu)建研究[J].電子設(shè)計(jì)工程,2022,25(23):97?100.
[10] 徐時(shí)芳,羅曉賓,陳陽(yáng)華.基于Spark的分布式大數(shù)據(jù)分析建模系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2022,41(20):172?174.
[11] 商娟葉.基于PSO的云計(jì)算環(huán)境中大數(shù)據(jù)優(yōu)化聚類(lèi)算法[J].電子設(shè)計(jì)工程,2022,26(19):80?83.
[12] 趙睿,王慶嶺.基于大數(shù)據(jù)技術(shù)在線(xiàn)學(xué)習(xí)過(guò)程行為分析框架設(shè)計(jì)[J].蘭州石化職業(yè)技術(shù)學(xué)院學(xué)報(bào),2022,17(4):15?18.
[13] 樊凌,龔偉.無(wú)線(xiàn)網(wǎng)絡(luò)MOOCs大數(shù)據(jù)聚類(lèi)方法優(yōu)化研究[J].計(jì)算機(jī)仿真,2022,33(7):435?439.
展開(kāi)閱讀全文
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
裝配圖網(wǎng)所有資源均是用戶(hù)自行上傳分享,僅供網(wǎng)友學(xué)習(xí)交流,未經(jīng)上傳用戶(hù)書(shū)面授權(quán),請(qǐng)勿作他用。