欧美 日韩 亚洲 在线-欧美 日韩 无码 有码 在线-欧美 另类 美腿 亚洲 无码-欧美 国产 日产 韩国 在线-99久久香蕉-99久久无码一区人妻A片竹菊

企億推信息網
專注網絡推廣服務

分享文章中關鍵詞的提取與拓展方法

在自然語言處理領域,處理海量文本文件的關鍵是提取用戶關心的問題。無論是長文本還是短文本,我們都可以通過幾個關鍵詞來窺視整個文本的主題。同時,無論是基于文本的推薦還是基于文本的搜索,對文本關鍵字的依賴性也很大。關鍵詞提取的準確性直接關系到推薦系統或搜索系統的終效果。

因此,關鍵字提取是文本挖掘領域的一個重要組成部分。從文本中提取關鍵詞有三種方法:監督、半監督和無監督。監督關鍵字提取算法是將關鍵字提取算法構造為兩類問題來判斷文檔中的詞或短語是否為關鍵字。由于這是一個分類問題,因此有必要提供標記的訓練預測。訓練語料庫用于訓練關鍵詞提取模型。根據該模型,對需要提取關鍵字的文檔的關鍵字提取算法進行了半監督。

構造關鍵詞提取模型只需要少量的訓練數據,然后利用模型對新文本進行檢查。關鍵字提取,手動篩選這些關鍵字,并將篩選后的關鍵字添加到培訓集以重新培訓模型。無監督的方法不需要手動標記語料庫。一些方法被用來尋找文本中更重要的詞作為關鍵字并提取關鍵字。監督文本關鍵字提取算法要求人工成本高,現有的文本關鍵字提取主要采用無監督關鍵字提取,適用性強。

文本關鍵字提取的過程如下:無監督文本關鍵字提取流程圖無監督關鍵字提取算法可分為三類:基于統計特征的關鍵字提取、基于詞圖模型的關鍵字提取和基于主題模型的關鍵字提取。基于統計特征的文本關鍵字提取算法基于統計特征的關鍵字提取算法基于統計特征的關鍵字提取算法是利用文檔中的統計信息提取關鍵字。

一般情況下,文本經過預處理得到候選詞集,然后通過特征值量化從候選詞集中獲得關鍵詞。基于統計特征的關鍵詞提取方法的關鍵是采用何種特征值量化指標。

分享文章中關鍵詞的提取與拓展方法(圖1)

目前常用的方法有三種:1、基于詞權的特征量化主要包括部分語音、詞頻、反向文檔頻率、相對詞頻、詞長等。2、基于詞位的特征量化方法是基于不同位置的句子對文獻的重要性不同的假設。通常,文章的前N個詞、后N個詞、開頭、結尾、標題和引言都是有代表性的詞。這些詞可以把整個主題表達為關鍵詞。3、基于詞關聯信息的特征量詞的關聯信息是指詞與詞、詞與文獻的關聯程度,包括互信息、命中值、貢獻度、依賴度、tf-idf值等,這里有一些常用的特征值量化指標。部分語音分詞和語法分析的結果。現有的關鍵詞大多是名詞或動名詞。

一般來說,名詞比言語的其他部分更能表達文章的主旨。然而,作為特征量化的指標,部分語音通常與其他指標結合使用。單詞頻率表示單詞在文本中出現的頻率。一般來說,我們認為一個詞在文本中出現的頻率越高,它就越有可能成為文章的核心詞。單詞頻率只是計算文本中出現的單詞數。然而,僅依靠詞頻獲得的關鍵詞具有很大的不確定性。對于長文本,此方法將產生大量噪聲。

一般來說,詞的位置對詞有很大的價值。例如,標題和摘要本身是作者總結的文章的主要思想,因此出現在這些地方的詞具有代表性,更容易成為關鍵詞。然而,由于每個作者都有不同的習慣、寫作方法和關鍵句子的位置,這也是一種非常廣泛的獲得關鍵詞的方法,通常不單獨使用。互信息和互信息是信息論中的一個概念,是衡量變量相互依賴性的一個指標。相互信息不限于實值隨機變量。

未經允許不得轉載:啟新網站SEO優化 » 分享文章中關鍵詞的提取與拓展方法
分享到: 更多 (0)
加載中~
主站蜘蛛池模板: 国产人妖一区二区 | 中文字幕99香蕉在线 | 久久青草在线视频精品 | 老子午夜伦不卡电影院 | 漂亮的保姆5电影免费观看完整版中文 | 色综合伊人色综合网站下载 | 涩涩电影网 | 黄A无码片内射无码视频 | 国产精品色欲AV亚洲三区软件 | h片下载地址 | 秋霞电影伦网理最新在线看片 | 国产成人a v在线影院 | 99久久99久久久99精品齐 | 国产精品99 | 久久黄视频 | 扒开粉嫩的小缝末成年小美女 | JLZZJLZZJLZ老师好多的水 jk制服喷水 | a视频在线看 | 一边摸一边桶一边脱免费 | va亚洲va天堂va视频在线 | 亚洲人成色777777老人头 | 她也色在线视频站 | 一个色夫导航 | 青青操久久 | 黄页免费观看 | 国产精品久久国产三级国不卡顿 | 免费观看激烈日板子 | 成年人视频在线免费看 | 久久五月综合婷婷中文云霸高清 | 最近日本字幕免费高清 | 亚洲综合日韩中文字幕v在线 | 征服艳妇后宫春色 | 高hnp肉文| 久久精品国产色蜜蜜麻豆国语版 | 亚洲H成年动漫在线观看不卡 | 天天躁躁水汪汪人碰人 | 日韩一区二区三区精品 | 精品无码人妻一区二区免费AV | 亚洲字幕在线观看 | 在线视频一区二区三区在线播放 | 日本最新免费区中文 |