在自動(dòng)描述提取過(guò)程中,文本中的一些內(nèi)容和對(duì)象非常重要,這將直接影響摘要的質(zhì)量。如關(guān)鍵詞、詞頻、詞位、句長(zhǎng)、句結(jié)構(gòu)、排版特征等。在自動(dòng)生成描述的過(guò)程中,它們?cè)诔橄缶涞倪x擇和組織中起著重要作用。我們必須深入理解和分析它們。
詞頻是指文本中單詞的頻率。具有引用價(jià)值的詞大多是中頻詞,通常是反映句子語(yǔ)法結(jié)構(gòu)的虛詞。低頻詞不應(yīng)引用。同樣,在摘要中起重要作用的詞也是高頻關(guān)鍵詞(重要詞),屬于整篇文章中的中頻詞。根據(jù)中頻詞的數(shù)量,計(jì)算句子的權(quán)重,確定候選句子。
文本信息的標(biāo)題是文本內(nèi)容的重要體現(xiàn)。各級(jí)文本的標(biāo)題在不同程度上反映了文本的主要內(nèi)容。因此,標(biāo)題中的詞匯是摘要的重要材料,關(guān)鍵詞和原文的內(nèi)容往往與討論的主題密切相關(guān)。除標(biāo)題中的虛擬詞外,其他關(guān)鍵詞可作為抽象句中的重要詞。
有許多短語(yǔ)(單詞)用于擴(kuò)展總結(jié)句,以反映文本的內(nèi)容。這些短語(yǔ)或單詞被稱為指示語(yǔ)言。該指示語(yǔ)言有以下形式:本文討論、本文目的、總結(jié)等。這些指示語(yǔ)言后的句子往往高度總結(jié)了文學(xué)的主題。因此,這些句子很可能被選為摘要的候選句子。
網(wǎng)站seo網(wǎng)頁(yè)描述和內(nèi)容優(yōu)化的要點(diǎn)
不同位置的句子對(duì)文章和段落的主題有不同的貢獻(xiàn)。企億推對(duì)此做了一些研究。我們認(rèn)為,本段第一句成為主題句的概率為85%,本段結(jié)尾句的概率為7%。因此,這些句子很可能成為總結(jié)句。在自動(dòng)摘要的過(guò)程中,這些特殊位置的句子權(quán)重需要提高。
文章中有多種句型,如陳述句、疑問(wèn)句、感嘆句等。然而,陳述句是真正反映文章主題的主要陳述句,這也表明文章的摘要主要由陳述句組成。因此,在選擇總結(jié)句時(shí),應(yīng)盡量提取陳述句,以避免疑問(wèn)句、感嘆句等形式的句子進(jìn)入總結(jié)句。
摘要短小精悍,即用短文總結(jié)文章的主要內(nèi)容。因此,在選擇抽象句時(shí),應(yīng)選擇更簡(jiǎn)潔、更短的句子,而過(guò)長(zhǎng)的句子通常不適合抽象。
隨著網(wǎng)頁(yè)設(shè)計(jì)軟件的發(fā)展,對(duì)機(jī)器閱讀文獻(xiàn)的排版格式也提出了更高的要求。編輯經(jīng)常通過(guò)增加字體大小、改變粗體或特殊字體、下劃線、中間文本、標(biāo)記、增加縮進(jìn)、陰影、邊框、超鏈接等特殊格式來(lái)突出文學(xué)的主題內(nèi)容。應(yīng)考慮這些特殊的格式特征,并適當(dāng)?shù)卦黾又亓俊?/p>
整個(gè)網(wǎng)站優(yōu)化SEO項(xiàng)目占很大比例。外部鏈接只能在內(nèi)部?jī)?yōu)化的基礎(chǔ)上錦上添花。企億推的觀點(diǎn)是:SEO重點(diǎn)是考慮如何在網(wǎng)站上做好工作,滿足搜索引擎的規(guī)則,避免違反搜索算法。