• 淺談搜索引擎的網頁文檔結構化_SEO交流_SEO前線
    發現更大的SEO世界
     找回密碼
     注冊
    搜索
    »首頁»SEO培訓 SEO論壇 SEO交流 帖子
    发新帖
    AIR_seoqx,希望在SEO前線的樂土中,真正享受SEO的滋潤。    

    淺談搜索引擎的網頁文檔結構化

            对于搜索引擎的学习,是SEO人员必须要突破的知识点之一。对于这些知识的学习,就类似于我们学习物理基础知识一样。通过牛顿的力学定律理论,我们可以发导弹和火箭发射升空,甚至到达太空,当然通过这个举列来说明原理性的知识是最重要的。只有掌握了根本的技术理论,从常识出发再结合实践操作,统计常规数据。从而进一步总结出自己的SEO体系化知识!在SEO前线论坛创始人zero的倡导下:结合自己理解的搜索原理,总结出自己认为比较重要的知识点,所以构思了这一篇帖子。

            为了不断章取义,首先要对几个常见的术语加以或者重写认识和理解。
            1、半結構化數據
            互联网上的数据,一般都是以网页为载体表现,那万维网的网页是具有一定的结构性,这种结构性的表现是基于html标记语言。这种网页原始数据被称为“半结构化数据”。

            2、網頁數據的信息抽取
            对于半结构化的数据,是不能满足网页结构化的需要。那首要的工作是分门别类的从半结构化网页中抽取出有价值的能够代表网页的属性。锚文本,标题,正文标题,正文,正向鏈接。这样技术实现被称为“网页数据的信息抽取”。

            3、錨文本
            或许看到这里的时候,会有人抱怨,这个你也需要解释。这都是一下最基础的知识!我会选择沉默,但请你看完之后在下定论。网页中关于鏈接的一段描述,通常以文本圖片的方式出現。以鏈接的方式可以指向文中的某個位置,也可以指向其他網頁。或許這樣的認識,對于你在其他地方看到的理解有些不同吧。細心的人,總是能超越別人很多的。
          
           通过以上几个术语的学习,我们要开始进入搜索引擎结构化数据的大门,从而通过这些基础理论知识指导我们如何做好网页文档。网页抽取信息中,提到了几个重要的因素,下面先从这里开始谈起:
            1.標題:title包含了網頁的基本含義,和錨文本相同的是,都是用來描述網頁的內容的屬性。
            2.正文標題:在html網頁中,<title>標簽中的文字沒有任何描述能力,因而並不是合格的標題,爲此需要抽取正文中的適當文字作爲正文標題。
            3.錨文本:除了網頁標題可以描述網頁以外,還會有一些錨文本來描述它,特別是對于某些沒有標題的網頁,錨文本是最有益的補充。
            4.正文:錨文本、標題和正文標題都是網頁的簡短描述,而正文是一個網頁的主題內容,它完整的表述了網頁的主題內容,一般出現在<DIV>、<table>、<p>等。
              5.正向鏈接:正向鏈接是引导用戶继续在网上冲浪的鏈接,这些鏈接的文字也是其他网页的锚文本。一个网页至少包含这5个属性。
            我相信,通过这里的学习,大家已经对网页文档的构建和理解,都会有所新的认识。之前的那种为什么标题是重要权重标签,为什么锚文本重要呢,为什么锚文本不只是文字形式展现,为什么鏈接对SEO比较重要等等一些为什么,大家都会有些认识和理解。这就是你掌握了原理性的知识,才会知道这些作用后会有什么样的SEO效果。接下来我们就谈谈搜索引擎做好信息抽取这一步之后,所要面临的结构化过程和如何实现!

          搜索引擎的網頁文檔結構化
            搜索引擎的网页结构化的过程一般可以理解为两步走:第一建立HTML標簽樹,第二通過投票方法識別正文的文本塊,並按照深度優先遍曆的規則組織爲正文。

            首先我们来看一下建立HTML標簽樹是怎么实现
                  由于HTML标签有一定的嵌套关系,因此通过一定的技术手段整理一个网页的所有html标签,就会得到的是树状结构。这就是建立HTML標簽樹。
            
            再看第二通过投票方法识别正文的文本
            通过建立标签书的实现,正文就具有了分块保存的特性,因此引入文本块的概念。一般来说网页会出现3种类型的文本块。
           (1)主题型文本块
            是指大段文字的文本块,例如<p></p>,<td><td/>等
           (2)目录型文本块
            是指描述鏈接的文本块,例如<a href=""> <a/>
           (3)圖片型文本块
            是描述圖片的文本块,例如<img src=""/> 目录型文本块和圖片型文本块容易识别。
            如何判读那个文本块是正文,常规的采用手法是"投票算法"计算,这种方法在搜索引擎中特别重要。在这个投票算法中,(重点:除掉一个最高分和最低分)别人为是相对客观和可信的。通过一些规则为每一个文本块打分,得分最高的别人为是正文的可能性足够大,并且可以接受。投票实际规则比较复杂!搜索引擎一般定义为【文本的长度】和【文本的位置】右侧为0分,顶部为3分,左侧为5分,中间为10分。
           剩下的工作就是采用深度優先遍曆標簽樹依次記錄主題類型的文本塊,即可得到該網頁的正文。
          恭喜你,能看完这篇帖子,我相信认真阅读的人,都会有所收获,或许是好的,也有可能是“坏的”?对于认真的学习的人,一定会在今后的网页构建中有新的认识。也至于不被有些“网上的大神所忽悠”,基于这样的常识,你一定会有不同的SEO思维。如果各位还想继续学习这方面的知识, 鄙人觉得可以看看“鏈接分析”和“中文分词”的一些相关知识。
             

    評分

    參與人數 3贊同 +16 收起 理由
    ZERO + 8
    c0901yuan + 4
    panda + 4 這篇文章連續看了三遍,略有所得啊.

    查看全部評分

    发表于 2014-6-29 23:58:55
    回複 收藏
    panda,只能給贊不能獲得贊的進步者    

    建議樓主可以在文中添加點seo的操作點。這樣更有利于像我這樣的新手來理解。
    发表于 2014-6-30 08:44:12
    回複 收藏
    fengchao,專業泡妞,兼職碼農    

    這個好像是《走進搜索引擎》裏面的文章吧?
    发表于 2014-6-30 09:14:03
    回複 收藏
    AIR_seoqx,希望在SEO前線的樂土中,真正享受SEO的滋潤。    

    fengchao 发表于 2014-6-30 09:14
    這個好像是《走進搜索引擎》裏面的文章吧?

    我覺得完全沒有必要糾結內容的出處,一本書或許大家都看過,但有些人也未必沒有看過。這就是需求覆蓋的問題。有些人去看這樣的書籍,未必能夠完全看懂。把自己看過的內容,深刻的理解之後和加上自己的思想成分加以總結,並分享出來,就是一種論壇分享的精神。
     樓主佳哥seo 发表于 2014-6-30 10:16:12
    回複 收藏
    ZERO,SEO執著愛好者    

    感謝第一個分享,但希望更多的將內容結合到SEO上。

    我補充一個我想到的點:

    搜索引擎的正文識別方法,主要通過周圍及內部html標簽判斷等方式,抽取大段的文字作爲正文,但相對而言並不很依賴于文字主題,可能是因爲計算起來比較耗時。

    這樣帶來的一個問題是,諸如電商網站不少有大段的文字爲物流相關說明,這些內容和商品無關,但搜索引擎有時也會當它是正文。一個頁面上,內容越多,核心內容的權重也自是趨向于和其它內容均分權重的(不然內容多權重高,只要給網頁上塞內容就能無限提升排名了),這時物流說明之類的不相關內容就影響有人會搜索的商品信息的權重。

    一个解决方法是,将物流说明等不相关内容圖片化,因为搜索引擎不识别圖片上的文字。

    評分

    參與人數 1贊同 +4 收起 理由
    思明 + 4 圖片化处理有启发

    查看全部評分

    发表于 2014-6-30 10:33:59
    回複 收藏
    笑大蟲威武,努力前行的屌絲男。。    

    在百度文庫裏面有一篇文章知識圖譜的技術原理,其中提到語義化標簽的使用,這是否也屬于結構化數據所必須的標簽呢?
    发表于 2014-6-30 20:21:37
    回複 收藏
    快速回複 返回頂部 返回列表