青青子衿, 悠悠我心, 但为君故, 沉吟至今
« CentOS操作系统安装教程搜搜尚未成功,腾讯仍须努力 »

网站文章内链的一个思路

  内链:顾名思意就是在自己网站的内容中的相关文字加入链接,并且链接到网站内部的相关页面。合理的网站内空链接构造,能提高搜索引擎的收录与网站权重。相对外部链接,内部链接也很重要。

  传统方式

  以前我们做文章系统或新闻发布系统的时候,做文章内链(标签)的时候,通常是通过以下方式来实现的:

  数据库:article(文章表)字段(id, title, body, adddate, userid),keyword(内链表)字段(id, name, link)

  在发布文章的时候,循环内链表内的所有,来替换文章的body。

  这样确实是实现了想要的功能,但是如果我们的内链表的数据达到很大的数目,比如2W、5W或更多的时候。每发布和修改一片文章的效率是可想而知的。那么网易的新闻、百度的百科等这样打大型网站是如何实现的呢?如果按照以上的做法,那系统在几个月后就直接崩溃了。

  分析比较

  一篇正常的文章会有多少字(不计HTML代码)?1W?我想1W的文章已经算是很长的了,而且想在如果直接在一个页面显示1W的文章相信没有几个人有耐心能看完的。为了页面美观和用户体验,编辑通常都是将内容过多、篇幅超长内容的文章分段处理(分为几篇文章,或分章节)。如果我们能事先将可能出现内链的字从文章中提取出来,再从数据库里检索,这样效率是不是就可以得到很大的提高?答案是肯定的。我们就拿1W字的文章来说,假设文章的所有文字都需要内链,循环的次数是1W次。比上面的例子假设要强得多吧?

  在传统方式中,不管你要不要,把内链表的东西全查一边。而下面这种思路是事先将有可能出现内链的字词全部整理出来,再用这些词分别去检索内链表。这样一比较问题就出来了。

  新思路就是:从文章中取出需要内链的字词,然后去查询内链表。

  可行操作

  我们暂且把传统方式称为被动方式,把新思路的方法称为主动方式。

  主动方式的实现方法如下。

  利用中文分词技术,我们可以对一篇文章进行分词。然后根据分词后的词表,过滤掉常用的物主代词、副词、感叹词等。把名词、品牌、地名、商标等留下,或者根据自己的词库表来分词。然后把剩余的字词去检索内链表,如果有存在,我们就坐上链接,不存在就PASS。

  以上只是思路的一个初步构思,在实际实现过程中需要考虑的因素很多。我觉得重点就在分词这个环节。

  来源:读者沈力投稿



  除非注明,月光博客文章均为原创,转载请以链接形式标明本文地址

  本文地址:http://www.williamlong.info/archives/1913.html
  • 文章排行:
  • 1.crownboy
  • 好象是小布丁,刚把人的胃口吊起来,就没啦,写比较长一点的,让人大嚼一番,岂不快哉.
  • 2009/9/2 23:13:43   支持(21)反对(8) 回复
  • 4.zoff
  • 今天Gmail无法登录,请大家测试!深圳
    TT 于 2009-9-3 12:22:29 回复
    广州ok!
  • 2009/9/3 12:04:25   支持(17)反对(6) 回复
  • 5.test
  • 以前研究过中文分词
    分出来的 大多是 频率高的无用的词组
    比如楼上的评论 大概是
    学习 努力 坚持 胜利

    这样的结果有啥意义啊。(针对一些大众化中文分词)
    在一些专业性比较强的web应用,需要专门的词库,去掉那些 常见名称组合,但是中文分词的匹配规则复杂度有多高啊

    但是我坚信慢慢的中文分词会逐渐完善。
  • 2010/5/6 22:02:41   支持(25)反对(16) 回复
  • 6.810645338
  • 能详细的说明下 我不是很明白你说的什么意思
  • 2011/5/5 17:59:46   支持(16)反对(7) 回复
  • 7.园子
  • 对于大型门户站可以这样考虑
    一般小型博客通过插件就绰绰有余了~
  • 2009/9/3 9:09:18   支持(15)反对(7) 回复
  • 8.在家创业做什么好
  • 网站设计的很不错。很符合seo!
  • 2010/10/24 21:58:28   支持(18)反对(10) 回复
  • 9.erayjiang
  • 分词啥的,这不就是搜索引擎该干的活么~那就让搜索引擎干好了。
  • 2009/9/3 16:47:53   支持(22)反对(16) 回复
  • 10.twofun
  • 很好,如果能图文讲解就更好了。
  • 2010/4/18 18:53:58   支持(13)反对(7) 回复
  • 11.关注Java
  • 好办法。以后要多加加内连接。
  • 2010/5/14 15:19:40   支持(11)反对(5) 回复
  • 12.娃娃
  • 这个的看看我 月光一直很里哈啊
  • 2011/8/9 19:18:30   支持(16)反对(10) 回复
  • 14.Young
  • 这个不好操作吧。我通常是通过 Google 关键字工具和 Google 分析,看自己博客上的哪些关键字比较受欢迎,然后有意识地在新文章中使用那些关键字并且链接到旧文章。
  • 2009/9/3 0:06:42   支持(14)反对(9) 回复
  • 15.悟空养德
  • 月光,沈力的链接打不开
    williamlong 于 2009-9-3 8:50:50 回复
    已经修正该问题。
  • 2009/9/3 8:37:29   支持(13)反对(8) 回复
  • 16.39md
  • 分词,这个问题太大了.我还是循环查询吧.
  • 2009/9/3 17:20:37   支持(19)反对(14) 回复
  • 21.znzblog
  • 这样效果不错 我就是这样优化自己博客的
  • 2009/9/3 17:44:39   支持(10)反对(8) 回复
  • 22.蓝天下的风
  • 学习,学习。
    我就几乎没做过内链
  • 2010/6/18 14:52:58   支持(12)反对(10) 回复
  • 23.不错写的很好
  • 不错很好,在详细点就更好了
  • 2011/5/7 13:53:59   支持(9)反对(7) 回复
  • 24.海贼王
  • 很多人一般是靠简单的插件完成,不会花太多的功夫去做,当然,如果是写博文的话可以多花点时间
  • 2009/9/3 19:39:00   支持(11)反对(11) 回复
  • 25.Eeffee
  • 值得借鉴,不知用cms怎么做得到
  • 2009/9/27 1:16:20   支持(7)反对(7) 回复
  • 26.lao910
  • 如果是个人文章,我想还没有手工方便。每天个人写的文章也不会太多,几篇吧?这样的网站,完全可以手工操作。
    也许这就是最优化
  • 2010/1/14 20:37:27   支持(9)反对(9) 回复
  • 28.开始奔波生活
  • 学习了下,努力吧 坚持就是胜利
  • 2010/4/29 11:00:26   支持(14)反对(16) 回复
  • 30.宛川骄子
  • 正好,与我的论文方向有点相近,对我有帮助,谢谢,希望继续写下去.
  • 2009/9/2 23:06:58   支持(5)反对(10) 回复
  • 31.仲和
  • 简而言之,就是每篇文章的关键字都抽取出来做备用数据资料,而不需要全部全文搜索。。

    这是理所当然的啊。
  • 2009/9/3 9:59:06   支持(9)反对(14) 回复
  • 36.简哲
  • 装了一个WP Keyword Link的插件,要手动编写内链和外链,希望将来能智能化。
  • 2009/9/8 0:27:59   支持(8)反对(15) 回复
  • 37.吉光片羽
  • 为了不被速度拖后腿,我还是依然选择手动添加内链,虽然这样很麻烦,但也只是麻烦了我一个人,而不是服务器以及用户,值得。
  • 2009/9/11 22:42:13   支持(13)反对(20) 回复
  • 38.蓝色天空
  • 全flash的网站估计就不行了吧?
  • 2009/9/24 18:06:48   支持(18)反对(26) 回复
  • 39.onelove
  • 其实有一个更好的办法 是按照文章中出现的图片做分类。
  • 2009/9/6 1:11:57   支持(7)反对(16) 回复
  • 40.百慧博客
  • 现在投稿的人越来越多,看来我也要来几篇,呵呵~~~
  • 2009/9/3 15:26:42   支持(4)反对(16) 回复
  • 42.蛋王
  • 想法不错。但是不知道分词能分到什么程度,如果还是分出来一大堆词返回去检索,量也很大吧。。
    shen.li 于 2009-9-3 11:26:25 回复
    除去不需要的词,可以从词性开始考虑,这样就不会返回太多无意义的分词。
    比如:你、我、他,的,得,地
    这些都是不用考虑的,直接去除。
  • 2009/9/3 9:28:28   支持(6)反对(25) 回复

发表评论:

 请勿发送垃圾信息、广告、推广信息或链接,这样的信息将会被直接删除。

订阅博客

  • 订阅我的博客:订阅我的博客
  • 关注新浪微博:关注新浪微博
  • 关注腾讯微博:关注腾讯微博
  • 关注认证空间:关注QQ空间
  • 通过电子邮件订阅
  • 通过QQ邮件订阅

站内搜索

热文排行


月度排行

本站采用创作共用版权协议, 要求署名、非商业用途和相同方式共享. 转载本站内容必须也遵循“署名-非商业用途-相同方式共享”的创作共用协议.
This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License.