设为首页 - 加入收藏
广告 1000x90
您的当前位置:主页 > 网站运营 > 正文

申永SEO:基于TFIDF的SEO系统底层设想

来源:网络分享 编辑:引流技巧 时间:2025-05-29

   最近搞的一套系统里面用到了一套基于TFIDF算法的东西,打算把流程设想一下,整理开发成一套系统化的工具。

 

  首先要使用TFIDF得明白它需要的几个东西

 

  1是要处理的文章,得分词之后,2是核心计算。

 

  尝试了10万个简单的文章处理之后,发觉这块并不是想像中的那么简单。

 

  光是计算TFIDF这块,就把8个G的内存全部占满了。

 

  目前想到的方案大概是:

 

  1、使用盘古分词,清理标点符号做为停用词进行过滤,生成切词之后的结果。

 

  必要时可以加一些自定义词库到词库中备用,外开二元分词功能保证结果的准确性。

 

  越大量的文章越要使用多线程进行处理。这块还要研究一下。

 

  2、使用TFIDF进行词频计算,传入分词之后的文章,计算所有词,所在词在某个文章中的TF和IDF。越大量的数据越难以处理。

(本文"申永SEO:基于TFIDF的SEO系统底层设想"的责任编辑:雪豹)

相关推荐:

栏目分类

微商引流技巧网 www.yinliujiqiao.com 联系QQ:1716014443 邮箱:1716014443@qq.com

Copyright © 2019-2024 强大传媒 吉ICP备19000289号-9 网站地图 rss地图

Top