• 朔州检察院新机制助力企业家创业 2020-01-23
  • 日照市今年计划投资158亿 修建幸福公路助发展 2019-12-23
  • 扬子石化举行水上搜救综合演习 2019-12-23
  • 端午假期要来了!收藏这份指南,避开人山人海 2019-12-21
  • 全国楼市政策一览 ——凤凰网房产北京 2019-12-16
  • 主持人资料库――谢娜 2019-12-16
  • 习近平视察北部战区海军并发表重要讲话 2019-12-11
  • 年度创投巅峰盛会:2017年度CEO峰会暨猎云网创投颁奖盛典在京举办 2019-12-11
  • 曾感动过无数人母亲节,陪妈妈一起看场电影吧 2019-12-10
  • 6月14日凤凰直通车:茅台再开市场化招聘大门,32个部门要285人葡萄 种植 2019-12-10
  • 网上支付出现异常如何解决? 2019-11-30
  • 四价流感疫苗获批上市 新增流行毒株 2019-11-30
  • 【大考2018】安徽今年高招计划增加 省外多所高校扩大在皖招生 2019-11-19
  • 专家:干细胞应用前景广阔 有望治愈世纪顽症 2019-11-14
  • 重大疾病贫困患者报销补偿比超90% 2019-11-14
  • 欢迎来到靖江市新超云网络技术服务有限公司官网!
    全国服务热线:18912196888(微信号同步)

    四川麻将血战到底手机版下载 www.uetng.tw 热搜关键词:网站案例,手机网站,网站优化,微信营销

    网站布局之TF-IDF算法

    来源:新超云网络   2018-04-08 11:23:10


    网站布局之TF-IDF算法,说白了在我理解来,这个算法就是通过一个的数学计算,来确定每个词在文章中的权重,从而得到一篇文章的关于词的带权重的向量,知道了这个以后就好办了,之后什么文章关键字提取、概述、不同的文章之前的相似性比较都引刃而解了。


    求一个词的权重就用到TF-IDF算法,其实TF-IDF算法是分为TF(Term Frequency,缩写为TF)与IDF(Inverse Document Frequency,缩写为IDF)的计算。


    说起来也简单,TF就是这个词在文章中的词频,出现的次数比上文章的总次数或者出现次数高的词的个数。而IDF则是表示TF-IDF算法分母上加一是为了防止分母为零。

    TF-IDF

    这个数学的表达式也符合情理,如果关键字(除去“的”、“为了”之类的去除字)在越多的文档中出现,它在本篇文章中的权重自然就低了,举个简单的例子:给你一个关键字计算机,你一点也不知道这货表达的意思,因为(从这个算法角度讲)它在太多的文章中出现,但是如果你的关键字为0day就不一样了,包含它的文档数远远小于包含关键字“计算机”的文档数。由此,如果在同一篇文章里,如果“0day”与“计算机”的TF(词频)相同,IDF就可以保证“0day”的权重较高了。


    基本的算法就是这样了,其实很简单,但是这个算法是基于这样一个前提,关键词越重要,出现的频率越高。同时忽略了词出现位置的影响,所以这个算法存在漏洞。


    标签:

    返回列表

    推荐资讯

    营销型网站 宣传型网站 手机网站 四合一营销型网站
    百度优化 网络营销托管 外贸推广

    苏公网安备 32128202000201号

  • 朔州检察院新机制助力企业家创业 2020-01-23
  • 日照市今年计划投资158亿 修建幸福公路助发展 2019-12-23
  • 扬子石化举行水上搜救综合演习 2019-12-23
  • 端午假期要来了!收藏这份指南,避开人山人海 2019-12-21
  • 全国楼市政策一览 ——凤凰网房产北京 2019-12-16
  • 主持人资料库――谢娜 2019-12-16
  • 习近平视察北部战区海军并发表重要讲话 2019-12-11
  • 年度创投巅峰盛会:2017年度CEO峰会暨猎云网创投颁奖盛典在京举办 2019-12-11
  • 曾感动过无数人母亲节,陪妈妈一起看场电影吧 2019-12-10
  • 6月14日凤凰直通车:茅台再开市场化招聘大门,32个部门要285人葡萄 种植 2019-12-10
  • 网上支付出现异常如何解决? 2019-11-30
  • 四价流感疫苗获批上市 新增流行毒株 2019-11-30
  • 【大考2018】安徽今年高招计划增加 省外多所高校扩大在皖招生 2019-11-19
  • 专家:干细胞应用前景广阔 有望治愈世纪顽症 2019-11-14
  • 重大疾病贫困患者报销补偿比超90% 2019-11-14