首页 电商 正文

SEO算法技术实现过程:文本相似度-bm25算法原理及实现

2024-03-21 17:49
admin

前面提到过TF-IDF算法(TF-IDF算法原理及公式)与之更进一步算法BM25相关度也是处理关键词相关性中重要的算法其中。

那么TF和IDF谁更重要呢,怎么计算最终的相关性得分呢?那就是BM25。

BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。

本文整理了多篇有关BM25相关度算法原理形成本文供各位SEOer阅读,内容比较深度也非常的装逼,反正无忧是看不懂。有兴趣的站长可以查看研究一下。

原理

BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。

BM25算法的一般性公式如下:

其中,Q表示Query,qi表示Q解析之后的一个语素(对中文而言,我们可以把对Query的分词作为语素分析,每个词看成语素qi。);d表示一个搜索结果文档;Wi表示语素qi的权重;R(qi,d)表示语素qi与文档d的相关性得分。

下面我们来看如何定义Wi。判断一个词与一个文档的相关性的权重,方法有多种,较常用的是IDF。这里以IDF为例,公式如下:

其中,N为索引中的全部文档数,n(qi)为包含了qi的文档数。

根据IDF的定义可以看出,对于给定的文档集合,包含了qi的文档数越多,qi的权重则越低。也就是说,当很多文档都包含了qi时,qi的区分度就不高,因此使用qi来判断相关性时的重要度就较低。

我们再来看语素qi与文档d的相关性得分R(qi,d)。首先来看BM25中相关性得分的一般形式:

其中,k1,k2,b为调节因子,通常根据经验设置,一般k1=2,b=0.75;fi为qi在d中的出现频率,qfi为qi在Query中的出现频率。dl为文档d的长度,avgdl为所有文档的平均长度。由于绝大部分情况下,qi在Query中只会出现一次,即qfi=1,因此公式可以简化为:

从K的定义中可以看到,参数b的作用是调整文档长度对相关性影响的大小。b越大,文档长度的对相关性得分的影响越大,反之越小。而文档的相对长度越长,K值将越大,则相关性得分会越小。这可以理解为,当文档较长时,包含qi的机会越大,因此,同等fi的情况下,长文档与qi的相关性应该比短文档与qi的相关性弱。

综上,BM25算法的相关性得分公式可总结为:

从BM25的公式可以看到,通过使用不同的语素分析方法、语素权重判定方法,以及语素与文档的相关性判定方法,我们可以衍生出不同的搜索相关性得分计算方法,这就为我们设计算法提供了较大的灵活性。

(相关知识参考:https://www.jianshu.com/p/1e498888f505)

BM25相关度打分公式

BM25算法是一种常见用来做相关度打分的公式,思路比较简单,主要就是计算一个query里面所有词和文档的相关度,然后在把分数做累加操作,而每个词的相关度分数主要还是受到tf/idf的影响。公式如下:

R(qi,d)是每个词和文档的相关度值,其中qi代表每个词,d代表相关的文档,Wi是这个词的权重,然后所有词的乘积再做累加。

自然语言处理-BM25相关度打分

BM25(BestMatch25)是在信息检索系统中根据提出的query对document进行评分的算法。Itisbasedontheprobabilisticretrievalframeworkdevelopedinthe1970sand1980sbyStephenE.Robertson,KarenSpärckJones,andothers.BM25算法首先由OKapi系统实现,所以又称为OKapiBM25。

BM25属于bag-of-words模型,bag-of-words模型只考虑document中词频,不考虑句子结构或者语法关系之类,把document当做装words的袋子,具体袋子里面可以是杂乱无章的。Itisnotasinglefunction,butactuallyawholefamilyofscoringfunctions,withslightlydifferentcomponentsandparameters.Oneofthemostprominentinstantiationsofthefunctionisasfollows.

相关性

对每一个搜索查询,我们很容易给每个文档定义一个“相关分数”。当用户进行搜索时,我们可以使用相关分数进行排序而不是使用文档出现时间来进行排序。这样,最相关的文档将排在第一个,无论它是多久之前创建的(当然,有的时候和文档的创建时间也是有关的)。

有很多很多种计算文字之间相关性的方法,但是我们要从最简单的、基于统计的方法说起。这种方法不需要理解语言本身,而是通过统计词语的使用、匹配和基于文档中特有词的普及率的权重等情况来决定“相关分数”。

这个算法不关心词语是名词还是动词,也不关心词语的意义。它唯一关心的是哪些是常用词,那些是稀有词。如果一个搜索语句中包括常用词和稀有词,你最好让包含稀有词的文档的评分高一些,同时降低常用词的权重。

这个算法被称为OkapiBM25。它包含两个基本概念词语频率(termfrequency)简称词频(“TF”)和文档频率倒数(inversedocumentfrequency)简写为(“IDF”).把它们放到一起,被称为“TF-IDF”,这是一种统计学测度,用来表示一个词语(term)在文档中有多重要。

TF-IDF

词语频率(TermFrequency),简称“TF”,是一个很简单的度量标准:一个特定的词语在文档出现的次数。你可以把这个值除以该文档中词语的总数,得到一个分数。例如文档中有100个词,‘the’这个词出现了8次,那么‘the’的TF为8或8/100或8%(取决于你想怎么表示它)。

逆向文件频率(InverseDocumentFrequency),简称“IDF”,要复杂一些:一个词越稀有,这个值越高。它由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。越是稀有的词,越会产生高的“IDF”。

如果你将这两个数字乘到一起(TF*IDF),你将会得到一个词语在文档中的权重。“权重”的定义是:这个词有多稀有并且在文档中出现的多么频繁?

你可以将这个概念用于文档的搜索查询。在查询中的对于查询中的每个关键字,计算他们的TF-IDF分数,并把它们相加。得分最高的就是与查询语句最符合的文档。

相关文章

  • 拼多多<文档下载> 海淘商品logo模板

    拼多多<文档下载> 海淘商品logo模板 请见下方文档下载

    2024-03-18 10:48
  • 拼多多 <文档下载> 驳回原因案例指引

    拼多多 <文档下载> 驳回原因案例指引 在下方附件处,点击下载文档《驳回原因案例指引》

    2024-03-18 10:48
  • 拼多多<文档下载> 商品图片修改PS指引

    拼多多<文档下载>  商品图片修改PS指引 在下方附件处,点击下载文档《商品图片修改PS指引》

    2024-03-18 10:48
  • 疫情中,那些来自民间的“谣言终结者”

    疫情中,那些来自民间的“谣言终结者” 特别是正月初一到初六,她几乎每天都睡不到五个小时——凌晨三、四点入睡,早上八点就在焦虑中醒来。,2月8日,元宵节当天,X-lab正式发布了“wuhan2020新型冠状病毒防疫信息收集平台社区版”,这也是所有团队贡献的综合体现。,这一天,她周转在MP编辑、Simo、wuhan2020、E起支援等多个志愿团队之中,整合现有信息,为后续的平台开发铺路。

    2024-03-22 08:45
  • 钉钉5.0上线在线办公室 推文档空间、项目等协作套件

    钉钉5.0上线在线办公室 推文档空间、项目等协作套件 现在用文档空间实现知识管理与共享,结构化管理文档,精细化权限管控,一份资料万人共享,并聚合各渠道内容,帮助公司将碎片化知识,沉淀成数字化资产。,贾伟说,“客户、项目经理、质量负责人、设计师透明化参与项目,所有成果和过程数据沉淀在云上,这是项目管理的创新之举。,软硬一体数字化办公空间将高效协作基于“智能软硬一体”的特点,钉钉数字化办公空间让高效协作得到进一步延展。

    2024-03-22 08:39
  • 微软意外确认下一代Windows:模块化/跨平台体验一致

    微软意外确认下一代Windows:模块化/跨平台体验一致 本文来自快科技继现身Geekbench后,WindowsCoreOS(WCOS)甚至出现在了微软官方支持文档中。,令人玩味的是,该文档很快被修改,删除了“WCOS”和未来设备等内容。,尽管Windows10X主推UWP、PWA程序,对Win32应用程序需要借助容器/沙盒实现,但这将自然地提高性能和安全性。

    2024-03-22 08:24
  • 开学在即金山文档功能再升级,收集信息支持手写签名

    开学在即金山文档功能再升级,收集信息支持手写签名 金山表单提供的快速收集信息服务,通过微信小程序就可以直接使用。,对于填入信息,还会智能判别是否符合特定格式,有效避免误填、少填的状况。,金山文档已经全面开通了社交平台的官方账号,在任何一个平台都可以找到金山文档官方,进行的问题和反馈,都可以第一时间得到反馈。

    2024-03-22 07:09
  • 李佳琦双十一攻略文档链接在哪里?怎么找?

    李佳琦双十一攻略文档链接在哪里?怎么找? 大家只需要进入文档点击想知道的内容,就可以跳转到相关页面查询。,3、关于本次直播间红包口令领取的方式:于10.20日晚8点开抢,打开官方app点淘,在搜索框里输入口令“20号晚8点开抢”,以领取过的用户不可以重复领。,4、如何找到李佳琦直播间?1.点淘app或手淘搜索【李佳琦】2.复制淘口令打开淘宝以上就是本次双十一攻略链接的详细内容,其次,从李佳琦团队奉上双十一攻略文档,可以看出团队真是花了很多

    2024-03-22 07:08
  • 新发布 新升级 百度语言与知识新品推进产业智能化

    新发布 新升级 百度语言与知识新品推进产业智能化 去年,百度可持续学习的知识增强语义理解框架ERNIE一经推出便全面刷新各项NLP任务效果,文心正是在其基础上延展而生。,吴甜表示,智能策划可高效汇聚全网主流媒体资讯,通过海量数据关联分析,以及实时监测和专题挖掘,帮助媒体人丰富选题思路,提升创作效率;智能采编基于百度领先的AI技术,助力多元媒体内容素材的理解、检索、推荐,也整合了视频生产的多项能力,让媒体创作更高效省事;智能审校集合纠错、一致性检查

    2024-03-21 22:16
  • 金山办公开发者大会:发布信创新成果“WPS在线预览”

    金山办公开发者大会:发布信创新成果“WPS在线预览” 金山办公在此次大会上重点推出了“WPS在线预览”产品,受到众多合作伙伴一致好评。,能够达到和PC端的WPSOffice同样的视觉效果,并且可以一键快速筛选出目标结果。,因此,党政机关用户时常会遇到传统电子文档与纸质公文存在排版差异,进而影响了工作效果。

    2024-03-21 22:08