文本相似度算法-APISpace

文本相似度算法

#! /usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2021/11/12 15:44"""我们再写一遍这个算法；"""from icecream import icimport jiebaimport jieba.analysefrom gensim import corporafrom gensim import modelsfrom gensim import similaritiesfrom collections import defaultdictdef similarity_fun(doc_list): # 1.首先我们需要对其进行分词，二维列表放词语 texts = [list(jieba.cut(i)) for i in doc_list] ic(texts) # 2.接下来要对词语进行标号 dictionary = corpora.Dictionary(texts) ic(dictionary.token2id) #这个只是让你看一下，待会调用的是封装的他 # 3.标号以后，要将其转化为数字 corpus = [dictionary.doc2bow(text) for text in texts] ic(corpus) # 4.创建模型 tfidf = models.TfidfModel(corpus) ic(tfidf) # 5.将整个语料库转化为tfidf表示方法 corpus_tfidf = tfidf[corpus] ic(corpus_tfidf) # 6.创建相似度索引 index = similarities.MatrixSimilarity(corpus_tfidf) ic(index) # 7.计算单个词语的相似度 words_sims = [tfidf[obj] for obj in corpus] ic(words_sims) # 8.计算句子之间的相似度 texts_sims = [index[obj] for obj in words_sims] ic(texts_sims)if __name__ == "__main__": doc_list = [ "楚枫不是楚枫", "楚枫是人" ] doc_list = [ "楚枫有五颗仙灵草", "楚月没有仙灵草", "楚枫喜欢楚月" ] similarity_fun(doc_list=doc_list)

View Code

-----------------------------------------------------------------------------------------------------------------------------------------

c语言sscanf函数的用法是什么

250 2022-11-17

文本相似度算法

c语言sscanf函数的用法是什么

r语言清空数组的方法是什么

c语言一维数组怎么快速排列

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）