自然语言处理(Hanlp)-APISpace

自然语言处理(Hanlp)

实例demo类	功能	实例用到的语料	具体使用方向
DemoAtFirstSight	开启调试模式(会降低性能)		模型分词调试
DemoBasicTokenizer	演示基础分词，基础分词只进行基本NGram分词，不识别命名实体，不使用用户词典
DemoChineseNameRecognition	中国人名识别(默认开启人名识别)
DemoCRFLexicalAnalyzer	CRF词法分析器自1.6.6版起模型格式不兼容旧版：CRF模型为对数线性模型,通过复用结构化感知机的维特比解码算法，效率提高10倍。(分词效果与模型(model)相关)
DemoCustomDictionary	演示用户词典的动态增删(动态增加、强行插入) 【词词性词频】 *建议同一词性放在一个文件
DemoCustomNature	演示自定义词性,以及往词典中插入自定义词性的词语（自定义词性可在分词生效，还可插入用户自定义词典）例：词性苹果电脑
DemoDependencyParser	依存句法分析（神经网络句法模型）准确性依赖模型分析句子结构（例：主谓宾）		可用于缩句、提取出一个句子的最简单机构即可（主谓宾）
DemoEvaluateCWS	演示如何正确规范地评测中文分词的准确率： 1、公平公正。训练模块、分词模块、语料库、评测程序全部开源。 2、禁止使用语料库之外的词典及其等价物（词向量等）。 3、试验结果可复现，可通过其他评分脚本校验。	icwb2-data（中文分词语料）
DemoHighSpeedSegment	演示极速分词，基于DoubleArrayTrie实现的词典正向最长分词，适用于“高吞吐量”“精度一般”的场合
DemoIndexSegment	索引分词
DemoJapaneseNameRecognition	日本人名识别（需要开启）
DemoKeyword	关键词提取（源码用到的是viterbi【维特比】分词器） StandardTokenizer
DemoMultithreadingSegment	演示多线程并行分词由于HanLP的任何分词器都是线程安全的，所以用户只需调用一个配置接口就可以启用任何分词器的并行化
DemoNewWordDiscover	词语提取、新词发现	红楼梦.txt
DemoNLPSegment	NLP分词，更精准的中文分词、词性标注与命名实体识别。语料库规模决定实际效果，面向生产环境的语料库应当在千万字量级。欢迎用户在自己的语料上训练新模型以适应新领域、识别新的命名实体。（感知分词器）使用model
DemoNormalization	演示正规化字符配置项的效果（繁体->简体，全角->半角，大写->小写）。该配置项位于hanlp.properties中，通过Normalization=true来开启切换配置后必须删除CustomDictionary.txt.bin缓存，否则只影响动态插入的新词，用到的分词器是:perceptron
DemoNotionalTokenizer	演示自动去除停用词、自动断句的分词器使用分词器:Viterbi 【维特比】
DemoNShortSegment	N最短路径分词，该分词器比最短路分词器慢，但是效果稍微好一些，对命名实体识别能力更强
DemoNumberAndQuantifierRecognition	演示数词和数量词识别用到的分词器是:Viterbi 需要启动
DemoOccurrence	演示词共现统计使用分词器:Viterbi
DemoOrganizationRecognition	机构名识别使用分词器:Viterbi 需要开启
DemoPerceptronLexicalAnalyzer	基于感知机序列标注的词法分析器，可选多个模型。 large训练自一亿字的大型综合语料库，是已知范围内全世界最大的中文分词语料库。 pku199801训练自个人修订版1998人民日报语料1月份，仅有183万字。语料库规模决定实际效果，面向生产环境的语料库应当在千万字量级。欢迎用户在自己的语料上训练新模型以适应新领域、识别新的命名实体。无论在何种语料上训练，都完全支持简繁全半角和大小写。	默认下载model（基于人民日报训练的模型仅有183万字）推荐自己训练，不建议使用98年这中陈旧的语料库,支持在线学习
DemoPhraseExtractor	短语提取使用分词器:Viterbi NotionalTokenizer
DemoPinyin	汉字转拼音
DemoPinyinToChinese	拼音转汉字
DemoPipeline	演示流水线模式，几个概念： * - pipe：流水线的一节管道，执行统计分词或规则逻辑 * - flow：管道的数据流，在同名方法中执行本节管道的业务 * - pipeline：流水线，由至少一节管道（统计分词管道）构成，可自由调整管道的拼装方式		使用正则表达式识别网址，邮箱等
DemoPlaceRecognition	地名识别使用分词器:Viterbi
DemoPosTagging	词性标注
DemoRewriteText	这个方法可以利用同义词词典将一段文本改写成意思相似的另一段文本，而且差不多符合语法使用分词器:Viterbi
DemoSegment	标准分词 Viterbi
DemoSentimentAnalysis	演示文本分类最基本的调用方式（是好是坏）	ChnSentiCorp情感分析酒店评论
DemoStopWord	演示如何去除停用词通过api可操作停用词
DemoSuggester	文本推荐(句子级别，从一系列句子中挑出与输入句子最相似的那一个) 使用分词器:Viterbi		可用于推荐某一类文章
DemoSummary	自动摘要使用分词器:Viterbi
DemoTextClassification	演示文本分类最基本的调用方式（属于哪一种类型例如：军事）	搜狗文本分类语料库迷你版
DemoTextClassificationFMeasure	演示了分割训练集和测试集,进行更严谨的测试	搜狗文本分类语料库
DemoTextClustering	文本聚类使用分词器:Viterbi		用把人分类（物一群分人以类聚）
DemoTextClusteringFMeasure	文件聚类
DemoTokenizerConfig	演示动态设置预置分词器，这里的设置是全局的使用分词器:Viterbi
DemoTraditionalChinese2SimplifiedChinese	将简繁转换做到极致
DemoTraditionalChineseSegment	繁体中文分词
DemoTranslatedNameRecognition	音译人名识别
DemoURLRecognition	演示URL识别
DemoUseAhoCorasickDoubleArrayTrieSegment	基于AhoCorasickDoubleArrayTrie的分词器，该分词器允许用户跳过核心词典，直接使用自己的词典。需要注意的是，自己的词典必须遵守HanLP词典格式。
DemoWord2Vec	演示词向量的训练与应用	搜狗文本分类语料库已分词.txt
DemoWordDistance	语义距离

Hanlp
CRFPOSTaggerTest	模型训练 style="min-width:auto;white-space:normal;margin:4px 8px;border:1px solid rgb(217,217,217);padding:4px 8px;vertical-align:top;">
中文分词训练	java -cp hanlp.jar com.hankcs.hanlp.model.perceptron.Main -task CWS -train -reference data/test/pku98/199801.txt -model data/test/perceptron/cws.bin
词性标注训练	java -cp hanlp.jar com.hankcs.hanlp.model.perceptron.Main -task POS -train -reference data/test/pku98/199801.txt -model data/test/perceptron/pos.bin
命名实体识别训练	java -cp hanlp.jar com.hankcs.hanlp.model.perceptron.Main -task NER -train -reference data/test/pku98/199801.txt -model data/test/perceptron/ner.bin
	style="min-width:auto;white-space:normal;margin:4px 8px;border:1px solid rgb(217,217,217);padding:4px 8px;vertical-align:top;">
	style="min-width:auto;white-space:normal;margin:4px 8px;border:1px solid rgb(217,217,217);padding:4px 8px;vertical-align:top;"> 视频网用户名:yufei 密码:yufei950129
	crf模型:
	CRFSegmenterTest	CRF分词模型 cws
	CRFPOSTaggerTest	CRF词性标注模型 pos
	CRFNERecognizer	CRF命名实体识别模型

c语言sscanf函数的用法是什么

341 2022-11-22

自然语言处理(Hanlp)

c语言sscanf函数的用法是什么

linux怎么查看本机内存大小

linux cpu占用率如何看

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）