两个跟中文相关的资源工具介绍

网友投稿 187 2022-11-10

两个跟中文相关的资源工具介绍

汉字转拼音工具

▌功能

将中文字符转换为拼音。可用于汉字注音、排序、检索任务。

▌特性

根据词组智能匹配最正确的拼音。

支持多音字。

简单的繁体支持, 注音支持。

支持多种不同拼音/注音风格。

▌支持版本

注:这个版本同时支持在 Node 和 Web 浏览器环境运行;

2.Python 版

3.Go 版

4.Rust 版

▌一些注意事项

1.为什么没有 y, w, yu 几个声母?

因为根据《汉语拼音方案》, y,w,ü (yu) 都不是声母。

声母风格(INITIALS)下,“雨”、“我”、“圆”等汉字返回空字符串,因为根据《汉语拼音方案》, y,w,ü (yu) 都不是声母,在某些特定韵母无声母时,才加上 y 或 w,而 ü 也有其特定规则。 —— @hotoo

参考:

hotoo/pinyin#57,#22,#27,#44

如果觉得这个行为不是你想要的,就是想把 y 当成声母的话,可以指定strict=False, 这个可能会符合你的预期,详见strict 参数的影响

1>>>frompypinyinimportStyle,pinyin2>>>pinyin('下雨天',style=Style.INITIALS)3[['x'],[''],['t']]4>>>pinyin('下雨天',style=Style.INITIALS,strict=False)5[['x'],['y'],['t']]

2.拼音数据

单个汉字的拼音使用pinyin-data的数据

词组的拼音使用phrase-pinyin-data的数据

3.node 版和 web 版有什么异同?

pinyin目前可以同时运行在 Node 服务器端和 Web 浏览器端。 API 和使用方式完成一致。但 Web 版较 Node 版稍简单,拼音库只有常用字部分,没有使用分词算法, 并且考虑了网络传输对词库进行了压缩处理。

由于分词和繁体中文的特性,部分情况下的结果也不尽相同。由于这些区别,测试不同运行环境的用例也不尽相同。

各版本 GitHub 地址:

新华字典 API

▌介绍

中华新华字典数据库和 API 。收录包括 14032 条歇后语,16142 个汉字,264434 个词语,31648 个成语。所有的数据放在 data/ 目录。

▌数据库与 API 介绍

1.成语(idiom.json)

2.词语(ci.json)

3.汉字(word.json)

4.歇后语(xiehouyu.json)

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:SpringMVC实现文件上传下载的全过程
下一篇:OSPF虚链接的基本配置
相关文章

 发表评论

暂时没有评论,来抢沙发吧~