java系统找不到指定文件怎么解决
310
2022-09-14
PHP开源中文分词 pscws4
SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统。
这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在词 之间用空格分开,所以如何准确而又快速的分词一直是中文分词的攻关难点。
SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。
[推荐]首个搭载 SCWS 分词系统的中小型站内全文检索解决方案 - FTPHP!
以下为本人在win03平台下,php5.2.5+apache2.2.11平台下推荐的方法,特别的简单,用的是gbk的字库的
1.首先从.
php_scws.dll (1.1.1)
php_scws.dll 是由 ben 移植用于 Windows 平台下的 PHP 动态扩展库,请根据您使用的 php 版本下载,编译环境均为:VC6 x86 Thread Safe。
[For PHP-4.4.x (20KB)] [For PHP-5.2.x (20KB)] [For PHP-5.3.x (20KB)] [详细安装说明] [PHP扩展-API 文档]
XDB 词典文件
XDB 格式的词典文件,可用于 SCWS-1.x.x 和 PSCWS4,不可用于 PSCWS23。此为通用词典文件,定制词典或其它服务请查看服务支持页面。
[简体中文 (GBK) (3.84MB, 28万词, 2010/03/19更新)][简体中文 (UTF-8) (3.9MB, 28万词, 2010/03/19更新)][繁 体中文(UTF-8) (1.21MB, 10万词)]
PSCWS23
纯 PHP 开发的 SCWS 第二版和第三版,仅支持 GBK 字符集,速度较快,推荐在全 PHP 环境中使用,已含专用 xdb 词典一部。
[立即下载: pscws23-20081221.tar.bz2 (2.79MB)] [说明文档]
规则集文件
SCWS 及 PSCWS4 通用的规则集文件,用于识别人名、地名、数字年代等。内含简体GBK、繁体UTF8、简体UTF8三个文件。一般不需要单独下载,随 scws 一起发布的源码包中已经包含这些文件。
[立即下载: scws-rules-all.zip (6.67KB)]
2.将下面下载的几个压缩文件解压,将scws_1.1.1_win32_php-5.2.x.zip包里的php_scws.dll文件放在d:/php/ext目录里,注意这个地方需要根据你自己的php的环境来存放.
3.在d:/php目录里新建 scws/etc文件夹,将规则集文件cws-rules-all.zip里的ini文件放在这里,我用的时候有三个的,再将解压后的词典件dict.xdb也放在这里.
4.修改c:/windows/php.ini文件,在配置文件的最后面添加:
[scws]extension = php_scws.dllscws.default.charset = gbkscws.default.fpath = "d:/php/scws/etc"
这三行,重启apache即可.可以通过查看phpino信息,来查看是否启用了scws扩展.
以上配置基本完成了,特别的简单的吧,呵呵!
如果需要查看演示的话只需要将从网站上下载的演示包放在一个站点的根目录里就可以了.如http://ftphp.com/scws/demo/v4.php,我下的v4版本里的演示和官方网站上的演示有些出入的,你要以通过http://ftphp.com/scws/demo/v4.php?source来复制一下php代码,保存到本地文件即可了.
配置文件如下:
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~