中文分词器哪个比较好用?
用IK或庖丁,这两个都有对Lucene的封装接口,IKAnalyzer和PaodingAnalyzer,我一直用IK,中科院的Ictclas是要收费的,而且是用DLL,和Java结合不好
盘古nlp 如何使用?
PanGu NLP 是一款基于Java编写的中文自然语言处理分词工具,它可以实现中文分词、词性标注、命名实体识别功能。要使用它,首先使用maven工具下载PanGu依赖库:
```
<dependency>
<groupId>org.ansj</groupId>
<artifactId>pangu</artifactId>
<version>1.8.1</version>
</dependency>
```
然后,在代码中初始化PanGu分词解析器:
```
// 初始化 PanGu 分词解析器
PanGuAnalyzer analyzer = new PanGuAnalyzer();
```
最后,调用PanGu分词方法,将中文文本字符串分词:
```
// 传入要分析的字符串
String text = "今天天气很好!";
// 调用 PanGu 分词方法,将文本字符串分词
List<Term> terms = analyzer.seg(text);
for (Term term : terms) {
System.out.println(term);
}
```
以上代码的输出结果为:
```
今天/t
天气/n
很/d
好/a
!/
开源商城系统有那些?哪个比较好用?
Java开源商店系统shop++、java商城系统JEShop、网上商城系统javashop等等。商业发展到现在,电商系统基本上开始转入到B2B2C模式,对平台性能和二次开发的要求越来越高。
之前运营过javashop的商城系统两年,在“双十一”我们商城的流畅度和响应时间都是很优秀的,这里简要介绍下吧。
上图是javashop的基本构架,应用了Mysql、SqlServer、Oracle三个数据库框架,集成了分布式缓存 Redis(集群支持自建云)、消息中间件AMQP以及商品搜索引擎elasticsearch等最新的电商技术。
Javashop将静态页面和高频访问信息生成在Redis中,运行时可以直接通过Nginx直接由Redis中读取、解析响应,这样的机制下,系统访问性能这样大大提高了,实测单机可达1000并发,集群部署可高达10000+并发;
消息中间件AMQP也称作异步消息队列,保证系统消息传递的可靠性,这也是Javashop系统准确的保证;
elasticsearch体现出来的是搜索的便利性,javashop内置 lucene 全文检索,集群使用solr支持分布式检索,使用mmseg4j作为中文分词器,可任意扩展词典,增加搜索准确度,采用队列处理机制异步写入商品索引,响应速度快,性能更加优越,搜索结果更加精确
另一方面则是模糊搜索功能和搜索结果筛选功能,比如输入“男”就会下拉出各种男士用品,选择“男装”后,就能在结果页面进行品牌、尺码、料子等属性的搜索。