日语分词工具-Kuromoji 日本語単語割り切れツール:Kuromoji日语分词工具-Kuromoji 日本語単語割り切れツール:Kuromoji,-kuromojikuromoji

条件:对日开发语言处理

日语分词工具-Kuromoji 日本語単語割り切れツール:Kuromoji,-kuromojikuromoji

环境:对天开发语言处理

务求:分析词语,将词语中之日文单词分割,转换形式。

分析:

  任务1:词语拆分

  任务2:转换形式

 

日文的花样转换可以据此kanavetor去实现 非常简单
直接调用Kana类的convert方法就是可,在Kana的官网及可以看出用法(即便看不清楚介绍,看到管网的表格应该为不怕一目了然了~)。

最主要在词语的拆分上:

辞拆分使用了Kuromoji,Kuromoji是一致迟迟好好用的日语分词工具,并且,分解后底乐章是可以自行将汉字,平假名等转移成カタカナ的,有相近需要的好直接用之只要未用重新夺追寻另外工具了。Kuromoji我找到了有限个本子,一个凡kuromoji,0.7.7版本,官网上说捐献给了apache,内置在Lucene的4.0,5.0本里,由于忘记Lucene的用法,暂且不考虑。另外一个版本是kuromoji-ipadic,这个东东及kuromoji都是一个铺面发底,但是略有不同,稍微研究了瞬间,kuromoji在使的当儿是只能找到jar包,找不交源代码文件之,通过maven下载好,但是gradle是引入无了之。而kuromoji-ipadic则是gradlle也足以引用,并且引入之后可以见见源码。此外kuromoji毕竟是先的api,还有一对细小的欠缺。

kuromoji官网:http://www.atilika.org/

Kuromoji-ipadic官网:http://www.atilika.com/en/kuromoji/

Kuromoji用法:

1         Tokenizer tokenizer = Tokenizer.builder().build();
2         for (Token token : tokenizer.tokenize("寿司が食べたい。")) {
        // token 中存放的是分割后的词 不同的属性可以取到该词的不同内容

              // surfaceForm:原内容

3             System.out.println(token.getSurfaceForm() + "\t" + );

              // baseForm:内容词语的基础 例如 食べたい⇒食べ

        System.out.println(token.getBaseForm() + "\t" + );

4 }

↑↑↑这个api对日文汉字的识别率不如下面的api(有些简体日文汉字和专门生疏的识别不出,毕竟是总版),并且遇到不认的方块字时token调用get方法会得到null。。。不建议采取。

Kuromoji-ipadic用法:

1         Tokenizer tokenizer = new Tokenizer() ;
2         List<Token> tokens = tokenizer.tokenize("お寿司が食べたい。");
3         for (Token token : tokens) {
4             System.out.println(token.getSurface()); // 读取到的原内容
5             System.out.println(token.getReading()); // カタカナ
6         }        

顺带一提,kuromoji-ipadic由于是用new产生出实例的,所以要您的工具或系要换大量语汇,要顾不要做尽多的new操作,不然会非常缓慢好缓慢好缓慢,此时得定义成静态常量或者单例模式。

欢迎大家评论和指教。

 

http://www.bkjia.com/Javabc/1292821.htmlwww.bkjia.comtruehttp://www.bkjia.com/Javabc/1292821.htmlTechArticle日语分词工具-Kuromoji
日本語単語割り切れツール:Kuromoji,-kuromojikuromoji
环境:对日开发语言处理 要求:分析词语,将词语被的日文单词分…

求:分析词语,将词语被的日文单词分割,转换形式。

分析:

  任务1:词语拆分

  任务2:转换形式

 

日文的样式转换可以据此kanavetor去贯彻 非常简单
直接调用Kana类的convert方法就得,在Kana的官网及可看看用法(即便看不晓得介绍,看到管网的表格应该也就一目了然了~)。

要在词语的拆分上:

用语拆分使用了Kuromoji,Kuromoji是平慢性特别好用的日语分词工具,并且,分解后的歌词是好自动将汉字,平假名等易成为カタカナ的,有像样需要之可以一直用者只要非用更失摸其他工具了。Kuromoji我找到了区区单版,一个是kuromoji,0.7.7版本,官网及说捐献给了apache,内置在Lucene的4.0,5.0本里,由于忘记Lucene的用法,暂且不考虑。另外一个版本是kuromoji-ipadic,这个东东和kuromoji都是一个铺面产生底,但是略有不同,稍微研究了一晃,kuromoji在运用的时是只能找到jar包,找不交源代码文件之,通过maven下载好,但是gradle是引入无了之。而kuromoji-ipadic则是gradlle也足以引用,并且引入之后可以视源码。此外kuromoji毕竟是先的api,还有一对很小的短处。

kuromoji官网:http://www.atilika.org/

Kuromoji-ipadic官网:http://www.atilika.com/en/kuromoji/

Kuromoji用法:

1         Tokenizer tokenizer = Tokenizer.builder().build();
2         for (Token token : tokenizer.tokenize("寿司が食べたい。")) {
        // token 中存放的是分割后的词 不同的属性可以取到该词的不同内容

              // surfaceForm:原内容

3             System.out.println(token.getSurfaceForm() + "\t" + );

              // baseForm:内容词语的基础 例如 食べたい⇒食べ

        System.out.println(token.getBaseForm() + "\t" + );

4 }

↑↑↑这个api对日文汉字的识别率不如下面的api(有些简体日文汉字和专门生疏的分辨不出,毕竟是一味版),并且遇到不认得的汉字时token调用get方法会得到null。。。不建议以。

Kuromoji-ipadic用法:

1         Tokenizer tokenizer = new Tokenizer() ;
2         List<Token> tokens = tokenizer.tokenize("お寿司が食べたい。");
3         for (Token token : tokens) {
4             System.out.println(token.getSurface()); // 读取到的原内容
5             System.out.println(token.getReading()); // カタカナ
6         }        

顺带一提,kuromoji-ipadic由于是用new产生有实例的,所以只要您的家伙要系统要更换大量词汇,要留意不要做顶多之new操作,不然会坏缓慢好缓慢好缓慢,此时好定义成静态常量或者单例模式。

迎接大家评论以及求教。

 

相关文章

admin

网站地图xml地图