qinwf
qinwf
```r > k = collections::dict() > k$ht_xptr = NULL > k$get("test") *** caught segfault *** address 0x108030040, cause 'memory not mapped' Traceback: 1: k$get("test") Possible actions: 1: abort (with core...
打算把 https://github.com/qinwf/THULACR 合并进来,这样可以有两个分词 engine 可以选。THULAC 的 tagging 做得好很多。 需要有一个比较统一、简单的接口,还需要考虑一下。 这样差不多就像把所有接口重写一遍了。现有的接口会继续保留。
https://groups.google.com/forum/#!topic/jiebar/QTsNpuSTPEs
重新规划新的 API,让大家用起来方便一些。下面是一些想法: 1、分离 Cppjieba 中的分词,关键词提取,Simhash 的方法为小的模块,不相互依赖。Cppjieba 5.0 增加了 Textrank 的模块,现有的接口想把这个模块整合起来,使用起来感觉可能会不方便。 在原有的 Cppjieba 的代码中,关键词提取和Simhash 的步骤是包含了分词步骤的,而这两个步骤其实可以独立出来,用户先分词,然后执行后面两步,比如: ```r text %>% fenci() %>% key_tfidf() %>% # key_textrank() simhash() ``` 2、分离筛选标点,筛选停止词,读取文件,bylines 等逻辑到单独的函数,这样用户可以自定义需要的步骤,也减少 ifelse 的损失。 ```r...
This Rcpp issue will affect the error message for regular expression. ``` r re2("this (is 测试") #> Error: missing closing ): this (is 娴嬭瘯 ``` Here is an issue about...
``` > (res = re2_match("中文","中文",value = T)) ?nocapture [1,] "涓枃" > Encoding(res) = "UTF-8" > res ?nocapture [1,] "中文" ```