qinwf issues

Results 13 issues of


                                            qinwf

segfault when ht_xptr is missing for dict environment

```r > k = collections::dict() > k$ht_xptr = NULL > k$get("test") *** caught segfault *** address 0x108030040, cause 'memory not mapped' Traceback: 1: k$get("test") Possible actions: 1: abort (with core...

加入 THULAC 的分词引擎

打算把 https://github.com/qinwf/THULACR 合并进来，这样可以有两个分词 engine 可以选。THULAC 的 tagging 做得好很多。需要有一个比较统一、简单的接口，还需要考虑一下。这样差不多就像把所有接口重写一遍了。现有的接口会继续保留。

输出关键词提取的排序后的所有结果

最近计划用 bookdown 重写一下文档教程，欢迎大家提一下意见和建议

自定义一定不进行切分字符，以及自定义一定会进行切分的字符

https://groups.google.com/forum/#!topic/jiebar/QTsNpuSTPEs

计划 - 新的接口

重新规划新的 API，让大家用起来方便一些。下面是一些想法： 1、分离 Cppjieba 中的分词，关键词提取，Simhash 的方法为小的模块，不相互依赖。Cppjieba 5.0 增加了 Textrank 的模块，现有的接口想把这个模块整合起来，使用起来感觉可能会不方便。在原有的 Cppjieba 的代码中，关键词提取和Simhash 的步骤是包含了分词步骤的，而这两个步骤其实可以独立出来，用户先分词，然后执行后面两步，比如： ```r text %>% fenci() %>% key_tfidf() %>% # key_textrank() simhash() ``` 2、分离筛选标点，筛选停止词，读取文件，bylines 等逻辑到单独的函数，这样用户可以自定义需要的步骤，也减少 ifelse 的损失。 ```r...

qinwf

segfault when ht_xptr is missing for dict environment

加入 THULAC 的分词引擎

输出关键词提取的排序后的所有结果

最近计划用 bookdown 重写一下文档教程，欢迎大家提一下意见和建议

自定义一定不进行切分字符，以及自定义一定会进行切分的字符

计划 - 新的接口

Rcpp exception with UTF-8 strings on Windows

Handle NA_STRING

Track R-GSOC-2016 Progress

Using SET_STRING_ELT and Rf_mkCharLenCE to handle output string encoding