[返回文化长廊首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理] | |||
回答: 质疑五种语言的信息熵计算方法 由 如意吉羊 于 2011-08-17 5:49 不断词, 不论是检索还是分析都面临巨大挑战。 现在一篇CJK的tokenization都是极其难做的。 而断句就更不要说了, 标点符号自古就不是汉语的东西。 | |||
|
|||
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。 |
所有跟帖: ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 ) 楼主本栏目热帖推荐:
>>>>查看更多楼主社区动态... |