当前位置 : 主页 > 网络推广 > seo >

Stanford coreNLP – 忽略撇号的分词

来源:互联网 收集:自由互联 发布时间:2021-06-16
我正在尝试使用斯坦福coreNLP将一个句子分成单词. 我对包含撇号的单词有疑问. 例如,句子: 我今年24岁. 像这样的分裂: [I] [‘m] [24] [年] [年] 是否有可能使用斯坦福coreNLP这样拆分?:
我正在尝试使用斯坦福coreNLP将一个句子分成单词.
我对包含撇号的单词有疑问.

例如,句子:
我今年24岁.

像这样的分裂:
[I] [‘m] [24] [年] [年]

是否有可能使用斯坦福coreNLP这样拆分?:
[我] [24] [年] [年]

我尝试过使用tokenize.whitespace,但它没有拆分其他标点符号,例如:’?’和’,’

目前,没有.随后的斯坦福CoreNLP处理工具都使用 Penn Treebank tokenization,它将收缩分成两个标记(关于“我是”作为“我是”的简化形式,使它成为两个“单词”[I] [‘m]).听起来你想要一种不同类型的标记化.

虽然有一些标记化选项,但是没有人可以更改它,并且后​​续工具(如POS标记器或解析器)在没有分割收缩的情况下会很糟糕.您可以将这样的选项添加到tokenizer,更改(删除)REDAUX和SREDAUX尾随上下文的处理.

你也可以像@dhg建议的那样通过后期处理加入收缩,但是你想在“if”中更仔细一点,所以它没有加入引号.

网友评论