我正在尝试使用斯坦福coreNLP将一个句子分成单词. 我对包含撇号的单词有疑问. 例如,句子: 我今年24岁. 像这样的分裂: [I] [‘m] [24] [年] [年] 是否有可能使用斯坦福coreNLP这样拆分?:
我对包含撇号的单词有疑问.
例如,句子:
我今年24岁.
像这样的分裂:
[I] [‘m] [24] [年] [年]
是否有可能使用斯坦福coreNLP这样拆分?:
[我] [24] [年] [年]
我尝试过使用tokenize.whitespace,但它没有拆分其他标点符号,例如:’?’和’,’
目前,没有.随后的斯坦福CoreNLP处理工具都使用 Penn Treebank tokenization,它将收缩分成两个标记(关于“我是”作为“我是”的简化形式,使它成为两个“单词”[I] [‘m]).听起来你想要一种不同类型的标记化.虽然有一些标记化选项,但是没有人可以更改它,并且后续工具(如POS标记器或解析器)在没有分割收缩的情况下会很糟糕.您可以将这样的选项添加到tokenizer,更改(删除)REDAUX和SREDAUX尾随上下文的处理.
你也可以像@dhg建议的那样通过后期处理加入收缩,但是你想在“if”中更仔细一点,所以它没有加入引号.