Stanford coreNLP – 忽略撇号的分词

来源：互联网收集：自由互联发布时间：2021-06-16

我正在尝试使用斯坦福coreNLP将一个句子分成单词. 我对包含撇号的单词有疑问. 例如,句子：我今年24岁. 像这样的分裂： [I] [‘m] [24] [年] [年] 是否有可能使用斯坦福coreNLP这样拆分？：

我正在尝试使用斯坦福coreNLP将一个句子分成单词.
我对包含撇号的单词有疑问.

例如,句子：
我今年24岁.

像这样的分裂：
[I] [‘m] [24] [年] [年]

是否有可能使用斯坦福coreNLP这样拆分？：
[我] [24] [年] [年]

我尝试过使用tokenize.whitespace,但它没有拆分其他标点符号,例如：’？’和’,’

目前,没有.随后的斯坦福CoreNLP处理工具都使用 Penn Treebank tokenization,它将收缩分成两个标记(关于“我是”作为“我是”的简化形式,使它成为两个“单词”[I] [‘m]).听起来你想要一种不同类型的标记化.

虽然有一些标记化选项,但是没有人可以更改它,并且后续工具(如POS标记器或解析器)在没有分割收缩的情况下会很糟糕.您可以将这样的选项添加到tokenizer,更改(删除)REDAUX和SREDAUX尾随上下文的处理.

你也可以像@dhg建议的那样通过后期处理加入收缩,但是你想在“if”中更仔细一点,所以它没有加入引号.

相关文章