我一直在尝试使用 CMU’s TurboParser生成的依赖解析树.它完美无瑕.然而,问题在于文档很少.我需要准确理解解析器的输出.例如,句子“我解决了统计问题”.生成以下输出: 1 I _ PRP PRP _ 2
1 I _ PRP PRP _ 2 SUB 2 solved _ VBD VBD _ 0 ROOT 3 the _ DT DT _ 4 NMOD 4 problem _ NN NN _ 2 OBJ 5 with _ IN IN _ 2 VMOD 6 statistics _ NNS NNS _ 5 PMOD 7 . _ . . _ 2 P
我没有找到任何可以帮助理解各列所代表的内容的文档,以及如何创建倒数第二列(2,0,4,2,…)中的索引.另外,我不知道为什么有两列专门用于词性标签.任何帮助(或外部文档的链接)都将提供很大帮助.
附:如果你想试试他们的解析器,here is their online demo.
P.P.S.请不要建议使用斯坦福的依赖解析输出.我对线性编程算法感兴趣,这不是斯坦福的NLP系统所做的.
我不知道TurboParser,但我的猜测是第一个数字表示令牌的id,第二个数字表示其调控器的id.也就是说,对于你的例子:
solved( I, problem(the), with(statistics), . )
实际上,这是CoNLL-X格式.您可以在此处获取更多信息:http://ilk.uvt.nl/conll/#dataformat