http://techcrunch.com/2010/08/04/former-crunchies-finalist-statsheet-recieves-1-3-million-in-series-a/
他们正在进行“自动化新闻报道” – 利用计算机从统计数据中生成体育游戏的人性化报告
http://www.guardian.co.uk/media/pda/2010/mar/30/digital-media-algorithms-reporting-journalism
有没有人知道正在使用什么方法/算法来执行此操作/如何复制它?
像这样的项目的细节有点稀疏,但它看起来像棒球摘要 Stats Monkey包括:>统计模型:他们建立了一个关于棒球比赛通常如何展开的模型,最有可能通过观察某些变量(例如跑步,击球等)在比赛过程中如何变化或者与您期望看到的不同进入游戏(例如,一个无名团队比一个备受青睐的团队得分更多).给定游戏适合(或不适合)该模型的程度如何让他们了解该游戏可能有趣的内容(例如关键游戏或玩家).
>文本生成:给定一个预先编写的叙事弧库(例如来回游戏,来自后面的胜利等),他们使用游戏模型中的“有趣信息”来构建游戏.我不确定,但看起来他们使用决策树 – 以模型中的信息为条件 – 选择其中一个弧.
>杂项胶水:这在他们的文章中没有提到,但我想象中有相当数量的硬编码规则将主要的叙事弧“粘合”成一个单一的,有凝聚力的故事.
Stats Monkey的作者在相关领域进行了大量研究,如网站摘要和自动内容聚合和生成.以下是一些可能有趣的论文:
> Nathan Nichols和Kristian Hammond. “Machine-Generated Multimedia Content.”第二届计算机人机交互进展国际会议记录,2009年.
> Nathan Nichols,Lisa Gandy和Kristian Hammond. “From Generating to Mining: Automatically Scripting Conversation Using Existing Online Sources.”第三届网络日志与社交媒体国际会议论文集,2009年.
> J. Liu和L. Birnbaum. 2008. “LocalSavvy: Aggregating Local Points of View about News Issues”. WWW 2008网上位置研讨会.