我想知道可能的方法来追踪分布式系统中的性能瓶颈.我知道像 X-Trace及其后代(例如 Dapper)这样的工具,但我对方法而不是特定工具更感兴趣. 换句话说,鉴于分布式系统没有任何明显的瓶颈
换句话说,鉴于分布式系统没有任何明显的瓶颈,您如何研究和改进其性能?
我使用的方法有pro和con.专家是它的工作原理 – 它发现的问题是,当它们被修复时,会产生很好的快速性能.
这是一个很好的手工工作.
我甚至写了一本书,并包括了这个方法.工作是收集带时间戳的事件日志,并将它们合并到一个共同的时间线中.然后仔细检查它,通过异步代理网络跟踪相关消息的流程.您正在寻找的是不必要的消息周期,或者不一定必须发生的延迟.例如,在查看此图片时,由于任务“将状态发布到DB”,正在延迟收到消息.当理解这一点时,发布实际上可以在一个单独的线程上完成.