マイクロサービス・RCA関連の論文
Survey
- Fault Analysis and Debugging of Microservice Systems: Industrial Survey, Benchmark System, and Empirical Study | IEEE Journals & Magazine | IEEE Xplore
- 実際のシステムでの障害をアンケート
- Enjoy your observability: an industrial survey of microservice tracing and analysis | Empirical Software Engineering
- 実際にプロダクションシステムを運用するエンジニアにアンケート
- Failures and Fixes: A Study of Software System Incident Response | IEEE Conference Publication | IEEE Xplore
- 公開されている情報をもとに障害を調査
Production Microservice Analysis
- Characterizing Microservice Dependency and Performance | Proceedings of the ACM Symposium on Cloud Computing
- Alibabaのマイクロサービスの分析
- Characterizing and synthesizing the workflow structure of microservices in ByteDance Cloud - Wen - 2022 - Journal of Software: Evolution and Process - Wiley Online Library
- ByteDanceのマイクロサービスの分析
- Lifting the veil on Meta’s microservice architecture: Analyses of topology and request workflows | USENIX
- Metaのマイクロサービスの分析
Alert storm/RCA
- Understanding and Handling Alert Storm for Online Service Systems | IEEE Conference Publication | IEEE Xplore
- 中国の銀行の実データを使ってアラートストームのアラートをまとめる方法を提案
- TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on Large-Scale Microservice Systems | Proceedings of the 31st ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering
- MicrosoftのエンジニアがマイクロサービスベースのシステムでのRoot Cause Analysisのために,冗長なグラフを構造を取り除く手法を提案