マイクロサービス・RCA関連の論文

Survey

Production Microservice Analysis

Alert storm/RCA

cf. #SRE論文紹介 Detection is Better Than Cure: A Cloud Incidents Perspective
V. Ganatra et. al., ESEC/FSE’23 - Speaker Deck

Incident Linking

Log search engine

  • TencentCLS: the cloud log service with high query performances: Proceedings of the VLDB Endowment: Vol 15, No 12
    • Tencentのログ管理のプラットフォームについて説明している.
    • 扱うログは,1日あたりペタバイトの規模が想定されている.
    • Apache Lucene 6.0でBKD Treeが導入されたがBKDツリーの複雑さは線形に相関があることを課題している.
  • LogStore | Proceedings of the 2021 International Conference on Management of Data
    • Alibabaのログ管理プラットフォームを紹介している.
    • ヘビーな書き込みのスループットがあり,1秒あたり数千万のログレコードが書き込まれるという.
    • 検索では数十万に及ぶテナントがあり,ペタベイトに及ぶログを探すという.
    • Cost-effectiveなスケーラビリティのあるログストレージの設計が簡単でないことを課題としている.
  • LogLens: A Real-Time Log Analysis System | IEEE Conference Publication | IEEE Xplore
    • NEC Laboratories Americaの研究者が中心で執筆している.
    • リアルタイムのログ分析システムを提案した.
    • また,教師なし機械学習を使いアプリケーションログのパースを行った.
    • こうした,ログから異常なイベントを発見する方法や,ログメッセージのパーサーのパターンを自動で作成する方法は一つの研究テーマになっている印象がある.
  • FLAP | Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
    • フロリダ国際大学の研究者が中心で執筆している.
    • FIU Log Analysis Platformというイベントログを解析するためのプラットフォームで使われている技術を紹介している.
    • Challanges(課題)として以下の3つを主張している.
      • 多様な種類のイベントログが与えられるとき,どのようにイベント分析を広く一般的な方法でサポートするか.
      • 目的の異なる多様な分析の要件がある際に,どのように効率的に既存の分析手法を適用するか.
      • 多様な分析結果がある場合,どう効果的にユーザーへ提示するか.
  • Distributed Hayabusa | Proceedings of the 15th Asian Internet Engineering Conference
    • 筆頭著者は日本のLepidum社(現在はGMO Cybersecurity by Ierae社)の方だった.共
    • 著者に東大の方が多い.
    • 大規模なログの検索のために複雑なストレージシステムやクラスタシステムを管理する必要があることを課題としていた.
    • Distributed Hayabusaというログ検索エンジンを提案している.
    • ログをタイムスタンプでSQLiteファイルに分割(シャーディング)することで高速化していた.
  • Read as Needed: Building WiSER, a Flash-Optimized Search Engine | USENIX
    • 検索エンジン WiSER を提案している.少ないメインメモリを使って高いスループットと低いレイテンシを出す手法を紹介している.
    • 以下を特徴として提案している.
      • データ配置の最適化
      • 2つのコストに配慮したブルームフィルター(特にここが新しそう)
      • 適応性のあるプリフェッチ
      • 容量と時間のトレードオフ

cf. ログ検索システムの論文まとめ | koyama’s blog

Log clustering

  • Log Clustering Based Problem Identification for Online Service Systems | IEEE Conference Publication | IEEE Xplore
    • ログ件数の大規模化
      • “A Microsoft service system even generates over 1PB of logs every day.”
    • キーワード検索の限界(killやfailはダイナミックなインフラではfalse positiveになりやすい)
      • “The systems could proactively kill a job and restart it elsewhere, which causes many “kill” and “fail” keywords in logs.”
    • 再発した問題がすぐに解消されずに残ったままになるので,同じエラーログが前から出ていたままになっている.
      • “However, in a large-scale online service system, there are many recurrent issues, which could lead to a lot of redundant effort in examining logs and diagnosing the previously known problems.”