研究で使えそうなインフラ系のデータセット
リンク集
- NIIが公開しているデータセットリンク
- Usenixが公開しているデータセットのリンク
アクセスログ
- Blue/Gene(スパコン)のログのデータセット
- HTTPのアクセスログ
- LogHub(いろいろなログのデータセット)
- Amazonの社内システムのアクセスログ
- 25年分の検索エンジンのクエリ
- FTPサーバのアクセスパターン分析
システム障害
- Failure Diagnosis in Microservice Systems: A Comprehensive Survey and Analysis | ACM Transactions on Software Engineering and Methodology
- Table 7にデータセットの一覧がまとめてある
- salesforce/PyRCA: PyRCA: A Python Machine Learning Library for Root Cause Analysis
- RCAのライブラリ
- GoogleのKubernetesクラスタのデータセット
- AlibabaのKubernetesクラスタやトレースのデータセット
- AzureのAzure Functionsのデータセット
- https://github.com/Azure/AzurePublicDataset/blob/master/AzureFunctionsDataset2019.md
- サーバレス環境でのプログラムの実行時間,回数,平均実行時間,最大実行時間,最短実行時間,メモリ使用量が含まれている.