inotifywaitを使ってプログラム終了を検知する

Linux kernelにinotifyが組み込まれている環境では、inotify-tools パッケージ のinotifywaitを使って、パラレル実行した結果が全部終わるのを待ってから、次に進むようなスクリプトが作れるらしい。(kernel 2.6.13以降ならinotifyを使えるらしい)
inotify-tools

process1~process4までをいっぺんに並列実行して
それが全部終わったprocess5を実行させたい

#!/bin/bash
process1 &
process2 &
process3 &
process4 &

#ここで処理を待って

process5
exit

こんなスクリプトを書きたい場合・・・

#!/bin/bash
(process1; touch /tmp/myprocess/p1) &
(process2; touch /tmp/myprocess/p2) &
(process3; touch /tmp/myprocess/p3) &
(process4; touch /tmp/myprocess/p4) &

#ここで処理を待って
for i in {1..4}; do
  inotifywait -e CREATE -qq /tmp/myprocess/
done

process5
exit

説明!

  inotifywait -e CREATE -qq /tmp/myprocess/

ここは、/tmp/myprocess/ にファイルが作られたことを検知する。
/tmp/myprocess/ に何でもいいから1つファイルが作られるまで、待ちとなる。

この処理をfor文で4回繰り返している。つまり、ファイルが4つ作られるまでは、ここで待つことになる。

問題点
RHEL/CentOS5では、inotify-toolsが標準で入っていないこと。
コンパイルしてインストールする必要がある。

注!
このスクリプトは、例えば、100個ぐらい走らせたい処理があるけど、CPU coreが4つあるから、同時実行は4つとして、終わり次第次々に実行させていきたい。という場合には使えません。

ボクとSA契約してWindowsServer2008R2になってよ!

[ネタ元]

まだ、WindowsServer2003を使ってるんだって?
あれから8年も経ってて、いろいろ変わってるんだよ。
いまも、そのまま使い続けるのは不利益だと思うんだ。

そうだね。大きく変わった点を8個ばかりあげてみようか?
きっと気に入ってくれると思うよ。

1. CHKDSKが早いよ
まず、CHKDSKの時にかかる時間ってのは、ドライブのサイズに影響されるんじゃなくて、ファイル数に比例するんだけど・・・

WindowsServer2003の場合
・数日かかることもあるよ

WindowsServer2008R2の場合
・WindowsServer2008でも改善されてたけど、WindowsServer2008R2だとさらに早いよ
・WindowsServer2008/2008R2だと、オンラインのままでチェックできることがほとんどで
該当ドライブをオフラインにしなきゃいけないことって、レアケースだよ
・ま、そのレアケースであっても、かなり早くなったよ。

詳しくはwhitepaperみてもらいたいんだけど簡単に言えば・・・
・1千万個のファイルがあるボリュームにCHKDSKかけるとだいたい7分
・1億個のファイルがあるボリュームにCHKDSKかけると2時間ぐらい

だから、ボクとSA契約してWindowsServer2008R2になってよ!

参考情報
White paper on CHKDSK
Details on self-healing NTFS
What’s new in Windows Server 2008 R2 NTFSM

2. ファイルサーバの拡張性が違うよ

WindowsServer2003の場合
・1ファイルサーバで、まぁ、数千ユーザぐらいじゃない?

WindwosServer2008R2の場合
・1ファイルサーバで1万ユーザぐらいはいけるよ。設定が適切なら
・192個のディスクと10GbEを装備させて物理的なパフォーマンスが確保されているサーバで
ベンチマークソフト FileServerCapatityTool(FSCT)を動かした場合に23000ユーザ行けたよ

だから、ボクとSA契約してWindowsServer2008R2になってよ!

参考情報
Past, Present, and Future of Windows-Based NAS: A Growing Market for Highly Available Solutions: スライド24枚目、動画16分ぐらいからFSCTの概要と、23000ユーザ試験時のお話
Windows Server 2008 File Server Performance at Microsoft IT: 100TB越えのデータを5万ユーザに提供するファイルサーバクラスタの事例
File Server Capacity Tool (FSCT) 1.0 available for download: FSCTについての詳細

3. 冗長化構成の組みやすさが違うよ

WindowsServer2003の場合
・ファイルサーバの冗長化設定は面倒だよ

WindowsServer2008R2の場合
・簡単に設定できるように、設計自体が見直されたよ
・設定の確認や、トラブル時の調査も容易になったよ
・WindowsStorageSevrer2008R2だとさらに簡単に2ノード冗長構成が組めちゃう!

だから、ボクとSA契約してWindowsServer2008R2になってよ!

参考情報
Details on Windows Storage Server R2 two-node cluster setup, starting on slide 37
Step-by-step for creating a two-node File Server Cluster
Failover Clustering Validation described

4. 作れる共有数が増えたよ

WindowsServer2003の場合
・サーバあたり65000個の共有が作れるよ。これはSMB1の制限だね。
・でも、冗長化構成にすると、なんと1600個に減っちゃうよ
 共有1個につき1個のクラスタ設定が必要だからなんだよ

WindowsServer2008R2の場合
・SMB2になったから、サーバあたりで、なんと40億個を超える共有が作れるよ
・冗長化構成の場合でも同じ個数が作れるよ
 共有単位での設定ではなくて、ファイルサーバ機能として冗長構成になったからだよ

だから、ボクとSA契約してWindowsServer2008R2になってよ!

参考資料
SMB2 – Big Improvements in the Remote Filesystems Protocol: 24ページにSMB1とSMB2との共有数制限やユーザ数制限の変化が書いてある。
 ちなみに、この資料。他にもSMB2になって変わった点がいろいろ書いてあるので有用です。

5. 暗号化ファイル機能が強化されたよ

WindowsServer2003の場合
・NTFSの暗号化ファイルシステム(EFS)を使うけど、暗号化を保ったままコピーできないんだよね

WindowsServer2008R2の場合
・WindowsServer2008で導入されたActiveDirectoryのRight Management Service(AD RMS)を使えば暗号化を保ったままコピーできるよ
・WindowsServer2008R2のFile Classification Infrastructure(FCI)を使うと、より簡単にRMSの利用が行えるようになるよ

だから、ボクとSA契約してWindowsServer2008R2になってよ!

参考資料
Active Directory Rights Management Services Overview: AD RMSについての詳細
Using File Classification Infrastructure (FCI) and AD RMS to automatically protect sensitive information:AD RMSとFCIの組み合わせについてのHow toへのリンク

6. 遅い回線で大容量ファイルをコピーする際の速度改善

WindowsServer2003の場合
・ネットワーク遅延があるネットワークで、コピーすると遅いよ

WindowsServer2008R2の場合
・WindowsServer2008から採用のSMB2なら、非同期処理が使えるからパフォーマンス向上
・応答時間(RTT)が200msぐらいのネットワークで1分かかるコピー処理は、同じネットワーク上なら10秒かからず終わるよ
・WAN越しでRTTが76ms,ネットワーク帯域が1Gbitで10GBを転送させると6時間かかってたけど、8分に終わるよ。45倍も速くなったってことだね
・WindowsServer2008R2だとMTUサイズを大きくするSMB2.1にも対応で、さらに改善するよ

だから、ボクとSA契約してWindowsServer2008R2になってよ!

参考資料
SMB2, a complete redesign of the main remote file protocol for Windows: SMB2で変わった点の概要
File Server performance improvements with the SMB2 protocol in Windows Server 2008: パフォーマンスの面で変わった点
SMB2 – Big Improvements in the Remote Filesystems Protocol: 4でも出てきた資料の7ページに、どれくらいの効果があったか書いてある。
SMB v2.1: 12ページからLarge MTUについての話で、16ページに改善例がある

7. 小さいファイルをたくさん転送する場合も早くなったよ

WindowsServer2003の場合
・小さなファイルを大量にコピーすると、超時間がかかるよ
・あと、コピーの時に便利なROBOCOPYって標準添付じゃなかったし

WindowsServer2008R2の場合
・シングルスレッドでコピーするツールはSMBでも遅いまんま
・ROBOCOPYをWindows7やWindowsServer2008R2で動かすと、マルチスレッドで動作するよ
・で、そんなROBOCOPYを使うと、22倍も速くなったりするよ

だから、ボクとSA契約してWindowsServer2008R2になってよ!

参考資料
Past, Present, and Future of Windows-Based NAS: A Growing Market for Highly Available Solutions: スライド49枚目,動画56:30ぐらいのところでROBOCOPYのマルチスレッドによる改善例紹介あり
Command-line Reference: ROBOCOPY: ROBOCOPYのマニュアル

8. 支社とか向けのいろいろなキャッシュ機能があるよ

WindowsServer2003の場合
・WAN越しのファイルアクセスとかだと遅いよ
・WANアクセラレータとか導入しても、あんまり改善されないこともあるよ

WindowsServer2008R2の場合
・WindowsServer2008、WindowsServer2008R2ならSMB2で万全
・WindowsServer2008R2のBranchCacheは、WANアクセラレータよりいいよ


だから、ボクとSA契約してWindowsServer2008R2になってよ!

参考資料
BranchCache: BranchCacheについての紹介と、セットアップガイドなどへのリンク
The Basics of SMB Signing (covering both SMB1 and SMB2): SMB2のSigningについての詳細

そんなわけで、MicrosoftのJose Barretoさんのblogに、WindowsSevrer 2003からWindows Server 2008R2になるまでの8年間で変わった8つのことという記事を読んでたら、頭に何かがささやきかけてきたので、記事を書いてみたんだ。
ちなみに元ネタの方には「SA契約してよ」なんて話は一切ないんだ。

ちなみに、QBはふにゃっとのふにゃでりかさんに描いてもらったんだよ。ありがとう!

で、ここまで説明してわからないなんて、きみたちの考えることは、わけがわからないよ

NTFSのchkdsk速度

Microsoftのtechnetのblogの中に、ファイルサーバチームに所属しているというJose Barreto’s Blogというのがある。

で、そこの最新記事の「New white paper providing guidance for sizing NTFS volumes」が興味深い。

といってもこの記事ではなくて、そこからリンクされている、WhitepaperのNTFS Chkdsk Best Practices and Performance です。

Windows2008R2で15TBの領域作って、そこに4KBのファイルを1000万ファイル置いた場合、
chkdskにかかる時間は7分。

そこからさらにファイルを増やしてものを、「Windows Server 2008」と「Windows Server 2008 R2」とで比較してみると、OSの違いでかなりの差が出る。

OS Type 1億ファイル 2億ファイル 3億ファイル
Windows Server 2008 4:14:00 8:34:00 24:54:00
Windows Server 2008R2 1:49:00 4:52:00 6:16:00

次に、サーバのシステムメモリを大きくしていくと変化が現れるかを調べると・・・

ファイル数 メモリ32GB メモリ16GB メモリ8GB
1億ファイル 1:53:00 1:48:00 2:04:00
2億5千万ファイル 5:16:00 6:53:00 5:41:00
5億ファイル 19:25:00 76:07:00 99:08:00

ファイル数が大変なことになってるような環境では、メモリがあった方がいい、と。

でも、それよりなにより、やっぱりファイル数が多くなりすぎると、いろいろ大変っぽいのが分かります

で・・・これに相当するようなext3/ext4/xfsなどについての記事ってないかなぁ・・・