これは
西村さんからTwitterで教えてもらったことなのであるが、
AWS+
Hadoopの幸せな成功例である:
Self-service, Prorated Super Computing Fun!
NY Timesが過去のアーカイブを含めてすべて無料化したわけだが、そのシステム的な移行措置として過去のスキャンしたTIFF画像をPDFに変換する必要があったのだ。TIFFのサイズは合わせて4TBという巨大さ。
これを行うのに次の構成をとったそうだ:PDF変換に
iTextを用いる。変換するマシンはAWS上の100インスタンスを
Hadoopで
MapReduce構成をとることで並列化した。これによりすべてのPDF変換(なんと成果物は1.5TB)が、24時間未満の時間で終了したのだ。そして作業をしたのは、一人のプログラマだけである。
だから言ったでしょ。もう時代は一人大規模サービスの時代なんですよ。そのためのインフラはちょっと工夫すれば、もう個人の手に入るんですよ。だからこそ、
GoogleよりもAmazonのほうが革命的なのだ。
上記のサイズのジョブだと設定含めて36時間回したとして、AWSの課金では$600-$700ですよ。4TBのTIFFのPDF変換なんて、業者に頼んだらいくらになるか想像がつかない。ちょっと大ざっぱな計算をしてみよう。ソースは1ページ10MBとして400,000ページ。いま
ここを見ると、TIFF->PDF変換の変換料が1ページ150円だそう。だから、400,000ページで60,000,000円、つまり変換料になんと6千万円。まあ、実際はバルク料金になるだろうから、6千万なんて金額にはならずに500万円以下くらいでやってくれると思う。でも、一方でAWS60,000円+人件費(おそらく2日くらいか、120,000円) = 18万円なり。
どうですか、もうこういう世の中なのですよ。