Untitled

Apr 20
Permalink

NY Timesが過去のアーカイブを含めてすべて無料化したわけだが、そのシステム的な移行措置として過去のスキャンしたTIFF画像をPDFに変換する必要があったのだ。TIFFのサイズは合わせて4TBという巨大さ。

これを行うのに次の構成をとったそうだ:PDF変換にiTextを用いる。変換するマシンはAWS上の100インスタンスをHadoopでMapReduce構成をとることで並列化した。これによりすべてのPDF変換(なんと成果物は1.5TB)が、24時間未満の時間で終了したのだ。そして作業をしたのは、一人のプログラマだけである。

だから言ったでしょ。もう時代は一人大規模サービスの時代なんですよ。そのためのインフラはちょっと工夫すれば、もう個人の手に入るんですよ。だからこそ、GoogleよりもAmazonのほうが革命的なのだ。

  1. y1s reblogged this from yasunao-over100notes
  2. yasunao-over100notes reblogged this from yasunao
  3. makkyon reblogged this from akyt
  4. akyt reblogged this from bucket
  5. bucket reblogged this from gkojay
  6. echizen-kurage reblogged this from syumari
  7. peperon999 reblogged this from butazuratruk
  8. butazuratruk reblogged this from la3
  9. e-tag reblogged this from nagas
  10. tondol reblogged this from kondot
  11. rarihoma reblogged this from kondot
  12. la3 reblogged this from kondot
  13. natsume17 reblogged this from kondot
  14. tosh728 reblogged this from sironekotoro
  15. sironekotoro reblogged this from etecoo
  16. piyoko reblogged this from gkojay
  17. fuun reblogged this from ilovebookmark
  18. rokugen reblogged this from yasunao
  19. masarst reblogged this from etecoo
  20. kyohei1989 reblogged this from etecoo
  21. goldneko reblogged this from etecoo
  22. take4k reblogged this from etecoo
  23. ilovebookmark reblogged this from etecoo
  24. etecoo reblogged this from gkojay
  25. ryka reblogged this from gkojay
  26. nagas reblogged this from kondot
  27. nexten reblogged this from kondot
  28. mnak reblogged this from gkojay
  29. kawanabe reblogged this from stratums
  30. yasunao reblogged this from wonderthinkanswer
  31. wonderthinkanswer reblogged this from gkojay
  32. stratums reblogged this from 0shun
  33. kirisaki reblogged this from kondot
  34. 0shun reblogged this from kondot
  35. kondot reblogged this from gkojay
  36. gkojay reblogged this from kuwataro
  37. nowri reblogged this from proto-jp
  38. radioya reblogged this from yaruo
  39. coluli reblogged this from ireblog
  40. iyoda reblogged this from 778
  41. wiggling reblogged this from jacony and added:
    log: 大規模インフラ個人運用:AWS Hadoopの成功例
  42. teotr reblogged this from 778
  43. pcatan reblogged this from ginzuna
  44. 778 reblogged this from jacony