脳ざらし紀行


2003-10-02

_ [ネット] ボット

User-Agentが

Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)

なボットが来襲しまくり。xxx.ppp.dion.ne.jp と xxx.tokyo.ocn.ne.jp と xxx.o-tokyo.nttpc.ne.jpから。

_ [ネット] Google File System

読んだ。メモ。

数十TBのデータを扱うためのシステム。

Googleの検索システムだけでなく、研究、開発のデータを扱うときにも使われている。Google社内での使われ方に特化したデザインにファイルシステムはなっている。

sequential な read と append が圧倒的に多いのでそれに特化している。

1台の master と 数百台の chunkserver が1つの cluster を構成する。これに 数百台のクライアントが接続する。chunkserverは Linux マシン。

master がファイルシステムのメタデータを一手に管理する。リバランシング、ガーベッジコレクションも master が行う。

1つのファイルは複数の固定サイズの chunk に分割されて、chunkserver に Linuxのファイルシステムの通常のファイルとして保存される。このとき、1つの chunk は3台の chunkserver に複製されて保存される。

chunkのサイズは64MB。64KBごとに checksum を計算して、chunkserver に記憶。読み出す時は checksum をチェックしてから、クライアントにデータを送信する。

クライアントがデータを読み出す時。クライアントはまず masterに接続して、ファイル名と off setを送信。すると、master はファイルの該当する部分の chunk を保存している複数の chunkserver の名前を返す。クライアントはもっとも近い chunkserver に接続して直接データを読みとる。

データのやりとりには masterを経由しない。 masterがボトルネックになるのを防いでいる。

このファイルシステムにはキャッシュは存在しない。個々の chunkserverには Linuxファイルシステムのキャッシュが当然存在するけど。

同じファイルに同時に appendできる。

ファイルの作成、書き込む、追加などは全て masterにログが保存される。これはリモートにもバックアップが保存される。このデータがシステムの生命線。

_ icewm 1.2.13

でた。

お名前:
E-mail:
コメント:
本日のリンク元

最近のコメント

2003|01|02|03|04|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|04|05|
2011|04|
2012|03|07|
2013|01|02|07|
トップ «前の日記(2003-10-01) 最新 次の日記(2003-10-03)» 編集