Vine Linux バグトラッキングシステム - Vine Linux
課題の詳細を表示
0001341Vine Linux1 バグ公開2012-09-07 20:142012-12-10 22:37
anonymous 
daisuke 
不明 
完了実装済 
6.1 
6.16.1 
x86, x86_64
なし
0001341: nfs上にホームディレクトリがあるとハングする
NISとNFSを使って、ユーザ情報とホームディレクトリを共有しているネットワーク構成を作っています。
この度、サーバ(NISサーバ兼、NFSサーバ)をVine 5.2からVine 6.1へアップグレードしました。
クライアント側は、既にVine 6.1で使っていました。
それ以後、以下のトラブルがあり、困っています。

問題
リモートユーザ(NISで登録されている)がログインしようとすると、ハングアップする。
具体的には、
・GNOMEを起動しようとしているようですが、メニューバーなどは一切表示されず、マウスのみ表示される状態になる。
・マウスは動く。
・Ctrl+Alt+F2などで、コンソールに移ると、システムは起動していて使える。
・ただし、df, ls, syncなどディスクアクセスを伴うような操作をすると、そこでフリーズする。
・また、その状態になっても、別のコンソールに移って、操作はできる。
となります。
リモートユーザのホームは、NFSサーバ上にあり、NFSマウントして利用しています。

以下のことは確認しました。
・ローカルユーザ(/etc/passwd)がログインする場合は、GNOME/KDEは正常に使える。
    ※ デスクトップは正常にインストールされていそう
・ローカルユーザからrootになり、nfsマウントをかけると、正常にマウントできて、アクセスもできる。
・NFSはバージョン3と4を試みたが、ローカルユーザからは問題なく、使用できる。
   ※ NFSの設定も大丈夫そう(サーバがVine 5.2までは使えたし)
・リモートユーザが、別のPCからリモートログインする場合は、正常に使用できる。
   つまり、NFS上のホームにアクセスでき、ディスク操作をしても、フリーズしない。
・/var/log/messagesには、サーバ側はNFSのリクエストを受付けたメッセージが残りますが、
クライアント側はNFS time outになっているようです。これはフリーズする場合で、リモートログインなど
正常に使える場合は、何もでません。

と言うことで、原因がしぼれません。
NFSサーバ上にホームがあるNISユーザが、グラフィカルログインすると、障害が発生する
と言う、奇妙な現象に悩んでいます。

GNOMEの異常、NFSサーバの設定ミス、グラフィックドライバなど、考え得る状況は
いろいろ想定したのですが、今回はお手上げです。
何か解決策はありませんか?
設定されていません。
課題の履歴
2012-09-07 20:14anonymous新規課題
2012-09-11 00:15anonymousコメント追加: 0000994
2012-09-20 16:13anonymousコメント追加: 0000995
2012-10-20 23:28daisukeコメント追加: 0007467
2012-10-20 23:28daisuke担当者 => daisuke
2012-10-20 23:28daisuke状態新規 => 要追加情報
2012-10-20 23:28daisuke状態要追加情報 => 担当者決定
2012-11-01 15:03daisuke状態担当者決定 => テスト待ち
2012-11-22 15:57daisukeコメント追加: 0007586
2012-11-22 15:57daisuke状態テスト待ち => 要追加情報
2012-12-10 22:37iwamotoコメント追加: 0007620
2012-12-10 22:37iwamoto状態要追加情報 => 完了
2012-12-10 22:37iwamoto解決状況不明 => 実装済
2012-12-10 22:37iwamotoバージョン6.1, 6.0 => 6.1
2012-12-10 22:37iwamoto修正済バージョン => 6.1
2012-12-10 22:37iwamoto修正予定バージョン => 6.1
2012-12-10 22:37iwamoto詳細更新bug_revision_view_page.php?rev_id=208#r208

コメント
(0000994)
anonymous   
2012-09-11 00:15   
続報です。

NFS周りが怪しいです。
NFSサーバでは、nfsdがずっと負荷が高い状態になっています。
この状態でもローカルユーザが、NFSマウントして使う分には、フリーズすることなく使えます。

Tasks: 187 total, 6 running, 181 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.0%us, 61.3%sy, 0.0%ni, 38.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 2261076k total, 2120872k used, 140204k free, 336632k buffers
Swap: 4325372k total, 1696k used, 4323676k free, 1216720k cached

  PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
 3309 root 20 0 0 0 0 R 68 0.0 6795:43 nfsd
 3304 root 20 0 0 0 0 S 67 0.0 6780:36 nfsd
 3306 root 20 0 0 0 0 R 64 0.0 6786:23 nfsd
 3308 root 20 0 0 0 0 S 63 0.0 6773:03 nfsd
 3305 root 20 0 0 0 0 R 62 0.0 6791:53 nfsd
 3311 root 20 0 0 0 0 R 61 0.0 6791:59 nfsd
 3307 root 20 0 0 0 0 R 61 0.0 6775:52 nfsd
 3310 root 20 0 0 0 0 S 59 0.0 6786:08 nfsd
10590 root 20 0 0 0 0 D 0 0.0 1:44.04 kworker/0:2
30302 root 20 0 0 0 0 S 0 0.0 0:57.11 kworker/6:0
    1 root 20 0 2784 1292 1088 S 0 0.1 0:01.60 init
    2 root 20 0 0 0 0 S 0 0.0 0:00.13 kthreadd

クライアント側の負荷も高いです。
こちらは、どのプロセスとも言えないのですが、常時、2.0以上の負荷になります。
リモートユーザがログインすると、コンソールでも、8近くまで増加していきます。

カーネル3.0あるいはnfs v4で設定が変わったところとかあるのでしょうか?

> NISとNFSを使って、ユーザ情報とホームディレクトリを共有しているネットワー
> ク構成を作っています。
> この度、サーバ(NISサーバ兼、NFSサーバ)をVine 5.2からVine 6.1へアップグレ
> ードしました。
> クライアント側は、既にVine 6.1で使っていました。
> それ以後、以下のトラブルがあり、困っています。
>
> 問題
> リモートユーザ(NISで登録されている)がログインしようとすると、ハングアップ
> する。
> 具体的には、
> ・GNOMEを起動しようとしているようですが、メニューバーなどは一切表示され
> ず、マウスのみ表示される状態になる。
> ・マウスは動く。
> ・Ctrl+Alt+F2などで、コンソールに移ると、システムは起動していて使える。
> ・ただし、df, ls, syncなどディスクアクセスを伴うような操作をすると、そこ
> でフリーズする。
> ・また、その状態になっても、別のコンソールに移って、操作はできる。
> となります。
> リモートユーザのホームは、NFSサーバ上にあり、NFSマウントして利用していま
> す。
>
> 以下のことは確認しました。
> ・ローカルユーザ(/etc/passwd)がログインする場合は、GNOME/KDEは正常に使え
> る。
> ※ デスクトップは正常にインストールされていそう
> ・ローカルユーザからrootになり、nfsマウントをかけると、正常にマウントでき
> て、アクセスもできる。
> ・NFSはバージョン3と4を試みたが、ローカルユーザからは問題なく、使用でき
> る。
> ※ NFSの設定も大丈夫そう(サーバがVine 5.2までは使えたし)
> ・リモートユーザが、別のPCからリモートログインする場合は、正常に使用でき
> る。
> つまり、NFS上のホームにアクセスでき、ディスク操作をしても、フリーズしない。
> ・/var/log/messagesには、サーバ側はNFSのリクエストを受付けたメッセージが
> 残りますが、
> クライアント側はNFS time outになっているようです。これはフリーズする場合
> で、リモートログインなど
> 正常に使える場合は、何もでません。
>
> と言うことで、原因がしぼれません。
> NFSサーバ上にホームがあるNISユーザが、グラフィカルログインすると、障害が
> 発生する
> と言う、奇妙な現象に悩んでいます。
>
> GNOMEの異常、NFSサーバの設定ミス、グラフィックドライバなど、考え得る状況
> は
> いろいろ想定したのですが、今回はお手上げです。
> 何か解決策はありませんか?
(0000995)
anonymous   
2012-09-20 16:13   
解決ではありませんが、原因がわかってきました。

NFSサーバのカーネルを2.6.35の方にして、起動した場合、NFSマウントがうまくできました。
クライアント側は3.0.38でも良いようです。

ちなみに、NFS v3を指定してマウントさせています。

カーネル3.0系のNFSまわりがおかしい気がします。マウントオプションをいろいろ変えても
できそうにもありません。
他に事例はありませんか?

ところで、nfsnobodyのuid/gidが正しくないのではないかと言う場合があります。
/etc/passwdで、つぎのようになっていました。
nfsnobody:x:4294967294:492:Anonymous NFS User:/var/lib/nfs:/sbin/nologin

NISでは、65534を想定しているような気がします。/var/yp/Makefile内とか
# usermod -u 65534 nfsnobody
# groupmod -g 65534 nfsnobody
# id nfsnobody
uid=65534(nfsnobody) gid=65534(nfsnobody) groups=65534(nfsnobody)
と手動で、uid/gidをセットしました。これだけでは解決しなかったのですが。



> 続報です。
>
> NFS周りが怪しいです。
> NFSサーバでは、nfsdがずっと負荷が高い状態になっています。
> この状態でもローカルユーザが、NFSマウントして使う分には、フリーズすること
> なく使えます。
(0007467)
daisuke   
2012-10-20 23:28   
NISを使っていませんが、NFS単体でテストしている状況で現象を再現
することができていません。すこし原因となるものを絞り込んでいただ
くことはできますでしょうか? 

nfsnobodyが-2になっているのは仕様でしたが、64bit/32bit archで
ずれるのは好ましくないと思われますので、65534に固定するように変
更したいとおもいます。

とりあえずこちらでは再現はできないものの、nfs-utilsがkernelに
対して古いことは原因の一つと考えられますので、最新のバージョンに
更新したものを proposed-updates/6 にアップロードしましたので、
テストしてみてもらえますでしょうか?

nfs-utils-1.26-1vl6 です。

(0007586)
daisuke   
2012-11-22 15:57   
proposed-updates にある nfs-utils での追加情報をお待ちしています。
(0007620)
iwamoto   
2012-12-10 22:37   
20121210-3 を発行し、nfs-utils を更新しました。
完了とします。
問題が解決できていない場合には、新規案件として
BTS に登録いただけますようお願いします。