仮想サーバを構築するための基盤メモ 2024/03/28版


VMware/vSphereがあんなことになってしまったので問い合わせが多いのでメモ

VMware vSpere

VMware vSphere / ESXi はBrocadeに買収されたことで、アレな感じになって迷走中

Microsoft Hyper-V

Windows Serverにも含まれるHyper-V

Hyper-V Sevrer 2019という仮想基盤だけのやつは無料製品としてあるんだけど、2022版が出ていないので、終わるのか?

物理サーバ間を稼働中の仮想マシンを移動させることは、Windows Serverのフェイルオーバークラスタリング(MSFC/WSFC)、System Center Virtual Machine Managerを利用することで実現する。(ライブマイグレーションの概要)

Nutanix

VMware vSAN/HCI環境を似たような構成で移行しようとすると、Nutanixになる。(というか、NutanixをまねしたのがvSAN)

vSAN = AOS Storage
ESXi hypervisor=Nutanix Acropolis Hypervisor(AHV)
vCenter Server=Prism

単体AHVに標準でPrism Elementも含まれてて、これだけでもクラスタを組める

Prism Centralは、Prism Elementで作ったクラスタを複数まとめて管理したり、また、仮想マシンをSecure boot対応にする場合の暗号化キー管理などを行える。

RHEV/RHV → RedHat OpenShift Virtualization

RedHat Virtualization / RedHat Enterprise Virtualzation、RHEVというのがあったんだけど、これは終了したプロダクトとなる。

後継はRedHat OpenShift Virtualizationとなる。

旧ドキュメント: Product Documentation for Red Hat Virtualization 4.4

ドキュメント: OpenShift Container PlatformAbout OpenShift Virtualization

Proxmox VE

Proxmox Virtual Environment は最初はRHEL or Debianベースでコンテナを動かすやつだったものが、時代の流れでDebianベースのKVM/qemu仮想マシンとlxcコンテナを動かすやつに変わっていったもの

長く続くプロダクトなので、一通り使える Web GUIが備わっているし、複数物理サーバの一括管理物理サーバ間の仮想マシン移動(Online Migration)HA機能があるが、Webでは設定できずコマンド実行が必要な機能は多い。

一般向けドキュメント: Proxmox VE Documentation Index
旧来からの資料サイト: PVE wiki

Oracle OLVM

Oracle VM Server for x86 というのがあったんだけどOracle VM 3で終了になった。

後継として、Oracle LinuxのKVMベースで構築して、管理UIとして Oracle Linux Virtualization Manager を提供する、という形に変わっている。

oVirtを利用していて、そもそもRedHatVirtualization 4.xのOracle版がOLVM 4.xとなる。RedHatが提供をやめたので今後どうなるのか不明確。

oVirt

RHV/RHEV/OLVMで利用している元の技術 oVirt

RHV/OLVMは4.4.xで止まっているが、oVirtの方は4.5.xが出ている。

ドキュメント: oVirt documentation

Citrix Hypervisor(XenServer)

Linux KVMより歴史が古い仮想化技術 Xen を使用したもの。

2024/03/25にXenServer 8が出たばかり

vCenterに相当するものはXenCenterとなっている。

XCP-ng / Vates

XenServerのオープンソース版がXCP-ng だったんだけど、なんかいつの間にかXCP-ngの商用サポート版として Vates なるものが登場してる

Vatesの方にはHCIプロダクトとして、XOSTORなるものもあるようだ

サポートと価格について

Sangfor HCI

構成がよくわからんけど Sangfor HCI というのがあるらしい

ZStack Cloud

中国で開発されているZStack

インストール用ISO提供あり

中国産なのでopenEulerベースかと思ったら、CentOS 7ベースのh76c,h79cとRocky Linux 8ベースのh84r だった。また、ISOがリリースされているのはx86_64向けのみだけど、GUI的にはARM, 龍芯系(mips64el,loongarch)向けも想定されてる模様。

ドキュメント: ZStack Cloud Documentation
github: https://github.com/zstackio/zstack

参照先

vinchin How to Migrate RHV/RHEV VMs to Other Hosts?
この記事にRHEVからの乗り換え先として「VMware, Citrix Hypervisor/XenServer, XCP-ng, Oracle OLVM, oVirt, Sangfor HCI, OpenStack, ZStack, Huawei FusionCompute, and H3C CAS/UIS」と記載されていて、知らないのがあるな、というのが記事を書くきっかけ

Storware vProtect documentation Virtual Machines
バックアップソフトのマニュアルなんだけど、対応してる各仮想環境でどういう風にバックアップを取るのかという構成図がある。

Nutanix CE 5.18でFile Serverを有効にしようとしたけど1TBなかったので失敗?


Nutanix Community Edition 5.18では、Nutanix File Server機能が利用できるようになった。

まず[設定]-[ソフトウェアアップグレード]-[File Server]を開く

今回は、この時点での最新版 3.7.3を選択し、ダウンロード開始

ダウンロードが終わったら「Continue」

すでに「ファイルサーバー」が起動していました。

[+File Server]をクリックしてファイルサーバーを追加

ファイルサーバについての設定を入力

0.1TBはエラー

用意された物理ストレージサイズより大きい1TBは警告がでるけど通った。

「クライアントネットワーク」設定

「ストレージネットワーク」設定

「ディレクトリサービス」設定

NFSは「未管理」で設定

「サマリー」の確認

[Create]ボタンを押して作成

作成中…

失敗した・・・

ディスクを1TB以上用意しておかないと設定できないっぽいな

ESXi上のNutanix CE AHVをアップデートした


ESXi上にNutanix CE AHVをインストールした」でインストールしたNutanix CE環境をアップデートしてみた。

2021/03/17追記: CE 5.11からCE 5.18へのアップデートを行い、その時のキャプチャも追加した

トラブルポイントのまとめ

なんとなく手順を進めていったらいくつかキツイ問題が発生してアップデートプロセスが止まったりした。今回発生した問題は下記3点

・AHVのrootパーテーション容量が足らない
・AHV内の標準仮想マシン設定にあるPC Typeが初期値に戻るので既存の仮想マシンが起動しない
・AHV内のCVM仮想マシン設定にあるPC Typeがpc-i440fx-rhel7.3.0になり起動しない
・CVM仮想マシンのメモリが12GBだとサービスが起動しない

なお、調査の際に参考になったページ「Nutanix CE: Cannot Start VM」「Guest VM Running in Nested Nutanix CE on VMware vSphere Won’t Boot

CVM仮想マシン上のサービスが起動しないあたりは「PRISM SERVICES HAVE NOT STARTED YET. PLEASE TRY AGAIN LATER

実際に実施した手順はもっといろいろあったが、完了後に、たぶんこの順序で実施すれば大丈夫だったんだろう、というものを下記に手順として残す。

手順1 アップデータ入手

Download Community Edition (CE-2020.09.16/CE 5.18)」もしくは「Download Nutanix CE, Docs, and Guides (CE-2019.11.22/CE 5.11.1.2)」から下記のファイルをダウンロード。

・「Metadata for AOS, AHV upgrades and PC deployment」のce-2020.09.16-metadata.zip か ce-2019.11.22-metadata.zipを展開してjsonファイルを取りだしておく
・「AOS Upgrade」(ce-pc-upgrade-2020.09.16.tar.gz か ce-2019.11.22-upgrade.tar.gzのままで使う)
・「AHV Upgrade」(CE 5.18ではLCMからの操作に変更。CE5.11.1.2は host-bundle-el7.nutanix.20191030.415.tar.gz のままで使う)

手順2 CVM仮想マシンの自動起動を止める

この後、何回かNutanix CE仮想マシンを再起動する。その際にCVM仮想マシンの起動が完了するのを待っていると時間がかかるので、自動起動を止める。

「virsh list –all」でCVM仮想マシンのIDを確認して、「virsh autostart <ID> –disable」と実行すると自動起動が止まる。

手順3 Nutanix CE仮想マシンのディスク拡大

AHVのrootパーテーションの空き容量が足らない為アップデートが失敗することがある。

その場合はvSphere側でNutanix CE仮想マシンのディスクサイズを拡大する。

たぶん、ハードディスク1は10GB未満だと失敗するので12GB程度にする。

標準の「ハードディスク1」が約7GBとなっている。

これを、12GBに増やす。

変更後、Nutanix CE仮想マシンを再起動する。

再起動後、vSphereのコンソールを開き「root」ユーザでログインする。デフォルトパスワードは「nutanix/4u」

ログイン後、現在のディスク使用状況と、システムディスクである/dev/sdaのパーテーション構成を確認する。

「df -h」と「fdisk -l /dev/sda」を実行する。

パーテーション変更は「fdisk /dev/sda」を実行して行う。

既存のパーテーションを「d」で消して、新しいパーテーションを作成しなおす、という形になる。

bootフラグのセットも忘れずに

最後は「w」で書き込みを実行する。

再起動しないと新しいパーテーションで認識してくれないので、再度Nutanix CE仮想マシンを再起動する。

再起動後、再度「fdisk -l /dev/sda」と「df -h」を実行してみると、fdiskの方は新しいディスクサイズで認識しているが、rootパーテーションはまだ古い容量のままとなっている。

「resize2fs /dev/sda1」を実行してファイルシステムの拡張を行い、新しいディスク容量が反映される。

手順4 CVM仮想マシンの自動起動を戻す

AHV内のCVM仮想マシンの自動起動設定を戻し、自動起動するようにする。

「virsh list –all」でCVM仮想マシンのNameを確認して、「virsh autostart <Name>」を実行する。(起動していない場合はIdが割り当てられていないので、Nameで指定する必要がある)

自動自動設定ができたかどうかは「/etc/libvirt/qemu/autostart/」にXMLファイルがあるかで確認する。

「virsh start <Name>」でCVM仮想マシンを起動するか、rebootでNutanix CE仮想マシンを再起動する。

手順5 AOSアップデート

Nutanixにログインして「設定」の「ソフトウェアアップグレード」にある「AOS」を開く。

「AOS base softwareバイナリをアップロード」のリンクをクリック

AOS BASE SOFTWAREメタデータファイルは「ce-aos-upgrade-2020.09.16-metadata.json」か「ce-2019.11.22-upgrade-metadata.json」
AOS BASE SOFTWAREバイナリファイルは「ce-aos-upgrade-2020.09.16.tar」か「ce-2019.11.22-upgrade.tar.gz」
を指定する。

「今すぐアップロード」をクリックする。

上記の様になったらアップロード成功。

「Upgrade Now」を選択してアップデートを開始する。

アップグレードが進んでいきます。

ちなみに「Nothing To Do?」は下記の2048ゲームが表示されます。

途中、CVM仮想マシンの再起動などがあり、完了します。

手順6 Hypervisorのアップデート(CE 5.18の場合)

CE5.18では「LCM」にHypervisorのアップデートが移動している。

「LCM」の「Inventory」タブを開く

「Perform Inventory」を選択し、実行

Inventory終了後、「Updates」の「Software」に移動すると、アップデート可能なソフトウェア一覧が表示されている。

チェックをいれて「Update」ボタンを押す

適用確認で「Apply ? Updates」をクリック

アップデートが適用されるのを待つ

途中でhypervisorの再起動が2回実行されるので「Unable to reach server. Please check your network connection」という表示がしばらく出続けるが無視しておく

…とはいえ、30分以上経過しても表示上は↑の38%から変化しないのは不安なので、念のためログインしなおしてみても表示は変わらずでした。

45分ぐらい経過したところで、ようやく64%に進みました。

約1時間で終了

手順6 Hypervisorのアップデート(CE 5.11の場合)

CE 5.11ではNutanixの「設定」の「ソフトウェアアップグレード」にある「Hypervisor」を選択。

「upload a Hypervisor Binary」をクリックし、下記の選択をして「今すぐアップロード」する。

HYPERVISOR メタデータファイル「host-bundle-el7.nutanix.20191030.415-metadata.json」
HYPERVISOR バイナリファイル「host-bundle-el7.nutanix.20191030.415.tar.gz」

続いて、「Upgrade Now」を実施する。

で、アップグレードが進んでいきます。

たぶん、下記の様な「71%」から30分以上待っても進まないと思います。

いまの状態はHypervisorはアップデートできたものの、その上のCVM仮想マシンが起動していない状態となります。

手順7 AHV上の仮想マシンの標準設定の修正

vSphere上でNutanix CE 5.11を稼働させた場合、標準設定の状態ではNutanix上で作成した仮想マシンが起動しませんでした。

CE5.11で起動させるためには、「/var/cache/libvirt/qemu/capabilities/3c76bc41d59c0c7314b1ae8e63f4f765d2cf16abaeea081b3ca1f5d8732f7bb1.xml」 のalias=’pc’をpc-i440fx-rhel7.2.0の行に付け直します操作が必要でした。

該当ファイルは下記の様な形になっていて、「alias=’pc’」がpc-i440fx-rhel7.3.0の行についています。

これを「pc-i440fx-rhel7.2.0」の行に「alias=’pc’」設定を移動させます。

手順としては、pc-i440fx-rhel7.3.0の行をpc-i440fx-rhel7.2.0書き換えて、既存のpc-i440fx-rhel7.2.0設定を削除するのが簡単でしょう。

画像

CE5.18の場合は、pc-i440fx-rhel7.6.0 にalias=’pc’ がありました。CE 5.11を稼働させた時のESXiサーバとハードウェアが異なっているせいかどうかわかりませんでしたが、pc-i440fx-rhel7.6.0設定のままで動いたので、そのままにしています。

もし、動かない場合は、pc-i440fx-rhel7.2.0 に移動挿せてみてください。

手順8 AHV上のCVM仮想マシン設定の修正

CE5.11へのアップデート時は、CVM仮想マシンの仮想マシンタイプ設定が「pc-i440fx-rhel7.3.0」に設定されていました。(CE5.18へのアップデート時は、pc-i440fx-rhel7.2.0設定のままでした)

設定の確認は「virsh dumpxml <name>|less」で行います。
設定変更は「virsh edit <Name>」となります。

viコマンドでxmlファイルが開かれますので、「pc-i440fx-rhel7.3.0」を「pc-i440fx-rhel7.2.0」に書き換えて保存します。

また、「<memory unit=’KiB’>~</memory>」のメモリ容量を増加させます。Nutanix CE標準だと最低28GBとなっているようです。

参考としてGUIから設定できるCVMに割り当てられる容量は下記の様になっています。

これ以外の値に変更したい場合は、直接xmlを書き換えます。今回は約26GBで設定しています。

この後、CVM仮想マシンを再起動します

面倒ならNutanix CE仮想マシンごとrebootします。

手順9 終了

ESXi上のNutanix CE AHVの中でPrism Centralを立ち上げようとしたらKernel Panicで何もできない



ESXi6.0上に3ノードのNutanix CE AHVクラスタを組み、Prism Centralをインストールしようとしたら失敗した。

コンソールを開いてみるとKernel Panicしている。

Nutanix CE ce-2017.07.20-stableにおけるPrism Centralの1-Clickデプロイがコケる場合のバッドノウハウ的なワークアラウンド」をみてbootとhomeを入れ替えてみたが、何も状況は変わらなかった。
結果的にはこのbootとhomeの入れ替えはやる必要は無かった。

解決につながる情報は「Run Nutanix CE nested on VMware ESXi 6.5 – solving some of the challenges you will face」で引用されている「Prism Central not booting」にあった。

原文は下記

1/ deploy PrismCE using ce-pc-2017.07.20-metadata.json and ce-pc-2017.07.20.tar

2/ grab /var/lib/libvirt/NTNX-CVM/svmboot.iso from an AHV host using SCP/SFTP

3/ upload it as an ISO image in a PrismCE container with name boot_PRISMCE

4/ edit PrismCE VM settings:
delete DISK scsi.0
delete CDROM ide.0
add new disk type CDROM / Clone from Image service / Bus type=IDE / Image=boot_PRISMCE
select CDROM as Boot Device

5/ power on PrismCE VM
blank screen during 20 sec and then everything works

Nutanix CE AHVホストの/var/lib/libvirt/NTNX-CVM/svmboot.iso をscpで手元にダウンロードし、
Nutanix上のISOイメージとして登録
その後、Prism Central VMのCD-ROMドライブの割り当てを上記のsvmboot.isoにして起動

そうすることで、ログイン画面にたどり着きました。
ここからの手順は「INSTALLING THE PRISM CENTRAL VM (AHV)」の7番から参考にします。
ログインは「nutanix」「nutanix/4u」

初期プロセスがいろいろ動いてるようなのでログイン可能状態であっても、10分ぐらい待ちます
なお、キーボード配列を調整していない場合は「]む」で「|」を入力出来ます。
で、待ってると1回再起動すると思います。

再起動後「sudo tail -f /tmp/config_home_dir.log」を実行して、プロセスが一段落するのを待ちます。

この段階ではDHCPでIPアドレスを取得していると思われるので、/etc/sysconfig/network-scripts/ifcfg-eth0 を編集し、固定IPアドレスを設定
/etc/hostsに「127.0.0.1 NTNX-10-3-190-99-A-CVM」といった行がある場合は削除
/etc/resolv.conf にDNSサーバのエントリを登録
で、再起動。
IPアドレスが変わった場合は、起動後、即再起動がかかる。

その後、再度ログインしてから「ps -ef|grep rc.local」を実行して、rc.localの実行が終わることを確認。
rc.lcoal内に「sleep 120」があるので、最低2分かかる。

再起動して、またnutanixユーザでログイン
「cluster –cluster_function_list=”multicluster” -s IPアドレス create」を実行
ここら辺からは「Nutanix CE ce-2017.07.20-stableにおけるPrism Centralの1-Clickデプロイがコケる場合のバッドノウハウ的なワークアラウンド」の8番以降の手順を行うこととなる。

で、「REGISTER (UNREGISTER) WITH PRISM CENTRAL」でNutanixのクラスタにPrism Centralを接続する。

・・・というのをやろうとしたが、結局、cluster setupで延々とリトライを繰り返し、成功することはなかった・・・
Prism Centralを使わなくてもやりたかったことはできるというのがわかって、セットアップは諦めました。

なお、セットアップ途中のPrism Centrl仮想マシンはWeb GUIから削除できなかったので
Nutanix CVMにsshでログインしたあと
「acli vm.list」で仮想マシン名を確認し
「acli vm.delete 仮想マシン名」で削除を実行しました。

ESXi上にNutanix CE AHVをインストールした


2019/11/12追記

ce-2019.02.11-stable.img.gzを使って環境を構築したところ、インストーラーにキーボード選択が用意されたので、初期ログインから「install」を実行するだけで良くなった。

インストール後に行う作業もNutanix CE仮想マシン上での「/var/cache/libvirt/qemu/capabilities/3c76bc41d59c0c7314b1ae8e63f4f765d2cf16abaeea081b3ca1f5d8732f7bb1.xml」 のalias=’pc’をpc-i440fx-rhel7.2.0に変更する作業のみで済んだ


ESXi 6.0基盤上で、Nutanix CEをインストールした。

インストール手順は下記の2つを参考にした
・ネットワールド Nutanix CE を Nested ESXiへインストールする9つのTips
・NTNX ESXi で Nested Nutanix CE を構成してみる。(ce-2018.01.31-stable 対応版)

今回の環境では iSCSIストレージのVMFS上に仮想ディスクをおいたところ、 /sys/block/sd?/queue/rotationalの値は1だけど、Nutanix CE環境起動後に確認してみると、全部SSD認識となっていたので、ここの値変更は実施していない。

また、NTNXのページの方に書かれている「/home/install/phx_iso/phoenix/svm_template/kvm/default.xml」のmachineタイプ変更はやらなくても動いたので実施していない。
pmuの追加も「仮想 CPU のパフォーマンス カウンタの有効化」のチェックをオンにできる環境なので実施していない。

クラスタ作成は、インストーラ上の「Create single-node cluster?」にチェックを入れる手法は使わず、インストール後に手動でclusterコマンドを実行する手法をとった。
ただし、「cluster -s 192.168.1.191 create」というやり方では無く「cluster –dns_servers=192.168.1.100 –ntp_servers=192.168.1.101 -s 192.168.1.191 create」という形でDNSサーバとNTPサーバを指定する手法をとっている。

ただし、この手法の場合、DNSサーバとして追加で「8.8.8.8, 8.8.4.4」、NTPサーバとして「0.pool.ntp.org, 1.pool.ntp.org」も登録されているので、セットアップ完了後必要に応じ削除する必要がある。

詳細については→ Create & Configure Nutanix Cluster via command line を参照

インストール完了後、Nutanix CE仮想マシンにroot、パスワード「nutanix/4u」でログインし、「/var/cache/libvirt/qemu/capabilities/3c76bc41d59c0c7314b1ae8e63f4f765d2cf16abaeea081b3ca1f5d8732f7bb1.xml」の値を変更しないと、仮想マシンが正常に起動しません。

通常、仮想マシンを作成すると「machine=’pc’」と設定されています。
NUTANIX AHV 20180425.199環境では、この「pc」というのは「pc-i440fx-rhel7.3.0」のエイリアスになっています。
ESXi上の仮想マシンの場合「pc-i440fx-rhel7.2.0」でないと起動しないので、エイリアスの設定先を変更します。

変更前

<machine name='pc-i440fx-rhel7.3.0' alias='pc' hotplugCpus='yes' maxCpus='240'/>
<machine name='pc-i440fx-rhel7.2.0' hotplugCpus='yes' maxCpus='240'/>

変更後

<machine name='pc-i440fx-rhel7.3.0' hotplugCpus='yes' maxCpus='240'/>
<machine name='pc-i440fx-rhel7.2.0' alias='pc' hotplugCpus='yes' maxCpus='240'/

設定変更後は、全体の再起動を行います。

Hypervisorのホスト名を変える場合は、/etc/hostname と /etc/sysconfig/network のホスト名記載を書き換えます。
参考:CHANGING THE ACROPOLIS HOST NAME

CVMのホスト名を変える場合は、clusterを作った後にCVM上でrootになって「change_cvm_hostname 新ホスト名」を実行します
参考:Change CVM name
change_cvm_hostnameで変えたらPrismで「Rename CVM back to what it was originally. The CVM name is nonconfigurable by the end user.」という警告が・・・
どうやら、いまのバージョンではお薦めではないらしい