隨著近年來雲端技術的崛起,虛擬化技術也變得更加重要。透過虛擬化技術,管理者可以把硬體上的實體資源模擬為邏輯上的資源,透過hypervisor切割給多個獨立虛擬機使用。然而在實際運作環境中,實體主機與網路環境往往會有各種不同的軟體硬體錯誤,造成虛擬機上的服務中斷。我們針對一般電腦(沒有IPMI支援的)和ATCA架構下的工業電腦(具有IPMI硬體支援)兩種不同的電腦,提出可以提升高可用性的系統。在本系統裡透過HA Cluster的方式,改善過往採用單點式監控的缺陷,HA Cluster中的HA Agent相互監控以達到不需人工介入即可以用較少的downtime來回復服務。除了對實體機上硬體發生的錯誤,和軟體上各個component提出錯誤回復(Failure Recovery)的解決方式,為了讓我們的系統能夠更穩定的在每部電腦上運作,此系統在分析、設計、實作以及測試均遵循軟體工程流程。在設計方面除了產出一般的設計文件、把系統模組化設計外,並透過Petri net model來驗證Cluster運作方式。在開發方面透過利用版本控制系統保護程式碼的安全,並且在開發結束後以Code Review來增加系統的品質和可維護性。在測試方面,我們除了做Unit test, Regression test之外,並且使用靜態方式量化程式碼質量,確保我們程式碼是有品質的。實驗數據指出,我們的系統相較於其他相近的虛擬化技術除了可以提供較高的高可用性,亦能保有軟體品質。;It’s cloud technology has now taken off and virtualization technology has become more important. Administrator can emulate hardware resource to logic resource through hypervisor that it is helpful to reduce the amount of waste resource. However, virtualization technology will cause more failure on their server. We implement a highly available cluster in KVM open source project that support IPMI. It improves the previous system weaknesses that is cannot handle the HA agent failure. We also hope our system will robust that why we spend a lot of effort to enhance software quality during implement system. Using Petri net to proof our system; Using regression test to check code functionality; Using static analysis tool to proof our system is robust. In the result, we know our system performance is better than others technology and quality is also superior to previous system.