La continuità operativa e la ridondanza dei dati sono elementi fondamentali per l’affidabilità di un’infrastruttura IT, specialmente quando si tratta di ambienti virtualizzati.
In questo contesto, le schede SD configurate in modalità mirror su server Dell che eseguono VMware ESXi rappresentano una soluzione compatta e resiliente per l’hosting del sistema operativo dell’hypervisor.
Tuttavia, può accadere che una delle schede SD si deteriori o richieda una sostituzione.
Questo articolo guida passo dopo passo nel processo di sostituzione di una scheda SD guasta e nella corretta procedura di sincronizzazione per ripristinare il mirror, minimizzando i rischi di downtime o perdita di configurazioni. Il tutto con un focus pratico e orientato agli ambienti di produzione.
PREREQUISITI
Verificare le caratteristiche della scheda SD presente nel server
Dovremmo avere una scheda SD Dell iDRAC vFlash come mostrato nell’immagine sovrastante
Acquistare un Scheda di memoria da 16/32 GB SDHC fino a 95 MB / s, UHS-1, Classe 10, U3, V30
La scheda deve avere le stesse caratteristiche della scheda originale. In termini di dimensioni basta che abbia la stessa e/o superiore dimensione della SD originale.
CHECK DELL’ERRORE DELLA SD TRAMITE VCENTER
Il primo segnle d’allarme relativo alla rottura della scheda SD è possibile visualizzarlo sulla console del vCenter
Come è possibile notare dall’immagine sovrastante dovremmo visualizzare l’errore
Status of other host hardware objects
Il messaggio Status of other host hardware objects in ESXi (tipicamente visualizzato come un warning o errore hardware in vSphere) indica che uno o più componenti hardware del server fisico presentano uno stato non ottimale. Questo stato può riferirsi a:
Possibili cause:
- Modulo SD o IDSDM (come nel messaggio che hai mostrato prima): problemi con le schede SD usate per il boot del sistema.
- Sensori ambientali: temperatura, ventole, umidità fuori norma.
- Batterie (es. controller RAID con batteria degradata).
- Componenti interni vari: alimentatori, sensori generici, controller, ecc.
- Problemi minori o intermittenti: che non impattano il funzionamento immediato ma indicano che qualcosa merita attenzione.
Non è necessariamente un errore bloccante, ma è un indicatore preventivo che qualcosa richiede verifica o potrebbe causare problemi a breve. È importante investigare prima che evolva in un guasto critico.
CHECK DELL’ERRORE DELLA SD TRAMITE IDRAC
Altro check che è possibile fare è tramite l’iDRAC.
Collegarsi all’iDRAC del server col problema
Cliccare su Overview -> Server
Nella pagina System Summary dovremmo visualizzare l’errore (X rossa) in corrispondenza di Removable Flash Media. Cliccare su Removable Flash Media
Dovremmo visualizzare la struttura delle SD presenti e quindi individuare la scheda in errore.
Nel mio caso la SD con il problema è la SD2
E come è possibile notare dall’immagine sovrastante il Redundancy Status è Lost
Dopo aver capito che il problema è la scheda SD numero 2 procedere con gli steps successivi
BACKUP DELLA CONFIGURAZIONE DEL SERVER ESXI
Prima di fare qualsiasi attività procedere con il backup della configurazione di ESXi (se non già fatto)
Collegarsi all’Host ESXi ramite SSH o console quindi eseguire il comando:
0 |
vim-cmd hostsvc/firmware/backup_config
|
Dovremmo visualizzare il seguente output:
0 |
http://*/downloads/5297ad6d-7ea9-6738-1d42-935950a91a43/configBundle-SRV-ESXI-01.test.it.tgz
|
NOTA BENE: al posto dell’asterisco inserire l’indirizzo IP dell’Host ESXi
Aprire un qualsiasi browser dal PC e richiamare il seguente link:
http://<esxi-host-ip>/downloads/configBundle-<hostname>.tgz
Quindi scaricare il file .tgz.
Mettere il server in Maintenance Mode (opzionale ma consigliato) con il comando:
0 |
esxcli system maintenanceMode set --enable true
|
Spegnere il server
CONTROLLI SUL BIOS
Accendere il server ed entrare nel BIOS
Avviato il server premere F2 per accedere al BIOS
Dovremmo visualizzare l’alert mostrato nell’immagine sovrastante che ci dice:
UEFI0119: La ridondanza RAID del Modulo Digitale Sicuro Interno Duale (IDSDM) è stata persa.
Non è richiesta alcuna azione aggiuntiva se hai seguito le istruzioni sullo schermo per avviare il processo di ricostruzione.
UEFI0122: La scheda SD secondaria è mancante, non risponde o è in modalità protetta da scrittura.
Esegui una delle seguenti azioni:
Inserisci un supporto SD nello slot secondario della scheda SD.
Rimuovi e reinserisci oppure sostituisci la scheda SD.
Se la scheda SD secondaria è intenzionalmente non installata o la modalità protetta da scrittura è prevista, allora non è richiesta alcuna azione.
Cliccare su System BIOS
Cliccare su Integrated Devices
Accertarsi che la configurazione sia identica a quella mostrata nell’immagine sovrastante
Internal SD Card Port: ON
Internal SD Card Redundancy: Mirror
Internal SD Primary Card: SD Card 1
A questo punto è possibile uscire dal BIOS e provvedere allo spegnimento del server.
SOSTITUZIONE E CONFIGURAZIONE DELLA NUOVA SD
Aprire il server (o l’accesso hot-swap se disponibile).
Rimuovere la SD rotta.
Inserire la nuova scheda SD (stessa capacità o superiore) come mostrato nell’immagine sovrastante
Accendere il server ed entrare nel Lifecycle Controller premendo F10
Dovremmo visualizzare la seguente schermata che ci prorpone di fare il rebuild del mirror delle sachede SD
Avviare il rebuild premendo Y
Dovremmo visualizzare la dicitura Rebuild was started. It will be performed in the background
Attendere qualche minuto fino al termine del Rebuild
Al termine del Rebuild dovremmo visualizzare la seguente schermata.
Cliccare Exit per uscire
CONTROLLO DELLO STATO DEL MIRROR DELLE SD
Collegarsi all’iDRAC del server
Cliccare su Removable Flash Media
Se è andato tutto a buon fine dovremmo visualizzare una schermata come quella sovrastante
A questo punto è possibile avviare ESXi
Controllare che tutto funzioni regolarmente e che il messaggio di errore Status of other host hardware objects sia scomparso.
Rimuovere il server dalla Maintenance Mode con il comando:
0 |
esxcli system maintenanceMode set --enable false
|
🔥 NOTA IMPORTANTE: Il rebuild può richiedere da 15 minuti fino a 1-2 ore.
🔥 ATTENZIONE: Non spegnere il server durante il rebuild!
🔥 ATTENZIONE: Se la nuova SD è di capacità diversa, a volte il sistema può rifiutare di ricostruire. Consigliato usare SD identiche.
0 commenti