Primeur: infrastruttura iperconvergente Proxmox multi-nodo con Ceph, PBS e Disaster Recovery con MSDR

Settore: Data Integration
Scenario: Infrastruttura privata mission-critical
Soluzione: Cluster iperconvergente Proxmox VE con Ceph, Proxmox Backup Server e Multi Site Disaster Recovery (MSDR)
Servizi Atlante: Supporto tecnico, monitoraggio proattivo, aggiornamenti pianificati, garanzia hardware, test periodici di disaster recovery

Executive summary

Primeur, azienda con oltre 35 anni di esperienza nella data integration, ha intrapreso un percorso di evoluzione della propria infrastruttura IT con l’obiettivo di aumentare resilienza, scalabilità e controllo operativo, riducendo al contempo la complessità gestionale e i costi.

Atlante Informatica ha progettato e implementato una piattaforma iperconvergente basata su Proxmox VE, con architettura multi-nodo e storage distribuito Ceph, affiancata da un sistema di backup avanzato tramite Proxmox Backup Server e da una soluzione di disaster recovery multisito basata su MSDR.

L’architettura prevede un cluster di produzione a 6 nodi e un cluster di disaster recovery a 3 nodi, con replica dati tra siti tramite mirroring Ceph. Questo approccio consente di ottenere continuità operativa anche in scenari di fault critico, con RTO e RPO inferiori alle 2 ore, oltre a garantire coerenza del dato e rapidità di attivazione del sito secondario.

Il risultato è un’infrastruttura completamente ridondata, priva di single point of failure, in grado di supportare workload mission-critical con elevata efficienza operativa. Il cliente ha registrato una riduzione del TCO di circa il 20%, insieme a un miglioramento significativo delle performance di backup, restore e disaster recovery.

Il Cliente e il Contesto Applicativo

L’infrastruttura preesistente presentava limiti strutturali tipici di ambienti non pienamente iperconvergenti:

  • isolamento dello storage tra i nodi
  • backup multi-site complessi.
  • difficoltà nella gestione delle finestre di manutenzione
  • costi di licensing elevatiIn questo contesto, anche attività ordinarie come aggiornamenti o interventi infrastrutturali comportavano difficoltà di gestione.

I requisiti progettuali erano quindi:

  • eliminazione dei single point of failure
  • alta disponibilità reale a livello cluster
  • backup e restore più rapidi e granulari
  • disaster recovery multisito efficace
  • maggiore scalabilità e flessibilità
  • riduzione del TCO

Architettura della Soluzione

La soluzione progettata da Atlante Informatica si basa su un’architettura iperconvergente distribuita, costruita su Proxmox VE e Ceph, con l’obiettivo di garantire elevata disponibilità, scalabilità lineare e completa integrazione tra risorse di calcolo, storage e networking.

Il sito di produzione è stato realizzato su un cluster a 6 nodi, che aggrega circa 288 core fisici, oltre 570 vCPU e circa 6 TB di RAM. Lo storage è completamente distribuito tramite Ceph e raggiunge una capacità complessiva di circa 135 TB, consentendo una gestione uniforme e resiliente dei dati.

Il sito di disaster recovery è invece basato su un cluster a 3 nodi, dimensionato per garantire continuità operativa in caso di failover. In questo caso le risorse disponibili sono circa 144 core fisici, 288 vCPU, 3 TB di RAM e circa 90 TB di storage distribuito.

Dal punto di vista del networking, l’infrastruttura è stata progettata con una segmentazione rigorosa del traffico, separando i flussi di management, storage, replica e traffico delle macchine virtuali. L’utilizzo di bonding con protocollo LACP e collegamenti ad alta velocità, fino a 100 Gbit, consente di sostenere senza colli di bottiglia le operazioni di replica e le attività I/O più intensive.

La protezione dei dati è affidata a Proxmox Backup Server, implementato sia in locale sia sul sito secondario. I backup vengono eseguiti con frequenza multi-oraria e giornaliera, con cifratura attiva e maggiore granularità rispetto alla soluzione precedente.

La presenza di un PBS remoto introduce un ulteriore livello di resilienza, permettendo non solo restore rapidi in locale, ma anche il recupero dei dati su base geografica.

Disaster Recovery Multisito con MSDR

La componente di disaster recovery è stata realizzata attraverso la soluzione MSDR (Multi Site Disaster Recovery), implementata da Atlante Informatica, basata su mirroring Ceph tra cluster distinti e geograficamente separati.

In questo modello, i dati vengono replicati in modo continuo dal sito primario a quello secondario, mantenendo una coerenza point-in-time delle macchine virtuali. Questo consente, in caso di fault critico, di promuovere rapidamente il cluster di disaster recovery a sito principale e riattivare i workload in tempi ridotti.

L’architettura supporta sia scenari classici di disaster recovery (replica unidirezionale), sia configurazioni più avanzate in modalità multisite, dove entrambi i cluster possono operare contemporaneamente e replicarsi reciprocamente. Questa flessibilità permette di adattare la soluzione a diversi livelli di criticità e requisiti di business continuity.

L’integrazione nativa con Proxmox consente di gestire l’intero processo in modo centralizzato e automatizzato, riducendo significativamente la complessità operativa. Le operazioni di failover e failback risultano quindi controllate, ripetibili e verificabili, aspetto fondamentale in contesti mission-critical e in presenza di requisiti normativi stringenti.

Per rendere i test di disaster recovery realmente ripetibili e privi di impatto sulla produzione, all’interno del cluster di produzione e di quello di disaster recovery è stata creata, in modalità nested, una copia virtuale dello stesso ambiente. Questo consente a Primeur di simulare ogni mese scenari reali di disaster recovery, con VM eseguite all’interno di un’infrastruttura virtualizzata, effettuando test completi di distruzione e ricostruzione dell’ambiente.

L’approccio permette di svolgere le attività in orario di ufficio, senza interferire con la produttività, e di comprendere con precisione il comportamento di MSDR nei diversi contesti operativi.

Risultati ottenuti

Dal punto di vista tecnico, la nuova infrastruttura ha eliminato i principali single point of failure e distribuito correttamente i workload su tutti i nodi del cluster. Questo ha reso possibile eseguire attività di manutenzione e aggiornamento senza interruzioni percepibili, migliorando significativamente la continuità operativa.

Le performance complessive risultano elevate, con latenze contenute e assenza di colli di bottiglia evidenti sullo storage distribuito. La mobilità delle macchine virtuali tra i nodi consente inoltre una gestione dinamica delle risorse.

Sul fronte della protezione dati, i miglioramenti sono stati altrettanto rilevanti. I tempi medi di backup si sono notevolmente abbassati, mentre le operazioni di restore risultano più rapide e granulari. Il disaster recovery multisito è ora pienamente operativo e testato, con un miglioramento significativo degli obiettivi di RTO e RPO rispetto alla situazione precedente.

Anche dal punto di vista economico e organizzativo, i benefici sono concreti. Primeur ha registrato una riduzione del costo totale dell’infrastruttura di circa il 20%, insieme a una maggiore rapidità nel provisioning di nuovi servizi e macchine virtuali. L’integrazione con strumenti di automazione ha ulteriormente contribuito a migliorare l’efficienza operativa.

Il Valore dei Servizi Atlante

Accanto alla componente tecnologica, un ruolo fondamentale è stato svolto dai servizi erogati da Atlante Informatica. Il cliente può contare su supporto tecnico specializzato, monitoraggio proattivo, aggiornamenti pianificati e garanzia hardware, elementi che permettono di mantenere l’infrastruttura sempre efficiente e aggiornata.

Questo approccio consente di presidiare l’intero ciclo di vita della piattaforma, dalla fase di implementazione fino alla gestione operativa quotidiana, riducendo il rischio di disservizi e migliorando la capacità di intervento in caso di anomalie.

Conclusioni

Il progetto realizzato per Primeur dimostra come un’infrastruttura iperconvergente basata su Proxmox, integrata con Ceph, PBS e MSDR, possa rappresentare una soluzione completa per ambienti mission-critical.

L’adozione di un’architettura distribuita e resiliente, unita a strumenti avanzati di backup e disaster recovery multisito, ha permesso di ottenere un sistema più semplice da gestire, più scalabile e significativamente più affidabile.

Il valore generato non si limita al miglioramento tecnologico, ma si estende alla riduzione della complessità operativa, al contenimento dei costi e alla possibilità di affrontare con maggiore sicurezza sia le attività quotidiane sia gli scenari di emergenza.

Infrastruttura Iperconvergente (HCI)

Semplifica la gestione e migliora l’efficienza combinando computing, storage e networking.

Scopri la gamma di cluster iperconvergenti
Primeur

Primeur è una smart data integration company che fornisce tecnologia e consulenza per semplificare la gestione dei dati con scalabilità e flessibilità.

Sito: Primeur.com