Cos'è missing?

Dati Mancanti (Missing)

Nel contesto dell'analisi dei dati e del machine learning, i dati mancanti (o valori mancanti) si riferiscono alla situazione in cui alcune informazioni richieste per un determinato dato non sono disponibili. Questo può avvenire per diverse ragioni, ad esempio:

  • Errori di raccolta: Durante la raccolta dati, potrebbero verificarsi problemi tecnici o umani che impediscono la registrazione di alcune informazioni.
  • Informazioni non applicabili: In alcuni casi, una determinata informazione potrebbe non essere applicabile a un particolare dato. Ad esempio, se si raccolgono dati sulle automobili, il campo "numero di airbag" potrebbe essere mancante per un'auto prodotta prima dell'introduzione degli airbag.
  • Privacy: In alcuni casi, le persone potrebbero rifiutarsi di fornire determinate informazioni per motivi di privacy.
  • Danneggiamento dei dati: I dati potrebbero essere danneggiati durante il trasferimento o l'archiviazione, portando alla perdita di alcune informazioni.

La presenza di dati mancanti può avere un impatto significativo sull'analisi dei dati e sui modelli di machine learning. Può distorcere i risultati delle analisi, ridurre la precisione dei modelli e persino rendere impossibile l'utilizzo di alcuni algoritmi. Pertanto, è importante affrontare il problema dei dati mancanti in modo appropriato.

Esistono diverse tecniche per gestire i dati mancanti:

  • Eliminazione: Rimuovere i dati con valori mancanti. Questa è la soluzione più semplice, ma può portare alla perdita di informazioni preziose, soprattutto se i dati mancanti sono numerosi. Si può decidere di eliminare righe intere (listwise deletion) oppure colonne (variable deletion). Per approfondire, vedi Eliminazione dei dati.
  • Imputazione: Sostituire i valori mancanti con valori stimati. Esistono diverse tecniche di imputazione, tra cui:
    • Imputazione con la media/mediana/moda: Sostituire i valori mancanti con la media, la mediana o la moda dei valori disponibili per quella variabile. Per saperne di più, consulta Imputazione%20con%20la%20media.
    • Imputazione con un valore costante: Sostituire i valori mancanti con un valore predefinito.
    • Imputazione con regressione: Utilizzare un modello di regressione per prevedere i valori mancanti. Per approfondire, vedi Imputazione%20con%20regressione.
    • Imputazione multipla: Creare più dataset imputati e combinarli per ottenere un risultato finale. Approfondisci consultando Imputazione%20multipla.
  • Algoritmi robusti ai dati mancanti: Alcuni algoritmi di machine learning sono progettati per gestire i dati mancanti senza richiedere l'imputazione o l'eliminazione.

La scelta della tecnica appropriata dipende dalla natura dei dati mancanti, dalla dimensione del dataset e dagli obiettivi dell'analisi. È importante valutare attentamente le implicazioni di ciascuna tecnica prima di applicarla.

Inoltre, è importante distinguere tra diversi tipi di dati mancanti:

  • Missing Completely At Random (MCAR): I dati mancanti sono distribuiti casualmente e non dipendono da altre variabili nel dataset. Per saperne di più su questo tipo di dato mancante, vedi MCAR.
  • Missing At Random (MAR): I dati mancanti dipendono da altre variabili nel dataset, ma non dal valore mancante stesso. Approfondisci il concetto di MAR.
  • Missing Not At Random (MNAR): I dati mancanti dipendono dal valore mancante stesso. Per una comprensione più approfondita, vedi MNAR.

Identificare il tipo di dati mancanti è fondamentale per scegliere la tecnica di gestione più appropriata. La scelta di una tecnica errata può portare a risultati distorti.