Gli ex studenti di machine learning di Google, Uber e Apple hanno avviato una nuova società per affrontare gli errori nei dati non strutturati.
Il CEO Vikram Chatterjee è stato in precedenza Head of Product Management presso Google Cloud AI. Il CTO Atindriyo Sanyal è stato il capo dell’ingegneria per la piattaforma AI di Uber Michelangelo ed è stato un ingegnere fondatore di SiriKit presso Apple. Il vicepresidente di Engineering Yash Sheth ha guidato il team di riconoscimento vocale di Google.
Galileo, la loro nuova impresa, è stata fondata nel novembre 2021 e opera sotto copertura fino al L’annuncio di oggi.
Chatterjee ha affermato che l’app Galileo è stata ispirata dalle conversazioni che ciascuno di loro ha avuto con professionisti dell’apprendimento automatico che lavorano con dati non strutturati, che secondo loro rappresentano l’80% dei dati generati oggi.
“Il più grande collo di bottiglia e tempo sprecato per l’apprendimento automatico di alta qualità è sempre la correzione dei dati con cui stanno lavorando.
“Questo è fondamentale, ma proibitivamente manuale, ad hoc e lento, il che porta a previsioni del modello scadenti e pregiudizi evitabili del modello che si insinuano nella produzione aziendale”, ha affermato Chatterjee.
“Stiamo costruendo Galileo con l’obiettivo di essere la piattaforma dati intelligente per i data scientist per esaminare, correggere e tracciare sistematicamente e rapidamente i loro dati ML in un unico posto”.
Secondo Galileo, i data scientist sprecano più del 50% del loro tempo nel tracciare gli errori dei dati, che è in gran parte un processo manuale.
Galileo mira a eliminare questa perdita di tempo registrando automaticamente tutti i dati che si spostano attraverso il modello ML e quindi mostrando quelli che ritiene essere punti di errore insieme a raccomandazioni per correggere il problema.
La risoluzione dei problemi con i dati di machine learning è la parte della formazione che richiede più tempo, ma offre anche il più alto ritorno sull’investimento. A tal fine, Galileo afferma di poter far risparmiare ai team di machine learning più di 100 ore al mese e afferma di essere in grado di risolvere i problemi relativi ai dati ML 10 volte più velocemente rispetto a farlo manualmente.
Per mantenere bassi i costi, Galileo utilizza un modello basato sul consumo, anche se con l’aumento dei volumi del modello e dei costi di formazione, i prezzi possono aumentare, a seconda di come Galileo aumenta le tariffe dei servizi che non ha condiviso.
Galileo ha descritto i suoi processi interni come basati su “alcuni algoritmi statistici avanzati creati dal team”.
disse Chatterjee disco Che Galileo utilizzi la comprensione dei punti dati del modello ML per determinare quali erano difficili per il modello e quali erano facili. Galileo fornisce suggerimenti per affrontare queste difficoltà con ciò che Chatterjee ha affermato essere una precisione del 95%.
Galileo presenta tutto in una dashboard dell’interfaccia grafica che indica le differenze tra le esecuzioni, consente agli utenti di aggiungere o rimuovere elementi dai dati per imparare a regolare le probabilità di errore e, in caso contrario, modificare l’allenamento di machine learning senza fare affidamento su “script Python e fogli Excel”, come Chatterji e Sanyal e Sheth hanno detto dentro i loro posti Annuncio aziendale.
Quando a Chatterjee è stato chiesto come implementare Galileo negli ambienti dei clienti disco Che tutte le implementazioni di Galileo avvengano all’interno degli ambienti cloud del cliente (la stessa Galileo non conosce il fornitore del servizio) e che Galileo non invii alcun dato all’azienda.
“Lavoriamo con servizi finanziari e istituzioni sanitarie, tra le altre cose”, ha affermato Chatterjee. “La privacy dei dati ML è fondamentale qui”. ®