Unstructured, che offre strumenti per preparare i dati aziendali per i LLM, raccoglie 25 milioni di dollari | Gruppo di macchine per la produzione di petrolio di Shaoxing

I modelli linguistici di grandi dimensioni (LLM) come GPT-4 di OpenAI sono gli elementi costitutivi di un numero crescente di applicazioni IA. Ma alcune aziende sono riluttanti ad adottarli, a causa della loro incapacità di accedere a dati proprietari e di prima parte.

Non è necessariamente un problema facile da risolvere, considerando che questo tipo di dati tende a rimanere dietro i firewall e arriva in formati che non possono essere sfruttati dai LLM. Ma una startup relativamente nuova, Unstructured.io, sta cercando di rimuovere gli ostacoli con una piattaforma che estrae e organizza i dati aziendali in modo che gli LLM possano comprenderli e sfruttarli.

Brian Raymond, Matt Robinson e Crag Wolfe hanno co-fondato Unstructured nel 2022 dopo aver lavorato insieme presso Primer AI, che si concentrava sulla creazione e l'implementazione di soluzioni di elaborazione del linguaggio naturale (NLP) per clienti aziendali.

"Durante Primer, abbiamo riscontrato più e più volte un collo di bottiglia durante l'acquisizione e la pre-elaborazione di file grezzi dei clienti contenenti dati NLP (ad esempio, PDF, e-mail, PPTX, XML, ecc.) e trasformandoli in un file pulito e curato, pronto per un modello o una pipeline di apprendimento automatico", ha dichiarato Raymond, che ricopre il ruolo di CEO di Unstructured, a TechCrunch in un'intervista via e-mail. "Nessuna delle società di integrazione dei dati o di elaborazione intelligente dei documenti stava aiutando a risolvere questo problema, quindi abbiamo deciso di costituire una società e affrontare la questione direttamente."

In effetti, l’elaborazione e la preparazione dei dati tende a essere una fase dispendiosa in termini di tempo in qualsiasi flusso di lavoro di sviluppo dell’intelligenza artificiale. Secondo un sondaggio, i data scientist trascorrono quasi l’80% del loro tempo a preparare e gestire i dati per l’analisi. Di conseguenza, secondo un altro sondaggio, la maggior parte dei dati prodotti dalle aziende – circa due terzi – rimangono inutilizzati.

“Le organizzazioni generano quotidianamente grandi quantità di dati non strutturati che, se combinati con i LLM, possono potenziare la produttività. Il problema è che questi dati sono sparsi”, ha continuato Raymond. “Lo sporco segreto nella comunità della PNL è che oggi i data scientist devono ancora costruire connettori dati artigianali e una tantum e pipeline di pre-elaborazione in modo completamente manuale. Unstructured [fornisce] una soluzione completa per connettere, trasformare e organizzare i dati in linguaggio naturale per i LLM.”

Unstructured fornisce una serie di strumenti che aiutano a ripulire e trasformare i dati aziendali per l'acquisizione LLM, inclusi strumenti che rimuovono annunci pubblicitari e altri oggetti indesiderati dalle pagine Web, concatenano testo, eseguono il riconoscimento ottico dei caratteri sulle pagine scansionate e altro ancora. L'azienda sviluppa pipeline di elaborazione per tipi specifici di PDF; Documenti HTML e Word, anche per depositi SEC; e, tra tutte le cose, i rapporti di valutazione degli ufficiali dell'esercito americano.

Per gestire i documenti, Unstructured ha addestrato da zero il proprio modello NLP di “trasformazione dei file” e ha assemblato una raccolta di altri modelli per estrarre testo e circa 20 elementi discreti (ad esempio titoli, intestazioni e piè di pagina) da file non elaborati. Vari connettori, circa 15 in totale, attingono documenti da origini dati esistenti, come il software di gestione delle relazioni con i clienti.

"Dietro le quinte, utilizziamo una varietà di tecnologie diverse per eliminare la complessità", ha affermato Raymond. “Ad esempio, per i vecchi PDF e le immagini utilizziamo modelli di visione artificiale. E per altri tipi di file, utilizziamo combinazioni intelligenti di modelli NLP, script Python ed espressioni regolari."

A valle, Unstructured si integra con fornitori come LangChain, un framework per la creazione di app LLM e database vettoriali come Weaviate e Atlas Vector Search di MongoDB.

In precedenza, l'unico prodotto di Unstructured era una suite open source di questi strumenti di elaborazione dati. Raymond afferma che è stato scaricato circa 700.000 volte e utilizzato da oltre 100 aziende. Ma per coprire i costi di sviluppo – e placare i suoi investitori, senza dubbio – l'azienda sta lanciando un'API commerciale che trasformerà i dati in 25 formati di file diversi, inclusi PowerPoint e JPG.

“Abbiamo lavorato con agenzie governative e abbiamo ottenuto diversi milioni di entrate in un periodo molto breve. . . . Poiché il nostro focus è sull’intelligenza artificiale, ci concentriamo su un settore del mercato che non è influenzato dal rallentamento economico più ampio”, ha affermato Raymond.