Forrester logo
Ivalua

Blog »

Innovazione » Analisi dei contratti grazie all’intelligenza artificiale: una panoramica tecnica

Analisi dei contratti grazie all’intelligenza artificiale: una panoramica tecnica

|

|

Christopher Bourez, Artificial Intelligence Architect at Ivalua

La gestione del ciclo di vita dei contratti (Contract Lifecycle management ) è un’area in cui abbiamo riscontrato un’enorme richiesta negli ultimi due anni. Molti dei nostri clienti utilizzano la nostra soluzione di gestione dei contratti sia per l’authoring che per il repository dei contratti. Nell’ultimo anno, il team di sviluppo dell’intelligenza artificiale di Ivalua ha lavorato duramente per implementare nuove funzionalità di intelligence all’interno della piattaforma.

Uno dei primi casi d’uso che il team sta elaborando è l’analisi dei contratti.

Un’area importante dell’intelligenza artificiale è la comprensione del linguaggio, chiamata anche Machine Reading Comprehension (MRC), e le nuove tecnologie in questo campo aprono la strada a migliaia di nuove applicazioni, come il sourcing, l’analisi delle tendenze, gli agenti conversazionali, l’analisi del sentiment, la gestione dei documenti, lo sviluppo commerciale multilingue, ecc.

I dati in questo caso sono testi del linguaggio naturale, che raramente sono dati strutturati. Si possono trovare in qualsiasi comunicazione umana, sia in conversazioni dal vivo (chatbot, e-mail, dispositivi speech to text…) sia memorizzati pubblicamente su Internet o privatamente come dati testuali in database. La comprensione dei dati testuali richiede l'analisi delle informazioni semantiche e sintattiche presenti in un blocco di testo.

Un'applicazione specifica per il Procurement riguarda l'analisi dei contratti. In Ivalua, il team AI ha condotto ricerche per consentire alla nostra piattaforma di comprendere tali testi nel contesto dei contratti o dei dati legali. L'obiettivo è quello di gestire il rischio identificando facilmente gli obblighi all'interno dei contratti e garantendo la presenza di un linguaggio appropriato per la mitigazione del rischio all'interno dei documenti legali. L'esecuzione manuale di questo compito o anche l'utilizzo di un'automazione di base richiederebbe settimane o mesi di lavoro umano per controllare ogni contratto e assicurarsi che sia incluso il linguaggio giusto in base al contesto del contratto, del fornitore e dell'acquirente. Le tecnologie di lettura automatica ci permettono di farlo automaticamente e molto più velocemente.

Per mitigare il rischio legale, alcuni clienti hanno creato modelli e clausole standard in un repository consentito dal nostro prodotto, al fine di standardizzare questi ultimi. Tuttavia, i contratti finali includono alcuni testi che possono essere stati modificati rispetto ai modelli originali per convenienza o durante le trattative: rimozione di clausole, condizioni specifiche, contributi di terze parti, dati degli stakeholder diversi, nonché modifiche che perdono i tag di tracciamento, come i diversi formati informatici (documenti di Microsoft Office, Powerpoint, PDF, OpenOffice, …) e un formato stampato (scansionato) per la versione finale.

L’applicazione dell’AI alla comprensione dei dati legali si scontra tipicamente con due problemi:

Come nel caso dell'Invoice Data Capture (IDC), queste limitazioni vengono superate apprendendo, con poca o nessuna supervisione, modelli del mondo reale dai quali è possibile estrarre caratteristiche significative per altri compiti. In questo caso, la comprensione del linguaggio viene comunemente eseguita su modelli linguistici (LM), come BERT di Google, o sulla traduzione neurale automatica (MNT) come MUSE di Facebook. L'output di questo processo è una rappresentazione vettoriale, chiamata embedding, per ogni token o subtoken di un testo, che ne codifica il significato per un successivo utilizzo nei modelli neurali specifici per il compito. In particolare, i sinonimi saranno rappresentati da vettori vicini. Nel caso del MUSE, queste rappresentazioni sono invarianti rispetto alla lingua, o cross-lingue, cioè una parola in francese e la sua traduzione in inglese avranno lo stesso vettore, il che ci permette di costruire applicazioni indipendenti dalla lingua.

La codifica del significato è un requisito per l'analisi dei documenti, che la rende indipendente dalla formulazione. Per questo motivo, abbiamo codificato il contenuto di ogni clausola (senza il titolo) dal repository delle clausole facendo la media degli embeddings delle parole che contiene o usando il massimo.

Ciò nonostante, richiede alcuni punti di controllo: Abbiamo scelto il metodo giusto per ridurre le sequenze di incorporazioni di parole in incorporazioni di dimensioni fisse, per rappresentare blocchi di testo? Gli algoritmi di segmentazione dei contratti e di recupero delle clausole basati sugli embeddings sono resistenti alle modifiche del testo che abbiamo spiegato prima? Come possiamo misurare le prestazioni degli algoritmi, dal momento che non sono disponibili dati etichettati?

La prima applicazione immediata della comprensione del linguaggio è la gestione degli archivi di clausole. Cercare clausole con embeddings simili a una clausola di nostra scelta.

Obblighi delle Parti 10
->  Obblighi delle Parti 10
->  OBBLIGHI DELLE PARTI 1426
->  OBBLIGHI DELLE PARTI 1177
->  Obblighi del cliente 1473
->  
Obbligo di verifica, informazione e consulenza 160

Si può osservare che tutte le clausole inizialmente recuperate hanno lo stesso titolo della clausola richiesta. In pratica, è possibile visualizzare le clausole in 2D per la stessa analisi qualitativa, utilizzando un colore per ogni titolo:

Blog - Clause Tool

Per evitare di avere centinaia di colori, abbiamo eliminato le clausole in cui il titolo compare meno di 10 volte nel set di dati e abbiamo raggruppato le clausole contenenti "allegato" e "preambolo" in due colori specifici. In questo modo ci siamo concentrati sulle informazioni rilevanti.

Abbiamo constatato che questo tipo di analisi del contratto consente non solo di organizzare le clausole in categorie in base al loro significato legale, ma anche di trovare clausole solitarie o non standard e di reintitolarle o modificarle.

Un’altra caratteristica che può essere sviluppata da queste rappresentazioni è la categorizzazione automatica attraverso il raggruppamento di clausole dal significato simile.

Le clausole simili appaiono vicine nella visualizzazione, ad esempio quelle con informazioni su prezzi e licenze vengono raggruppate. Queste rappresentazioni visive delle clausole legali ci permettono di navigare nello spazio delle clausole in base al loro significato e aiutano l'utente ad analizzare e valutare rapidamente la qualità dell'archivio di clausole (duplicati, etichette errate, modifiche delle clausole originali…).

La seconda applicazione immediata riguarda i contratti stessi:

Dato il corpus di contratti (non etichettati) e il repository di clausole tipicamente presenti in un’organizzazione, un raggruppamento di somiglianza basato sulla distanza di modifica (cioè la percentuale di parole simili) ci permette di capire rapidamente e facilmente la rilevanza delle clausole esistenti e di informare sulle aree di miglioramento o sulle lacune.

Quando i dati di addestramento sono disponibili, ulteriori applicazioni da costruire sulla base di queste incorporazioni includono il riconoscimento di entità (date, nomi, indirizzi, …), il rilevamento del linguaggio, il reperimento di campi (date, firmatari, …) o la risposta a domande per rispondere a qualsiasi quesito legale.

Ci auguriamo che questo articolo chiarisca agli interessati il caso d’uso delle tecnologie di intelligenza artificiale per l’analisi dei contratti e l’applicazione delle capacità di comprensione del linguaggio. Questo è solo un esempio del lavoro che stiamo svolgendo in Ivalua, per saperne di più contattateci.

Sei pronto a realizzare ciò di cui hai bisogno?