lundi 18 novembre 2024

lundi 7 octobre 2024

Doctrine AI juridique

 L'IA juridique de Doctrine soulage les avocats et juristes des tâches répétitives et chronophages d’analyse du dossier, recherche juridique et rédaction pour qu’ils sécurisent leur positions juridiques et gagnent en productivité.

https://www.doctrine.fr/

vendredi 27 septembre 2024

Supprimer moi du web

 https://justdeleteme.xyz/

Qu'est-ce que c'est?

De nombreuses entreprises utilisent des techniques de dark pattern pour rendre difficile la recherche de la méthode de suppression de votre compte. JustDeleteMe vise à être un répertoire d'URL pour vous permettre de supprimer facilement votre compte des services Web.

Vous avez un site qui, selon vous, devrait être ajouté ? Faites une demande d'extraction sur GitHub .

jeudi 26 septembre 2024

samedi 14 septembre 2024

La 1re plateforme d’intelligence juridique.

 Doctrine met le meilleur de l’intelligence artificielle au service des professionnels du droit. Maîtrisez votre environnement juridique. Augmentez votre productivité. Gagnez en sécurité juridique.


https://www.doctrine.fr/

Tokenisation : le secret des machines pour comprendre le langage humain

Qu’est-ce que la Tokenisation ?

La tokenisation est le processus de décomposition d’un texte en unités plus petites appelées “tokens”. Ces tokens peuvent être des mots, des phrases, ou même des sous-parties de mots, en fonction de la méthode de tokenisation utilisée.

Pourquoi est-ce une étape importante pour le traitement du langage ?

La tokenisation permet aux modèles de traitement du langage naturel de comprendre et de manipuler le texte. Sans ce processus, les modèles seraient incapables de traiter efficacement les données textuelles, car ils ne sauraient pas où commence et où finit chaque mot ou phrase. La précision et l’efficacité de nombreuses applications NLP dépendent de la qualité de la tokenisation.

Quelles sont les différents types de Tokenisation ?
Il existe plusieurs approches pour la tokenisation, chacune ayant ses avantages et ses inconvénients. Les méthodes les plus courantes incluent :

Tokenisation basée sur les mots

La méthode la plus simple, où le texte est divisé en mots individuels. Par exemple, “Bonjour à tous” serait tokenisé en [“Bonjour”, “à”, “tous”].

Tokenisation basée sur les caractères : Ici, le texte est décomposé en caractères individuels. Par exemple, “Bonjour” deviendrait [“B”, “o”, “n”, “j”, “o”, “u”, “r”].

Tokenisation basée sur les sous-mots
Cette méthode décompose le texte en unités plus petites que les mots, mais plus grandes que les caractères. Elle est souvent utilisée dans les modèles de langage modernes comme BERT et GPT. Par exemple, “Bonjour” pourrait être décomposé en [“Bon”, “jour”].

Tokenisation basée sur les phrases
Le texte est décomposé en phrases ou segments plus grands. Cette méthode est utile pour des tâches où la compréhension du contexte de phrase est cruciale.

Mai2024