en fr

Accuracy: de la classification supervisée à non supervisée (clustering)

Posté le Tue 04 June 2019 dans machine learning • Taggé avec evaluation measure, clustering, Python • 4 min read

L'accuracy est souvent utilisée comme mesure de qualité pour la classification supervisée. Elle est aussi utilisée pour la classification non supervisée. Cependant, la fonction accuracy_score de scikit-learn ne fournit qu'une borne inférieure de l'accuracy pour le clustering. Cet article explique comment cette mesure peut être calculée pour la classification non supervisée.


Continuer à lire

Animate intermediate results of your algorithm

Posté le Tue 19 February 2019 dans machine learning • Taggé avec clustering, R, machine learning • 5 min read

The R package gganimate enables to animate plots. It is particularly interesting to visualize the intermediate results of an algorithm, to see how it converges towards the final results. The following illustrates this with K-means clustering.


Continuer à lire

Chaining effect in clustering

Posté le Mon 21 January 2019 dans machine learning • Taggé avec clustering, R, machine learning • 5 min read

How to detect Christmas tinsels on a tree? Let's understand why hierarchical clustering with single linkage is a good candidate.


Continuer à lire

How many red Christmas baubles on the tree?

Posté le Sat 05 January 2019 dans machine learning • Taggé avec clustering, R, machine learning • 6 min read

Christmas time is over. It is time to remove the Cristmas tree. But just before removing it, one can ask: How many red Christmas baubles are on the tree? Let's leverage k-means criterion to answer this question.


Continuer à lire

Modèles de mélanges gaussiens : k-moyennes sous stéroïdes

Posté le Sat 22 December 2018 dans machine learning • Taggé avec clustering, R, machine learning • 5 min read

L' algorithme des k-moyennes suppose que les données sont générées par un mélange de Gaussiennes ayant chacune la même proportion, la même variance et aucune covariance. Ces hypothèses peuvent être allégées avec un algorithme plus générique : l'algorithme CEM appliqué à un mélange de Gaussiennes.


Continuer à lire

L'algorithme des k-moyennes n'est pas la panacée

Posté le Sun 09 December 2018 dans machine learning • Taggé avec clustering, R, machine learning • 6 min read

Les k-moyennes est l'algorithme de classification non supervisée le plus connu et le plus utilisé. Il fait cependant de fortes hypothèses sur les données. Ces hypothèses sont illustrées sur des jeux de données de synthèse. Le critère optimisé par les k-moyennes est aussi expliqué pour comprendre pleinement son comportement.


Continuer à lire

Generate datasets to understand some clustering algorithms behavior

Posté le Sun 11 November 2018 dans machine learning • Taggé avec clustering, R, machine learning • 7 min read

In order to understand how a clustering algorithm works, good sample datasets are useful to highlight its behavior under certain circumstances. This post shows how to generate 9 datasets which will be used in other posts of this series on clustering.


Continuer à lire