Ce qu’il faut savoir sur le Home Assistant Voice
Home Assistant ce n’est plus qu’un simple logiciel, c’est aussi plusieurs organisations mais également du matériel. J’utilise une Home Assistant Green, la box domotique plug & play avec HAOS prêt à l’usage. C’est un excellent support si on a conscience des limitations, autrement il y a l’excellente Yellow. Couplé avec une clé Zigbee ZBT-01 anciennement SkyConnect la facilité de mise en service est impressionnante.
Après plusieurs années de travail sur la reconnaissance vocale, l’assistant « Assist », le LLM et compagnie, Home Assistant propose une nouvelle gamme de matériel : Home Assistant Voice. Grâce à Domadoo j’ai pu obtenir le produit avant son annonce officielle. Voici tout ce que j’ai pu découvrir à son sujet.
Home Assistant Voice c’est un boîtier avec micro et haut parleur qui se place chez vous afin de contrôler les appareils qui sont intégrés à votre installation Home Assistant. Grossièrement c’est un concurrent direct à Alexa, Google Home, Homepod.
Jusqu’à maintenant pour avoir un contrôle vocal sur Home Assistant il y avait plusieurs méthodes à travers Alexa, Google Home principalement que ce soit de manière payante ou gratuite. Aujourd’hui c’est possible de se passer d’un écosystème tiers.
Ce n’est pas une enceinte connectée, mais un contrôle vocal
Je suis tombé directement dans le piège, ce produit n’est pas une enceinte connectée, ni même un assistant vocal. Il est pour le moment juste là pour contrôler des équipements de votre logement. By design ça se remarque, le haut-parleur intégrer n’est pas de bonne qualité, ce n’est pas fait pour écouter de la musique. C’est pensé pour avoir un retour vocal, voire diffuser une sonnerie en guise d’alerte, ou même diffuser un texte en vocal à travers d’une automatisation.
Un châssis bien pensé
L’analyse physique est très intéressante. Très loin de l’esthétique que propose la concurrence, c’est un boîtier en plastique de 82x88x21mm pour un poids de 96g. Le matériel est basé sur un ESP32-S3 avec
16 MB de stockage et 8 MB de PSRAM. Pour le processeur audio c’est un XMOS XU316. On comprend déjà une chose, se boiter n’a aucune intelligence, c’est un périphérique d’Home Assistant.
Avec l’Home Assistant Voice il ne vous sera pas fourni de câble, ni de transformateur électrique. En revanche, le Home Assistant Voice est accompagné par un autocollant très mignon !
- Bouton central : Réinitialiser, stop, réveil de l’assistant vocal
- Bague rotative : contrôle du volume, couleur de l’anneau lumineux
- Bouton physique pour désactiver l’écoute des micros
- Anneau LED : retour visuel
- USB-C pour l’alimentation 5V 2A
- Minijack 3.5mm pour déléguer le son à un haut-parleur externe
- Un haut-parleur et 2 microphones pour les fonctions de bases
Les entités qui remontent dans Home Assistant
L’appareil utilise l’intégration ESPHome pour remonter des informations. Je remarque plusieurs entités super intéressantes. Un contrôle média est disponible pour diffuser du son ou ajuster le volume. La molette est synchronisée avec et permet de modifier le volume de tranche de 5%. Quand le volume est à 0%, une led est présente sur l’appareil avec d’avoir un indicateur physique.
Le bouton du milieu est capable de gérer un appui simple, double, triple et long. Très sexy pour déclencher des automatisations. L’action simple active l’assistant vocal, tandis que l’action triple déclenche une réponse sonore et lumineuse. L’entité Satellite Assist indique si l’assistant est en train de vous parler ou non, on peut imaginer d’allumer l’ensemble d’une pièce pendant son activité.
Le produit se met à jour avec le système unifié d’Home Assistant et nous avons quelques options de configuration comme l’assistant qui sera utilisé. LED Ring permet de maintenir l’allumage ou non l’anneau de LED. Wake sound permet de désactiver le retour de son à l’activation de l’assistant.
En plus du bouton mute physique, il existe la même chose en virtuelle, qui sont par ailleurs synchroniser. En revanche si le bouton physique est sur l’état actif, il est impossible de le désactiver logiciellement. L’inverse est totalement possible en revanche.
Un assistant qui repose sur plusieurs technologies
Home Assistant Voice n’est qu’un périphérique, c’est Home Assistant qui par défaut fait tourner l’intelligence de l’assistant que l’on doit « créer nous-même ». Ce qui est intéressant, c’est que l’on a le choix dans les technologies que l’on utilise.
Un point qui fait LA plus value de cet appareil, est la possibilité d’utiliser notre propre matériel afin que faire tourner les moteurs requît au fonctionnement de l’assistant. Autrement dit, il est possible d’avoir un assistant vocal qui tourne chez soi, sans l’usage d’internet, tous tourne en local. MON DIEU QUE C’EST SEXY !!!!
L’autre choix est tout aussi intéressant, car l’option sexy demande d’avoir une machine performante qui fasse tourner les technologies requises. Il est possible d’utiliser les serveurs de Home Assistant Cloud grâce à l’abonnement payant que propose Home Assistant. Pour rappel l’abonnement est à 7,50€/mois ou bien 75€/an. Ce n’est pas si excessif, surtout qu’il permet de nous faciliter la vie sur plusieurs sujets.
Pour créer son assistant, il y a 3 technologies utilisées.
- Agent de conversation (LLM) : C’est le cerveau, le modèle de langage utiliser. Il est possible d’intégrer ChatGPT ou bien Ollama et tant d’autres. C’est juste abusé !
- Reconnaissance vocale (STT) : C’est ce qui convertit la voix en écriture, afin de la transmettre au LLM.
- Synthèse vocale (TTS) : Elle transforme le texte fournit par le LLM en voix synthétique pour le diffuser dans les haut-parleurs.
Il est aussi possible de customiser le nom de prononciation qui est par défaut « Okay Nabu », ça reste un peu compliqué à faire mais libre court à votre imagination.
Ce que propose Home Assistant Voice est vraiment au-dessus de la concurrence, on a le choix dans les technologies et nous permet d’avoir quelque chose qui correspond à nos usages. Une domotique bien ficelée, et juste pour ça, Home Assistant Voice m’est une pilule à la concurrence ! Vraiment c’est bluffant !
J’ai pris une très grosse soirée, à faire m’amuser. J’ai déployé un ollama sur mon PC Fixe avec un petit LLM de 0,6B. Le résultat est nul soyons clairs, il faut une machine monstrueuse pour faire ça chez soi, mais wow vraiment une claque !
Le résultat dépend du LLM
Par défaut c’est Assist un LLM tout petit et peu efficace, il faut vraiment bien choisir ses phrases et le taux de réussite est correct sans plus. En tant que telle j’estime que ce n’est pas utilisable au quotidien. Peu importe le LLM utilisé, il utilise le LLM Assist d’Home Assistant pour le contrôle de votre domotique.
Il est aussi important de souligner que tant qu’Home Assistant Voice détecte une voix, la requête ne s’arrête pas. Si vous l’utilisez en même temps que regarder un film, ou bien écouter de la musique, ça ne fonctionne pas. Il n’y a aucune intelligence qui sépare votre voix d’autres sources sonores.
Il est aussi possible d’utiliser des TTS et SST tiers à Home Assistant. Que ce soit des solutions héberger en cloud ou chez vous. Pour le TTS il est possible de faire appel à Google. De plus on a un choix vraiment vaste dans les types de voix.
Si vous souhaitez que votre Home Assistant Voice comprenne plusieurs langues, Home Assistant bride un peu l’option. Il sera possible de communiquer dans plus langue, selon votre LLM, ça sera plus au moins faisable. En revanche pour le contrôle de la domotique, Home Assistant nous force à choisir une langue pour chaque paramètre : LLM, SST, TTS.