Reboots intempestifs des que la charge est un poil presente

Bonjour,

je reviens vers vous pour essayer de comprendre (voire localiser comment comprendre) où se trouveraient les traces de ce qui m’arrive…

Sans charge réelle, mon QubeOS fonctionne à merveille…
Cependant, des que je lance quelques qubes de plus (notemment ceux avec lesquels je travaille :O) la souris finit par freeze, et 3-4 secondes après, image initiale de mon Bios asus (voui j’ai pas flashé mon bios … et pour cause, CM sous garantie encore ) et reboot propre.

J’ai eu beau commencer à chercher un peu par moi, j’ai visiblement pas trouvé le log qui reference ce genre de choses …
Beaucoup de logs sur les Qubes que je concevais comme concerné, mais aucun souci rencontré dans leurs logs … :cry:

Si vous pouviez m’aider à éclairer ma lanterne qui, aujolurd’hui, brille genre pas du tout, je vous en serait plus que très reconnaissant :smiley:
Si vous avez besoin de contenu un peu supplémentaire pou_r m$'aider a diagnostiquer, n’hesitez pas à demander :smiley: et un grand merci par avance à ceux qui prendront le temps de me repondre ^^


Pif
Conf actuelle: ryzen 5 5600G, 32Go RAM 3k2Mhz, crucial nvme 2 To.

Bonjour,

La température de la machine est à un niveau raisonnable ? (à l’intérieur du boitier et au niveau du CPU)

Pour les quelques fois où j’ai pu voir ce style de probleme, c’etait soit:

  • un voltage du CPU instable en mode auto qui fallait definir manuellement dans le bios (Cas vu sur une machine de jeux sous windows qui crashais sous aleatoirement des qu’il y avait une grosse charge)
  • soit, specifique à du QubesOS, verifie si tu n’essaie pas de passer un perif PCI sur ce qube qui fait crash le PC

En cas particulier, si il s’agit une version non a jour de l’hyperviseur xen, ca pourrait etre en lien avec le boost de frequence du CPU

Mais y a pas mal de choses qui peuvent provoquer ce style de problème

Je viens d’avoir un problème similaire sur un Ryzen 5600X avec une installation tout fraiche.

L’écran s’est figé, le ventilo du CPU a augmenté régulièrement la cadence, et reboot brutal. La machine fonctionne très bien en dehors de Qubes OS.

Je suis en kernel 6.3.2, il faudra que je vérifie avec un autre kernel. Mais en 10h d’utilisation, ça vient juste de me le faire sans utilisation particulière.

@pif tu utilises une carte graphique nvidia, ou le chipset intégré du CPU ? (le G dans la nomenclature AMD indique qu’il y a un GPU intégré au processeur)

Bonjour à vous ! :slight_smile:
Avant tout, un grand merci pour vos retours :smiley:

Pour les temperatures en toute honneteté je ne m’etais simplement pas posé la question, ayant un watercooling haut de gamme dédié au processeur. Du coup, quand j’ai voulu checker, me suis retrouvé bien c** en constatant que lmsensors dans dom0 remonte pas la temp cpu :'/ Je ne peux donc qu’émettre le fait que j’ai un triple-boot et que ces reboots ont lieux que sur qubeOS, sans charge réellement apparente… Mes deux autres OS (un microcrotte et un base debian) fonctionnent sans aucuns soucis s’apparantant à ce type.

@solene Je n’utilise pas le GPU processeur, j’ai effectivement une 1070 nvidia à côté qui gère mes écrans.

@neowutran C’est une piste que je n’ai jamais investiguée… mais qui pourrait éffectivement être concernée. Il y a t’il des choses à connaitre ou des outils qui me permettraient de deja constater ce qu’il s’y passe ? ^^

J’ai passé deux heures dans mon journalctl, et j’ai fini par trouver une ligne de ce type (proco/uefi):smiley:
“internal error: active 0000:02:00.2 devices on bus with 0000:02:00.0 not doing bus reset”

Un petit lspci me remonte que le groupe 02:00.* est le groupe … de mon proco ^^
Derriere, il semble pour autant que l’os s’arrete CORRECTEMENT :open_mouth:
Entre nous c’est déjà pas le pire des points, au moins il reboot obligatoirement. Mais du coup, suite à cette decouverte pas rigolote, suite à cet event qube déclanche un reboot propre. :s

@solene je suis aussi sur le kernel 6, cela m’avait paru safe sur une conf de derniere generation …

Je n’ai pour le moment pas assez de recul pour être sûre à 100%, mais je pense que c’est lié au driver nouveau. Quand j’utilise le driver nvidia, je n’ai aucun soucis, avec le driver nouveau j’ai eu 2 reboot en 24h, le peu de temps que j’utilisais nouveau.

Ah! il serait de bon aloi que je tente de pousser le pilote proprio du coup ?
dom0 etant uniquement virtuel, j’etais pas sur que ce soit une necessité absolue ^^

Le driver n’apportera pas grand chose au niveau des performances, à part que ça sera un peu plus fluide. Mais les drivers nouveau sont réputés pour fonctionner relativement mal et être instables :frowning: donc l’intérêt ici c’est surtout d’avoir un driver stable.

Je viens de mettre à jour le guide communautaire sur l’installation manuelle Contents/install-nvidia-driver.md at master · Qubes-Community/Contents · GitHub (celle automatique via kmod semble obsolète malheureusement), il faudra refaire une partie de la procédure à chaque mise à jour de kernel sur le dom0 aussi.

1 Like