Message de l'espace

Séti normal ou séti pas normal ?

Ce défi est tiré de c0d1ngUP 2024

Mulder a eu accès a des enregistrements de radiotélescope, visant à découvrir une intelligence extraterrestre.

Le flux de données enregistré est composé de plusieurs séquences de 15 caractères :

MYNBIQPMZJPLSGQ
EJEYDTZIRWZTEJD
XCVKPRDLNKTUGRP
OQIBZRACXMWZVUZ
TPKHXKWCGSHHZEZ
ROCCKQPDJRJWDRK
RGZTRSJOCTZMKSH
JFGFBTVIPCCVYEE
...

Pour chaque séquence, on s'intéresse à la propriété suivante :

La séquence ne contient aucun bloc de 4 lettres successives contenant une lettre en double.

Pour des séquences de 15 caractères (pris parmi les 26 lettres de l'alphabet), cette propriété est vraie environ 20.4 % du temps.

Si une séquence a cette propriété, on la qualifie de séquence rare. Dans l'exemple qui précède, les séquences rares sont les séquences 1, 3, et 7. La séquence 2, par exemple, n'est pas une séquence rare, car elle contient le bloc de 4 lettres EJEY qui a une lettre en double. De même la séquence 5 contient le bloc de 4 lettres KHXK qui contient 2 fois la lettre K...

Le flux de données provenant de l'espace est enregistré régulièrement. On dispose donc d'un grand nombre de séquences de 15 caractères.

On cherche à détecter quelque chose d'anormal dans les séquences. Plus précisément, un (petit ?) calcul de probabilités indique que pour un enregistrement de 1000 séquences, on peut s'attendre en moyenne à observer environ 204 séquences rares. Parfois ce sera moins, et parfois ce sera plus. Si on s'écarte trop de la valeur 204, on estime que l'enregistrement de 1000 séquences n'est pas un bloc naturel et qu'il contient les signes d'une intervention intelligente extra-terrestre. Plus précisément, si dans l'enregistrement de 1000 séquences, il y a strictement moins de 172 séquences rares ou strictement plus de 235 séquences rares, alors l'enregistrement est suspect.

Vous disposez d'une archive (zip) contenant 500 enregistrements de 1000 séquences. Les fichiers de l'archive ont pour noms : enregXXX.txt avec XXX qui vaut un numéro entre 1 et 500.

Repérez les enregistrements suspects (au sens précédemment défini) et validez le défi en donnant leurs numéros, par ordre croissant. Par exemple, si vous estimez que les enregistrements suspects sont les fichiers enreg023.txt, enreg224.txt et enreg123.txt, vous pourrez valider le défi en indiquant 23, 123, 224.

Type de retour
une séquence de nombres entiers
Entrées du problème
Pas de données d'entrée
Vous devez être connecté.e pour proposer une réponse au défi
Vous devez être connecté.e pour accéder aux forums.