Mastodon
HGTnet

FileDouble Logo

 FileDouble (m3p)

Ein Programm zum Suchen nach doppelten Audio-Dateien.

Die gefundenen Doubletten werden auf Wunsch verschoben, gelöscht oder ihre Namen in einer Liste im Textformat gespeichert.

Ursprünglich waren verschiedene Vergleichsmodi vorgesehen, die u.a. den Dateinamen und evtl. vorhandene Tags nutzen sollten. Da jeder den Dateinamen und den Inhalt von Tags beliebig ändern kann, wird hierauf verzichtet.

Das Programm soll also nacheinander folgende Schritte abarbeiten:

  • Einsammeln der Dateinamen, die durch das Programm bearbeitet werden können, aus dem vom Benutzer angegebenen Verzeichnis sowie dessen Unterverzeichnisse.
  • Anfertigen und Speichern von "Fingerabdrücken" der Dateien. Bei diesem Fingerabdruck handelt es sich nicht um eine simple Prüfsumme sondern um markante akustische Merkmale. Informationen, die z.B. im ID3-Tag gespeichert sind, werden in diesem Fingerabdruck nicht berücksichtigt.
  • Indizieren und Sortieren der Fingerabdruckdaten
  • Vergleich der Fingerabdrücke
  • Aussortieren der gefundenen Doubletten

Dies Verfahren ist sehr zuverlässig, dauert aber sehr, sehr lange. Erste Test haben gezeigt, dass für etwa 1200 Musikdateien, von denen etwa 30% aus dem Bereich der klassischen Musik stammten, eine Bearbeitungszeit von etwa einer Stunde anzunehmen ist. Dieser Anhaltswert ergab sich auf einer Zweikern-CPU mit 3 GHz Takt. Stehen mehr Kerne zur Verfügung, werden mehr Dateien parallel bearbeitet. Die Bearbeitungszeit dürfte dann sinken.

Um nicht für jeden Dateityp eigenen Programmcode für den Zugriff implementieren zu müssen, bedient sich das Programm der Unterstützung durch ffmpeg.exe. Dadurch ist es in der Lage, alle Dateitypen, die von ffmpeg "verstanden" werden, zu analysieren.

Eine weitere Betriebsart könnte sein, Teile des Programmes als Dienst im Hintergrund ein Verzeichnis überwachen zu lassen und bei Hinzufügen von Audiodateien diese sofort auf vorhandene Duplikate zu prüfen.

Für welchen Modus man sich auch entscheidet: die gefundenen Doubletten werden nur auf ausdrücklichen Wunsch gelöscht, bevorzugt werden sie in ein separates Verzeichnis verschoben, wobei die ursprüngliche Ordnerstruktur beibehalten wird.

Das Programm ist z. Zt. in der Entwicklung. Es wird momentan am Vergleich der Fingerabdrücke und dem Aussortieren der gefundenen Doubletten gearbeitet.

Last edited: October 30, 2020, 20:48