Opened 14 years ago
Closed 13 years ago
#8 closed task (fixed)
Wise fingerprint
| Reported by: | jhusak | Owned by: | jhusak |
|---|---|---|---|
| Priority: | minor | Milestone: | Toolset |
| Component: | component1 | Version: | |
| Keywords: | Cc: |
Description (last modified by )
Należy opracować odcisk palca, który byłby podobny dla podobych plików , zawierał się dla zawierających, generalnie porównanie na nim byłoby tożsame dla porównania binarek.
Przewiduję długość takiego odcisku - 32-64 bajty.
Change History (7)
comment:1 by , 14 years ago
| Description: | modified (diff) |
|---|
comment:2 by , 14 years ago
| Milestone: | → Zbiór narzędzi wspomagających |
|---|
comment:3 by , 14 years ago
comment:4 by , 14 years ago
Rozumiem, że porównujemy, co jest grane, a nie wprost dane binarne (np. ta sama muzyczka pod innym adresem i ze zmienionym playerem). asapscan potrafi wypluć rejestry POKEYa w odstępach FASTPLAY - możnaby tego użyć do eksperymentów.
comment:5 by , 14 years ago
| Summary: | Odcisk palca sprytny → Wise fingerprint |
|---|
comment:6 by , 13 years ago
| Owner: | changed from to |
|---|---|
| Status: | new → assigned |
Fingerprint jest już zaimplementowany w asapscan
są dwie nowe opcje:
-l - długi fingerprint
-p - krótki fingerprint.
Reszta wyszukiwania duplikatów to proste operacje na sort, awk, perl, uniq, bash, sed, a przede wszystkim grep.
Jeśli chcecie znaleźć duplikaty (a ja wszystkie potencjalne znalazłem) to do wszystkich plików generujemy krótki fingerprint, sortujemy, wyrzucamy pojedyncze i zostają wielokrotne.
Działa to na tej samej zasadzie, co wyszukiwanie pętli.
Mianowicie patrzy, co jest wpisywane do rejestrów pokeya; jeśli wpisywane jest to samo, to tak samo będzie grać i już :)
Fingerprint jest z kolei podciągiem długiego fingerprinta (który to jest po prostu taką sygnaturą utworu, jeden bajd to zsumowane wszystkie bajty wpisywane do pokeya w jednej ramce, czyli 9 lub 18.) Podciągiem, który ma mksymalną entropię, czyli liczbę różnych wartości. W przypadku wielu takich różnych podciągów, które mają tę samą entropię, brany jest pierwszy ( i to wypisuje asapscan -p)
Brane pod uwagę jest też to, że $ax i $ex wpisywane do audc ma tę samą barwę.
comment:7 by , 13 years ago
| Resolution: | → fixed |
|---|---|
| Status: | assigned → closed |

Inna opcja - łatwiejsza, funkcjonalność uzyskana bez modyfikacji tagów sapów.
Podczas wrzucania utworu do repozytorium użytkownik dostanie listę utworów podobnych.
Można traktować sapa jako odcisk palca :)
Spostrzeżenia:
sapy nie są długie. Zrobienie silniczka - serwerka wyszukiwawczego po
zawartości to tzw pikuś pamięciowy. 14 MB można trzymać w pamięci
cały czas, wysyłać zapytania do tego a on będzie zwracał wyniki
wyszukiwania. Nawet 100 MB. Albo 200 MB.
A jak tam w sobie pokeszuje, porobi struktury, timestampy - to już jego sprawa.
BLACKBOX.