Testseite Dokumentähnlichkeit (inhaltsbasiert)

Diese Seite dient zum Vergleich unterschiedlicher Methoden zur Ähnlichkeitsermittlung.

Durch Eingabe einer ID/Signatur werden für 12 Vergleichsmethoden jeweils die fünf ähnlichsten Items angezeigt.

Zu beachten:

Zur Zeit liegen nur für DEA-Katalogisate Volltextdaten vor (OCR). Weil die Qualität in vielen Fällen sehr dürftig ist, wurden mit Methoden zur Verarbeitung natürlicher Sprache (NLP) sog. "Named Entities" extrahiert. Die Ähnlichkeitsermittlung verwendet diese Textbestandteile (häufig handelt es sich um Personen- oder Ortsangaben).
Weil vorerst keine guten Volltextdaten vorliegen, wurden zur Ähnlichkeitsermittlung keine Transformer-Modelle eingesetzt. Sie stellen aber eine vielversprechende Option für eine spätere Umsetzung dar.
Denkbar wäre auch die additive Verwendung der hier getesten Ansätze, d.h. pro Dokument würden alle Treffer zusammengefasst und nach Häufigkeit sortiert. Items, die durch mehrere Methoden als ähnlich ermittelt werden, erhielten entsprechend mehr Gewicht.

Glossar

Bag of Words

“Bag-of-Words” bezeichnet die Auflistung aller in einem Dokument vorkommenden Wörter nach Häufigkeit, d.h. es wird jedes distinkte Wort aufgeführt mit der Angabe wie oft es vorkommt (nach Eliminierung von Satzzeichen, Stopwörtern usw.). Dokumente mit hoher Überlappung der häufigsten Begriffe gelten als ähnlich (ohne Berücksichtigung bestimmter Wortkombinationen).

Basierend auf den Worthäufigkeit lassen sich Dokumente als (vieldimensionale) Vektoren auffassen, woran verschiedene Ähnlichkeitsberechnungen anschließen können.

Der BOW-Ansatz ist nützlich zum Vergleich sehr kurzer Dokumente. Bei längeren Dokumenten dient er als Vergleichsbasis gegenüber spezifischeren Methoden zur Ähnlichkeitsermittlung.

Ngram

Natürliche Sprache verwendet Zeichen und Wörter nicht (nur) isoliert, sondern häufig in typischen Kombinationen. N-Gramm-Ansätze vergleichen solche Zeichen- und Wortsequenzen (z.B. Bigramm, Trigramm) und berücksichtigen damit Kontextinformation (wenngleich in limitiertem Ausmaß).

TF-IDF (term frequency-inverse document frequency)

Produkt aus absoluter Häufigkeit eines Begriffs und seinem relativen Vorkommen in der Gesamtheit der Dokumente. Insgesamt seltener vorkommende Begriffe erhalten dadurch höhere Gewichtung.

Ähnlichkeitsmetrik:

Cosinus-Ähnlichkeit

Die Cosinus-Ähnlichkeit vergleicht die Winkel zwischen Vektoren. Sie ist ein Maß dafür, wie ausgeprägt zwei Vektoren in die gleiche Richtung zeigen.

Euklidischer Abstand

Der Euklidische Abstanz misst die geradlinige Distanz zwischen zwei Punkten in einem mehrdimensionalen Raum. Liegen zwei Dokumente (bzw. deren Vektorrepräsentation) nahe bei einander, gelten sie als ähnlich.

Jaccard-Index

Die Häufigkeit der Begriffe wird in Proportion gesetzt zur Gesamtheit distinkter Begriffe in den verglichenen Dokumenten.

keine Ergebnisse

Testseite Dokumentähnlichkeit (inhaltsbasiert)

Glossar

Suche: