• Taliansky jazyk

Estrazione dei dati del web profondo basata sulla visione per il raggruppamento dei documenti web

Autor: M. Lavanya

L'approccio VDEC comprende due fasi: 1) estrazione dei dati web basata sulla visione e 2) raggruppamento dei documenti web. Nella fase 1, le informazioni della pagina Web vengono segmentate in vari chunk, dai quali vengono rimossi il rumore in eccesso e... Viac o knihe

Na objednávku, dodanie 2-4 týždne

72.34 €

bežná cena: 82.20 €

O knihe

L'approccio VDEC comprende due fasi: 1) estrazione dei dati web basata sulla visione e 2) raggruppamento dei documenti web. Nella fase 1, le informazioni della pagina Web vengono segmentate in vari chunk, dai quali vengono rimossi il rumore in eccesso e i chunk duplicati utilizzando tre parametri, quali la percentuale di collegamenti ipertestuali, il punteggio del rumore e la somiglianza del coseno. Per identificare i chunk rilevanti, vengono utilizzati tre parametri, quali la rilevanza del titolo, la selezione dei chunk basata sulla frequenza delle parole chiave e le caratteristiche della posizione, per poi estrarre un insieme di parole chiave da questi chunk principali. Infine, le parole chiave estratte vengono sottoposte a clustering dei documenti web utilizzando il Fuzzy C-Means clustering (FCM). L'estrazione di dati web profondi basata sulla visione proposta è stata implementata e testata utilizzando un set di dati sintetici. I risultati sono stati confrontati con i due algoritmi esistenti, il ViDE (Vision-based Data Record Extraction) e l'MDR (Mining Data Region). Dai risultati sperimentali eseguiti su due diversi set di dati sintetici, è emerso che il metodo VDEC proposto è in grado di ottenere risultati stabili e buoni, con un valore di precisione di circa il 99,2% e il 99,1% in entrambi i set di dati con diversi valori di soglia.

  • Vydavateľstvo: Edizioni Sapienza
  • Rok vydania: 2022
  • Formát: Paperback
  • Rozmer: 220 x 150 mm
  • Jazyk: Taliansky jazyk
  • ISBN: 9786205023549

Generuje redakčný systém BUXUS CMS spoločnosti ui42.