Resumen
En este trabajo se realiza un análisis bibliométrico básico de la evolución científica de la Deep Web en la producción científica de la Web of Science. Se obtuvieron un total de 298 documentos en el periodo 2002-2021. Durante este periodo de tiempo el tipo de documento más producido son los documentos de actas de congresos. Se identifico que la fuente más citada es Lecture Notes in Computer Science, los autores más representativos desde el inicio de la investigación son “Cho, J”, “Ntoulas, A” y “Zerfos, P”, el documento fuente más citado en WoS es “ViDE: A Vision-Based Approach for Deep Web Data Extraction” escrito por Liu et al., (2010) y se encontraron a través de la técnica de clustering, tres principales líneas de investigación. También, a través de un análisis de la estructura de conocimiento, pudimos detectar tres estructuras de conocimiento: conceptual, intelectual y social. Con la estructura conceptual hemos detectado las palabras clave data cleaning, web data integration y schema extraction como futuros frentes de investigación. Por otro lado, con la estructura intelectual, identificamos las relaciones que tienen los autores a través de la co-citación, obteniendo como resultado dos agrupaciones de investigadores que más se relacionan. En cuanto a la estructura social, obtuvimos como resultado que los países que más colaboran son China, Estados Unidos, Canadá y Brasil, y que institución que más colabora es Jilin University.
Abstract
On this paper a basic bibliometric analysis of the scientific evolution of the Deep Web in the scientific production of the Web of Science is carried out. A total of 298 documents were obtained in the period 2002-2021. During this period of time, the most produced type of document is the documents of congress proceedings. It was identified that the most cited source is Lecture Notes in Computer Science, the most representative authors since the beginning of the investigation are "Cho, J", "Ntoulas, A" and "Zerfos, P", the most cited source document in WoS is "ViDE: A Vision-Based Approach for Deep Web Data Extraction" written by Liu et al., (2010) and three main lines of research were found through the clustering technique. Also, through a knowledge structure analysis, we were able to detect three knowledge structures: conceptual, intellectual, and social. With the conceptual structure we have detected the keywords data cleaning, web data integration and schema extraction as future research fronts. On the other hand, with the intellectual structure, we identify the relationships that the authors have through co-citation, obtaining as a result two groups of researchers that are most related. Regarding the social structure, we obtained as a result that the countries that collaborate the most are China, the United States, Canada and Brazil, and that the institution that collaborates the most is Jilin University.
