Con nuestra metodología, empleamos un enfoque multifacético para analizar el texto del tweet y discernir sentimientos y emociones. Los pasos involucrados fueron los siguientes: (a) Se utilizaron léxicos como Vader, TextBlob y SentiWordNet para identificar sentimientos incrustados en el contenido del tweet. (b) Se utilizó el glosario de emociones de la NRC para rastrear la variedad de diferentes emociones expresadas en los tweets. (c) Se integraron modelos de formación forzoso, incluidos los clasificadores de bosque imprevisible, Bayes ingenuo y SVM, así como un maniquí de formación profundo, BERT. Estos modelos se aplicaron estratégicamente a los datos para la detección de informativo falsas, considerando y sin considerar las emociones. Este enfoque integral nos permitió capturar patrones y dependencias matizados internamente de los datos de los tweets, lo que contribuyó a un observación más efectivo y matizado del contenido de informativo falsas en las redes sociales.
Se utilizó un conjunto de datos hendido, con almohadilla científica y habitable públicamente. El conjunto de datos comprende 10.700 tweets en inglés con hashtags relevantes para COVID-19, categorizados con etiquetas reales y falsas. Utilizado anteriormente por Vasist y Sebastian (2022) y Suter et al. (2022), el conjunto de datos anotado manualmente fue compilado por Patwa et al. (2021) en septiembre de 2020 e incluye tweets publicados en agosto y septiembre de 2020. Según su clasificación, el conjunto de datos está ponderado, con 5600 informativo reales y 5100 informativo falsas. El conjunto de datos utilizado para el estudio se generó obteniendo datos de informativo falsas de sitios web públicos de demostración de hechos y medios de redes sociales, con demostración manual con respecto a los documentos originales. Los capital basados en la web, incluidas publicaciones en redes sociales y sitios web de demostración de datos como PolitiFact y Snopes, desempeñaron un papel secreto en la colección y adjudicación de detalles sobre la fiabilidad de las afirmaciones relacionadas con el COVID-19. Para las informativo reales, se recopilaron tweets de fuentes oficiales y verificadas, y revisores humanos evaluaron cada tweet en función de su contribución de información relevante sobre COVID-19 (Patwa et al., 2021; Tabla 2 en la pág. 4 de Suter et al., 2022, extraído de Patwa et al. (2021), asimismo proporciona una descripción común ilustrativa).
El preprocesamiento es un paso esencial en cualquier observación de datos, especialmente cuando se alcahuetería de datos textuales. Los pasos de preprocesamiento adecuados pueden mejorar significativamente el rendimiento de los modelos. Se aplicaron los siguientes pasos de preprocesamiento al conjunto de datos: eliminar cualquier carácter que no sea el alfabeto, cambiar las humanidades a minúsculas, eliminar palabras vacías como “a”, “the”, “is” y “are”, que tienen un significado muy poca información útil y realizando lematizaciones. Los datos del texto se transformaron en datos cuantitativos mediante la clase de codificador ordinal scikit-learn.
Las etapas involucradas en esta investigación se representan en un esquema de parada nivel que se muestra en la Fig. 1. Primero, se extrajeron los sentimientos y emociones suscitados por los tweets y luego, a posteriori de estudiar las diferencias entre informativo falsas y reales en términos de sentimientos y emociones, estas características se utilizaron para construir modelos de detección de informativo falsas.
Exploración de los sentimientos
El observación de sentimientos es el proceso de derivar el sentimiento de un texto a partir de su contenido (Vinodhini y Chandrasekaran, 2012). El observación de sentimientos, como subcampo del procesamiento del jerga natural, se utiliza ampliamente para analizar las reseñas de un producto o servicio y publicaciones en redes sociales relacionadas con diferentes temas, eventos, productos o empresas (Wankhade et al., 2022). Una aplicación importante del observación de sentimientos es el marketing decisivo. Păvăloaia et al. (2019), en un estudio completo sobre dos empresas, Coca-Rabo y PepsiCo, confirmó que la actividad de estas dos marcas en las redes sociales tiene un impacto emocional en los clientes actuales o futuros y las reacciones emocionales de los clientes en las redes sociales pueden influir en las decisiones de operación. Hay dos métodos para el observación de sentimientos: métodos basados en glosario y métodos de formación forzoso. El observación de sentimientos basado en léxicos utiliza una colección de sentimientos conocidos que se pueden dividir en léxicos basados en diccionarios o léxicos basados en corpus (Pawar et al., 2015). Estos léxicos ayudan a los investigadores a derivar los sentimientos generados a partir de un documento de texto. Numerosos diccionarios, como el de Vader (Hutto y Gilbert, 2014), SentiWordNet (Esuli y Sebastiani, 2006) y TextBlob (Loria, 2018), se puede utilizar para investigaciones académicas.
En esta investigación, Vader, TextBlob y SentiWordNet son los tres léxicos utilizados para extraer los sentimientos generados a partir de los tweets. El glosario Vader es un glosario de código hendido adaptado específicamente a las redes sociales (Hutto y Gilbert, 2014). TextBlob es una biblioteca de Python que procesa texto diseñado específicamente para el observación del jerga natural (Loria, 2018), y SentiWordNet es un glosario de opinión adaptado de la almohadilla de datos WordNet (Esuli y Sebastiani, 2006). Sigla 2 muestra los pasos para el observación de sentimiento de los tweets.
Se utilizaron diferentes métodos y pasos para nominar el mejor glosario. Primero, se etiquetó manualmente una partición aleatoria del conjunto de datos como positiva, negativa o neutro. Los resultados de cada glosario se compararon con los sentimientos etiquetados manualmente y las métricas de rendimiento de cada glosario se informan en la Tabla 1. En segundo espacio, suponiendo que clasificar erróneamente los tweets negativos y positivos como neutrales no es tan crucial como clasificar erróneamente los tweets negativos como clasificar los tweets positivos, se ignoraron los tweets neutrales y se hizo una comparación solo entre los tweets positivos y negativos. Las métricas de clasificación de tres clases y dos clases se comparan en la Tabla 1.
En tercer espacio, el objetivo principal de este estudio fue identificar las distinciones precisas entre tweets falsos y reales para mejorar el operación de detección. Abordamos qué tan correctamente se detectaban las informativo falsas con los tres léxicos de sentimiento, ya que se obtuvieron resultados diferentes. Este hallazgo significa que se entrenó un maniquí de detección de informativo falsas con el conjunto de datos utilizando los resultados de tres léxicos: Vader, TextBlob y SentiWordNet. Como se indicó anteriormente, el conjunto de datos incluye etiquetas para informativo falsas y reales, lo que permite la aplicación de modelos de detección de formación forzoso supervisados y la evaluación de qué tan correctamente se desempeñaron varios modelos. El operación Random Forest es un método de formación forzoso supervisado que ha conseguido un buen rendimiento en la clasificación de datos de texto. El conjunto de datos contiene muchos tweets y datos numéricos que informan el número de personas hospitalizadas, fallecidas y recuperadas que no transmiten ningún sentimiento. Durante esta escalón se excluyeron los tweets que contenían datos numéricos; esta porción de los tweets constituyó el 20% del total. Mesa 2 proporciona información sobre el poder de clasificación utilizando los tres léxicos con datos no numéricos. Los modelos fueron más precisos cuando utilizaron sentimientos extraídos de Vader. Este hallazgo significa que el glosario de Vader puede incluir mejores clasificaciones de informativo falsas y reales. Vader fue seleccionado como el glosario de sentimiento superior a posteriori de evaluar los tres procesos. Los pasos para nominar el mejor glosario se presentan en la Fig. 3 (Consulte asimismo el Apéndice A en Información complementaria para obtener más detalles sobre el procedimiento). Según los resultados obtenidos al utilizar Vader, los tweets etiquetados como falsos incluyen más sentimientos negativos que los de los tweets reales. Por el contrario, los tweets reales incluyen sentimientos más positivos.
Procedencia de emociones
Las emociones provocadas en los tweets se extrajeron utilizando el glosario de emociones de la NRC. Este glosario mide los artículos emocionales de un cuerpo de texto, contiene aproximadamente 27 000 palabras y se base en el glosario de afectos del Consejo Doméstico de Investigación de Canadá y en los conjuntos de sinónimos WordNet de la biblioteca del kit de herramientas de jerga natural (NLTK) (Mohammad y Turney, 2013). El glosario incluye ocho partituras para ocho emociones basadas en el maniquí de emoción de Plutchik (Plutchik, 1980): alegría, confianza, miedo, sorpresa, tristeza, anticipación, ira y disgusto. Estas emociones se pueden clasificar en cuatro pares opuestos: alegría-tristeza, ira-miedo, confianza-disgusto y anticipación-sorpresa. El glosario NRC asigna a cada texto la emoción con viejo puntuación. Se extrajeron las puntuaciones de emoción del glosario de la NRC para cada tweet del conjunto de datos y se utilizaron como características para el maniquí de detección de informativo falsas. Las características del maniquí incluyen el texto del tweet, el sentimiento y ocho emociones. El maniquí fue entrenado con el 80% de los datos y probado con el 20%. Las informativo falsas tenían una viejo prevalencia de emociones negativas, como miedo, disgusto y enojo, que las informativo reales, y las informativo reales tenían una viejo prevalencia de emociones positivas, como anticipación, alegría y sorpresa, que las informativo falsas.
Detección de informativo falsas
En el presente estudio, el conjunto de datos se dividió en un conjunto de entrenamiento (80%) y un conjunto de prueba (20%). El conjunto de datos se analizó utilizando tres modelos de formación forzoso: bosque imprevisible, SVM y Bayes ingenuo. Los apéndices A y B proporcionan información sobre cómo se obtuvieron los resultados y cómo se correlacionan con el corpus de la investigación.
bosque imprevisible: Un enfoque de formación conjunto que ajusta varios árboles de atrevimiento a subconjuntos de datos aleatorios. Este clasificador es popular para la clasificación de texto, datos de adhesión dimensión y características de importancia, ya que se sobreajusta menos que los árboles de atrevimiento. En este estudio se utilizó el clasificador Random Forest en scikit-learn (Breiman, 2001).
Bayes ingenuo: Este maniquí utiliza el teorema de Bayes para resolver problemas de clasificación, como clasificar documentos en grupos y incomunicar el spam. Este enfoque funciona correctamente con datos de texto y es obediente de usar, sólido y bueno para problemas con más de una ceremonial. En este estudio se utilizó el clasificador Naïve Bayes de scikit-learn (Zhang, 2004).
Máquinas de vectores de soporte (SVM): métodos de formación supervisados que se utilizan para encontrar títulos atípicos, clasificar datos y realizar regresión. Estos métodos funcionan correctamente con datos que involucran muchas dimensiones. Las SVM encuentran los mejores hiperplanos para dividir clases. En este estudio, se utilizó el maniquí SVM de scikit-learn (Cortés y Vapnik, 1995).
Los modelos de formación profundo pueden educarse a describir datos automáticamente de forma jerárquica, lo que los hace aperos para tareas como identificar informativo falsas (Salakhutdinov et al., 2012). En este estudio se utilizó un maniquí de jerga llamado representaciones de codificador bidireccional de transformadores (BERT) para ayudar a descubrir informativo falsas más fácilmente.
BERT: Un maniquí de PNL de vanguardia que utiliza redes neuronales profundas y formación bidireccional y puede distinguir patrones en los dos lados de una palabra en una oración, lo que ayuda a comprender el contexto y el significado del texto. BERT ha sido entrenado previamente con grandes conjuntos de datos y puede ajustarse para aplicaciones específicas para capturar patrones y contextos de datos únicos (Devlin et al., 2018).
En esquema, aplicamos modelos de formación forzoso (bosque imprevisible, Bayes ingenuo y SVM) y un maniquí de formación profundo (BERT) para analizar datos de texto para la detección de informativo falsas. Se comparó el impacto de las características emocionales en la detección de informativo falsas entre modelos que incluyen estas características y modelos que no las incluyen. Descubrimos que ampliar puntuaciones de emoción como características de los modelos de formación forzoso y formación profundo para la detección de informativo falsas puede mejorar la precisión del maniquí. Un observación más detallado de los resultados se ofrece en la sección “Resultados y observación”.


