Investigación académica
Investigación académica

¿Qué herramientas detectan plagio y cómo funcionan?

SamSam · Asistente de investigación · 2026-06-09

Detección de plagio: fundamentos técnicos y herramientas especializadas

El plagio —apropiación de ideas, texto o datos ajenos sin atribución adecuada— representa una de las formas más documentadas de deshonestidad académica. Para combatirlo, la comunidad científica y las instituciones educativas recurren a sistemas automatizados de detección de similitud textual, cuyo funcionamiento combina técnicas de procesamiento de lenguaje natural (PLN), recuperación de información y comparación de huellas digitales de documentos. Comprender cómo operan estos sistemas es indispensable tanto para quienes los aplican como para quienes redactan bajo sus criterios.

Principios técnicos de la detección

Todo sistema de detección parte de un proceso de indexación: la herramienta convierte el texto de entrada en representaciones computables y las compara contra un corpus de referencia. Los métodos más consolidados son tres.

El primero es la comparación por n-gramas, donde un n-grama es una secuencia contigua de n unidades léxicas (palabras o caracteres). Si el texto original dice "la investigación científica requiere rigor metodológico" y un documento sospechoso dice "la investigación científica exige rigor metodológico", el solapamiento de 4-gramas de palabras es alto aunque no haya copia literal exacta. Los n-gramas de caracteres son especialmente robustos ante cambios ortográficos menores o errores tipográficos deliberados.

El segundo método es el fingerprinting o huella digital de documento, que aplica funciones de hash (como SHA-256) a fragmentos del texto para generar identificadores únicos. El algoritmo Winnowing, descrito por Schleimer, Wilkerson y Aiken en 2003, selecciona un subconjunto mínimo de hashes localmente representativos para hacer la comparación eficiente a escala masiva sin perder sensibilidad. Este algoritmo es la base técnica de herramientas como Turnitin.

El tercer enfoque usa modelos vectoriales semánticos: el texto se transforma en vectores de alta dimensión mediante técnicas como word embeddings (Word2Vec, GloVe) o modelos de lenguaje preentrenados (BERT, GPT), y se mide la distancia coseno entre vectores para detectar paráfrasis estructurales aunque el léxico haya cambiado por completo. Este enfoque detecta el llamado plagio encubierto o paraphrase plagiarism, el caso más difícil para los métodos léxicos tradicionales.

Herramientas principales del mercado

Turnitin es el sistema de referencia en el ámbito universitario anglosajón e iberoamericano. Compara contra su propio repositorio de trabajos enviados anteriormente, bases de datos de publicaciones académicas licenciadas y contenido web rastreado. Genera un índice de similitud expresado como porcentaje; sin embargo, la interpretación de ese porcentaje requiere revisión humana, ya que las citas correctamente formateadas, los glosarios estándar o las frases fijas del dominio elevan el porcentaje sin constituir plagio.

iThenticate, también de Turnitin, está orientado a manuscritos científicos prepublicación. Se integra con flujos editoriales de revistas indexadas y tiene acceso a bases como Crossref y DOI, lo que lo hace especialmente útil para detectar auto-plagio (reutilización de texto propio sin declaración) en artículos de investigación.

Unicheck y PlagScan son alternativas más accesibles que indexan contra contenido web abierto, bases de datos académicas parciales y documentos previamente procesados en su plataforma. Su capacidad de detección semántica es menor que la de Turnitin, pero son funcionales para revisiones preliminares.

Copyleaks incorpora modelos de PLN modernos y ofrece detección en más de 100 idiomas, con capacidad para identificar traducciones palabra a palabra, una modalidad de plagio transingüístico cada vez más frecuente.

GPTZero y Originality.AI representan una categoría emergente: no detectan plagio textual sino contenido generado por inteligencia artificial. Estiman la probabilidad de que un texto haya sido producido por un modelo de lenguaje grande (LLM) mediante métricas como perplexity (perplejidad, medida de cuán predecible es el texto para el modelo) y burstiness (variabilidad en la complejidad de las oraciones).

Limitaciones conocidas

Ninguna herramienta es infalible. Las limitaciones más documentadas incluyen:

Buenas prácticas para investigadores y docentes

Glosario

SamSam
Probar el asistente de investigación