Esta página ha sido traducida por una máquina. Otras páginas pueden seguir apareciendo en inglés. View in English

PromptFix: Eliminación de puertas traseras de pocos disparos a través del ajuste rápido adversario

  • 0School of Information Science & Technology, Pennsylvania State University.
Proceedings of the Conference. Association for Computational Linguistics. North American Chapter. Meeting +

|

|

Resumen

Este resumen es generado por máquina.

PromptFix ofrece una nueva defensa contra las puertas traseras en los modelos de procesamiento del lenguaje natural (PNL). Este método utiliza ajuste de aviso adversario para neutralizar los tokens de desencadenante maliciosos sin alterar los parámetros del modelo, mejorando la seguridad en escenarios de aprendizaje de pocos disparos.

Área De La Ciencia

  • Inteligencia artificial
  • Procesamiento del lenguaje natural
  • Seguridad del aprendizaje automático

Sus Antecedentes

  • Los modelos de lenguaje preentrenados (PLM) demuestran un rendimiento notable, pero son vulnerables a las puertas traseras, donde los tokens de desencadenante específicos manipulan el comportamiento del modelo.
  • El ajuste fino de pocos disparos y el aviso son paradigmas populares de capacitación de PNL debido a la generalización de PLM y los altos costos de capacitación.
  • Los métodos de mitigación de puertas traseras existentes a menudo requieren la inversión del gatillo y el reentrenamiento del modelo, que pueden ser ineficientes.

Objetivo Del Estudio

  • Introducir PromptFix, una nueva estrategia de mitigación de la puerta trasera para los modelos de PNL.
  • Para abordar la vulnerabilidad de unos pocos disparos de ajuste fino y el impulso de paradigmas a los ataques de puerta trasera.
  • Desarrollar un método que preserve los parámetros del modelo mientras neutraliza efectivamente los disparadores de la puerta trasera.

Principales Métodos

  • PromptFix emplea ajuste de aviso adversario utilizando dos conjuntos de fichas blandas: una para aproximar el disparador y otra para contrarrestarlo.
  • El método evita la inversión explícita del disparador y el ajuste fino del modelo, manteniendo intactos los parámetros originales del modelo.
  • La optimización adversarial se utiliza para equilibrar de manera adaptativa la identificación de disparadores y la preservación del rendimiento.

Principales Resultados

  • Los experimentos demuestran la efectividad de PromptFix contra varios ataques de puerta trasera en modelos de PNL.
  • El método muestra un gran rendimiento incluso con cambio de dominio, lo que indica su aplicabilidad a modelos con datos de entrenamiento previo desconocidos.
  • PromptFix neutraliza con éxito los disparadores de la puerta trasera sin comprometer el rendimiento general del modelo.

Conclusiones

  • PromptFix proporciona una solución efectiva y eficiente para los parámetros para mitigar las puertas traseras en los modelos de PNL en configuraciones de pocos disparos.
  • La técnica es robusta para los cambios de dominio, lo que la hace adecuada para aplicaciones de ajuste de prontos en el mundo real.
  • Este enfoque de ajuste rápido adversario ofrece una dirección prometedora para mejorar la seguridad de los modelos de lenguaje previamente entrenados.

Videos de Conceptos Relacionados

Woodward–Hoffmann Selection Rules and Microscopic Reversibility 01:34

3.3K

Electrocyclic reactions, cycloadditions, and sigmatropic rearrangements are concerted pericyclic reactions that proceed via a cyclic transition state. These reactions are stereospecific and regioselective. The stereochemistry of the products depends on the symmetry characteristics of the interacting orbitals and the reaction conditions. Accordingly, pericyclic reactions are classified as either symmetry-allowed or symmetry-forbidden. Woodward and Hoffmann presented the selection criteria for...

Enhanced Elimination of Poison 01:26

576

Poison can be effectively removed from the gastrointestinal (GI) tract through various decontamination procedures.
Antidotes serve a crucial role in counteracting the effects of poison by inhibiting enzymes responsible for producing harmful drug metabolites. In some cases, these toxic metabolites can be neutralized by endogenous cosubstrates, which are maintained at specific concentrations to prevent interaction with cellular macromolecules and subsequent cell death.
Renal excretion is the...

Masking and Demasking Agents 01:19

2.6K

EDTA titrations may necessitate masking and demasking agents to temporarily protect a particular metal ion in a mixture from the EDTA reaction. These agents facilitate the sequential analysis of the metal ions by forming stable complexes with some—but not all—metal ions during certain steps.
There are many masking agents, such as cyanide, fluoride, triethanolamine, thiourea, and 2,3-bis(sulfanyl)propan-1-ol (formerly 2,3-dimercapto-1-propanol), with the masking agent chosen based on...

Randomized Experiments 01:13

7.2K

The randomization process involves assigning study participants randomly to experimental or control groups based on their probability of being equally assigned. Randomization is meant to eliminate selection bias and balance known and unknown confounding factors so that the control group is similar to the treatment group as much as possible. A computer program and a random number generator can be used to assign participants to groups in a way that minimizes bias.
Simple randomization
Simple...

Hindsight Biases 01:12

3.9K

Hindsight bias leads you to believe that the event you just experienced was predictable, even though it really wasn’t. In other words, you knew all along that things would turn out the way they did. Can you relate this to the phrase "Hindsight is 20/20" now? 

 

This text is adapted from OpenStax, Psychology. OpenStax...

Types of Errors: Detection and Minimization 01:12

2.3K

Error is the deviation of the obtained result from the true, expected value or the estimated central value. Errors are expressed in absolute or relative terms.
Absolute error in a measurement is the numerical difference from the true or central value. Relative error is the ratio between absolute error and the true or central value, expressed as a percentage.
Errors can be classified by source, magnitude, and sign. There are three types of errors: systematic, random, and gross.
Systematic or...