Michael Backes

2 papers · Latest: May 7, 2026

Pop Quiz Attack: Black-box Membership Inference Attacks Against Large Language Models

Introduces PopQuiz, a black-box membership inference attack that turns data into quizzes to reveal if LLMs memorized specific training examples.

SafeReview defends LLM-based peer review systems against adversarial hidden prompts using a co-evolving generator-defender framework.

Get the top 10 AI/ML arXiv papers from the week — summarized, scored, and delivered to your inbox every Monday.