04주차 - 프롬프트 보안

적대적 공격 (Adversarial Attack)
1. 주입
  1. 중독 공격 (Poisoning Attack)
  2. 회피 공격 (Evasion Attack)
2. 추출
  1. 전도 공격 (Inversion Attack)
  2. 모델 추출 공격 (Model Extraction Attack)
3. 사례
  1. 자율 주행에서의 사례
  2. LLM에서의 사례
프롬프트 보안 및 해킹
1. 프롬프트 주입 (Prompt Injection) 개념 설명 및 사례
2. 프롬프트 유출 (Prompt Leaking) 개념 설명 및 사례
3. 탈옥 (Jailbreaking) 개념 설명 및 사례
  1. Pretending
  2. Alignment Hacking
  3. Authorized User
  4. DAN https://gist.github.com/coolaj86/6f4f7b30129b0251f61fa7baaa881516
4. 공격 수단 (Offensive Measures)
  1. 전달 메커니즘 (Delivery Mechanism)
    1. 은폐 (Obfuscation)
    2. 페이로드 분할 (Payload Splitting)
    3. 정의된 사전 공격 (Defined Dictionary Attack)
    4. 가상화 (Virtualization)
  2. 프롬프트 주입
    1. 간접 주입 (indirect injection)
    2. 재귀 주입 (recursive injection)
    3. 코드 주입 (code injection)
5. 방어 조치 및 전략 (Defensive Measures & Tactics)
  1. 지시사항에 주입 (Instruction Defense)
  2. 필터링 (Filtering) 기반 방식
  3. 모델 타입 변경
  4. AI 레드팀(Red Team) 운영
보안 관련 컨플루언스 글 소개 (from. 선행개발팀 이창희) https://midastech.atlassian.net/wiki/spaces/MLTEAM/pages/63930369/How+to+prevent+attacks+on+LLMs
4주차 pulse survey
사진