스킬 nowait-reasoning-optimizer

nowait-reasoning-optimizer

안전 ⚙️ 외부 명령어🌐 네트워크 접근

LLM-Reasoning-Token um 50% reduzieren

Chain-of-Thought-Reasoning-Modelle erzeugen ausführliche Selbstreflexions-Token, die Kosten und Latenz erhöhen. Diese Skill implementiert die NOWAIT-Technik, um unnötige Reflexionstoken während der Inferenz zu unterdrücken, reduziert die Token-Nutzung um 27-51% und erhält die Genauigkeit bei RL-basierten Reasoning-Modellen.

지원: Claude Codex Code(CC)
📊 71 적절함
1

스킬 ZIP 다운로드

2

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

3

토글을 켜고 사용 시작

테스트해 보기

"nowait-reasoning-optimizer" 사용 중입니다. Optimiere Inferenz für QwQ-32B um Thinking-Token zu reduzieren

예상 결과:

  • NOWAIT mit 17 Reflexionsschlüsselwörtern initialisiert
  • Unterdrücke: wait, hmm, aber, however, alternativ, prüfe, verifiziere...
  • Falsch-Positive ausgeschlossen: ohio, button, checkout, checksum...
  • Token-Set erstellt: ca. N Token für Unterdrückung identifiziert
  • Bereit für logits_processor-Integration mit erwarteter Token-Reduktion von 27-51%

"nowait-reasoning-optimizer" 사용 중입니다. Wende NOWAIT auf Kimi-VL-A3B für visuelle QA-Aufgabe an

예상 결과:

  • NOWAIT für multimodales Modell konfiguriert
  • Erwartete Token-Reduktion: 40-60% bei visuellen QA-Aufgaben
  • Alle Standardreflexionsschlüsselwörter angewendet
  • Modell überspringt unnötige Selbstreflexion und erhält visuelle Reasoning-Fähigkeiten

"nowait-reasoning-optimizer" 사용 중입니다. Benchmark Qwen3-32B mit und ohne NOWAIT

예상 결과:

  • Baseline: 15000 Token bei AIME-Matheproblem
  • NOWAIT: 10500 Token mit 30% Reduktion
  • Genauigkeit bei ca. 66-68% gehalten
  • Erhebliche Kosteneinsparungen für großangelegte Auswertung

품질 점수

45
아키텍처
100
유지보수성
87
콘텐츠
21
커뮤니티
100
보안
91
사양 준수

만들 수 있는 것

Produktionsinferenz optimieren

Effiziente Reasoning-Modelle mit reduzierten Computekosten und Latenz für Produktionssysteme bereitstellen

Benchmarking-Kosten senken

Großangelegte Reasoning-Benchmarks mit 30-50% weniger Token durchführen und dabei die Genauigkeit erhalten

Token-Nutzungsgebühren reduzieren

API-Kosten bei der Verwendung von Reasoning-Modellen senken, indem ausführliche Reflexionsmuster unterdrückt werden

이 프롬프트를 사용해 보세요

Grundlegendes NOWAIT-Setup
Use the NOWAIT Reasoning Optimizer to suppress self-reflection tokens during generation. Initialize NOWAITLogitProcessor with the model's tokenizer and apply it during model.generate() with max_new_tokens=32768.
vLLM-Integration
Configure vLLM to use NOWAIT by calling get_nowait_bad_words_ids() with the tokenizer and pass the result to SamplingParams for efficient batch inference.
Benutzerdefinierte Schlüsselwörter
Create a custom NOWAITConfig with domain-specific keywords to suppress, excluding false positives like butterfly or checkout that should not be filtered.
Hybrid-Ansatz
Use NOWAITStoppingCriteria instead of full suppression to allow some reflection tokens but stop generation if reflection count exceeds a configurable threshold.

모범 사례

  • Token-Reduktion auf Ihrem spezifischen Modell vor Produktionseinsatz testen
  • Genauigkeit bei schwierigen Aufgaben überwachen, wenn NOWAIT auf distillierten Modellen verwendet wird
  • Ausschlussmuster verwenden, um falsch-positive Ergebnisse bei legitimen Wörtern zu verhindern

피하기

  • NOWAIT auf distillierte kleine Modelle ohne Genauigkeitsvalidierung anwenden
  • NOWAIT auf Non-Reasoning-Modellen verwenden, die keine Reflexions-Token generieren
  • Schlüsselwörter unterdrücken, ohne ausgeschlossene Muster zuerst zu überprüfen

자주 묻는 질문

Welche Modelle funktionieren am besten mit NOWAIT?
RL-basierte Modelle wie QwQ-32B, Phi4-Reasoning-Plus und Qwen3-32B zeigen 27-51% Token-Reduktion. Distillierte Modelle können bei schwierigen Aufgaben an Genauigkeit verlieren.
Welche Token-Reduktion kann ich erwarten?
Mathe-Aufgaben sehen 30% Reduktion, visuelle QA bis zu 50% und Video-QA etwa 27%. Ergebnisse variieren je nach Modell und Aufgabenkomplexität.
Beeinflusst NOWAIT die Antwortgenauigkeit?
RL-basierte Modelle behalten stabile Genauigkeit bei. Distillierte Modelle können bei herausfordernden Aufgaben Verluste zeigen. Validieren Sie immer für Ihren Anwendungsfall.
Kann ich anpassen, welche Token unterdrückt werden?
Ja, benutzerdefinierte Schlüsselwörter und ausgeschlossene Muster über NOWAITConfig für domänenspezifische Abstimmung bereitstellen.
Sind meine Daten bei der Verwendung dieser Skill sicher?
Ja, NOWAIT läuft lokal während der Inferenz und überträgt keine Daten extern. Es manipuliert nur Modell-Logits.
Wie vergleicht sich NOWAIT mit anderen Optimierungstechniken?
NOWAIT ist trainingsfrei und funktioniert zur Inferenzzeit. Es ergänzt andere Techniken wie Quantisierung und KV-Cache-Optimierung.

개발자 세부 정보

파일 구조