nowait-reasoning-optimizer
LLM-Reasoning-Token um 50% reduzieren
Chain-of-Thought-Reasoning-Modelle erzeugen ausführliche Selbstreflexions-Token, die Kosten und Latenz erhöhen. Diese Skill implementiert die NOWAIT-Technik, um unnötige Reflexionstoken während der Inferenz zu unterdrücken, reduziert die Token-Nutzung um 27-51% und erhält die Genauigkeit bei RL-basierten Reasoning-Modellen.
스킬 ZIP 다운로드
Claude에서 업로드
설정 → 기능 → 스킬 → 스킬 업로드로 이동
토글을 켜고 사용 시작
테스트해 보기
"nowait-reasoning-optimizer" 사용 중입니다. Optimiere Inferenz für QwQ-32B um Thinking-Token zu reduzieren
예상 결과:
- NOWAIT mit 17 Reflexionsschlüsselwörtern initialisiert
- Unterdrücke: wait, hmm, aber, however, alternativ, prüfe, verifiziere...
- Falsch-Positive ausgeschlossen: ohio, button, checkout, checksum...
- Token-Set erstellt: ca. N Token für Unterdrückung identifiziert
- Bereit für logits_processor-Integration mit erwarteter Token-Reduktion von 27-51%
"nowait-reasoning-optimizer" 사용 중입니다. Wende NOWAIT auf Kimi-VL-A3B für visuelle QA-Aufgabe an
예상 결과:
- NOWAIT für multimodales Modell konfiguriert
- Erwartete Token-Reduktion: 40-60% bei visuellen QA-Aufgaben
- Alle Standardreflexionsschlüsselwörter angewendet
- Modell überspringt unnötige Selbstreflexion und erhält visuelle Reasoning-Fähigkeiten
"nowait-reasoning-optimizer" 사용 중입니다. Benchmark Qwen3-32B mit und ohne NOWAIT
예상 결과:
- Baseline: 15000 Token bei AIME-Matheproblem
- NOWAIT: 10500 Token mit 30% Reduktion
- Genauigkeit bei ca. 66-68% gehalten
- Erhebliche Kosteneinsparungen für großangelegte Auswertung
보안 감사
안전Legitimate ML optimization utility implementing a published research paper technique. Pure Python inference-time token manipulation with no network access, no file I/O beyond tokenizer loading, and no external command execution. All static findings are false positives from markdown code examples and benign ML patterns.
위험 요인
⚙️ 외부 명령어 (37)
🌐 네트워크 접근 (1)
품질 점수
만들 수 있는 것
Produktionsinferenz optimieren
Effiziente Reasoning-Modelle mit reduzierten Computekosten und Latenz für Produktionssysteme bereitstellen
Benchmarking-Kosten senken
Großangelegte Reasoning-Benchmarks mit 30-50% weniger Token durchführen und dabei die Genauigkeit erhalten
Token-Nutzungsgebühren reduzieren
API-Kosten bei der Verwendung von Reasoning-Modellen senken, indem ausführliche Reflexionsmuster unterdrückt werden
이 프롬프트를 사용해 보세요
Use the NOWAIT Reasoning Optimizer to suppress self-reflection tokens during generation. Initialize NOWAITLogitProcessor with the model's tokenizer and apply it during model.generate() with max_new_tokens=32768.
Configure vLLM to use NOWAIT by calling get_nowait_bad_words_ids() with the tokenizer and pass the result to SamplingParams for efficient batch inference.
Create a custom NOWAITConfig with domain-specific keywords to suppress, excluding false positives like butterfly or checkout that should not be filtered.
Use NOWAITStoppingCriteria instead of full suppression to allow some reflection tokens but stop generation if reflection count exceeds a configurable threshold.
모범 사례
- Token-Reduktion auf Ihrem spezifischen Modell vor Produktionseinsatz testen
- Genauigkeit bei schwierigen Aufgaben überwachen, wenn NOWAIT auf distillierten Modellen verwendet wird
- Ausschlussmuster verwenden, um falsch-positive Ergebnisse bei legitimen Wörtern zu verhindern
피하기
- NOWAIT auf distillierte kleine Modelle ohne Genauigkeitsvalidierung anwenden
- NOWAIT auf Non-Reasoning-Modellen verwenden, die keine Reflexions-Token generieren
- Schlüsselwörter unterdrücken, ohne ausgeschlossene Muster zuerst zu überprüfen