스킬 nowait-reasoning-optimizer

⚡

nowait-reasoning-optimizer

Name: nowait-reasoning-optimizer
Author: davila7

안전 ⚙️ 외부 명령어🌐 네트워크 접근

LLM-Reasoning-Token um 50% reduzieren

Chain-of-Thought-Reasoning-Modelle erzeugen ausführliche Selbstreflexions-Token, die Kosten und Latenz erhöhen. Diese Skill implementiert die NOWAIT-Technik, um unnötige Reflexionstoken während der Inferenz zu unterdrücken, reduziert die Token-Nutzung um 27-51% und erhält die Genauigkeit bei RL-basierten Reasoning-Modellen.

지원: Claude Codex Code(CC)

📊 71 적절함

스킬 ZIP 다운로드

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

토글을 켜고 사용 시작

테스트해 보기

"nowait-reasoning-optimizer" 사용 중입니다. Optimiere Inferenz für QwQ-32B um Thinking-Token zu reduzieren

예상 결과:

NOWAIT mit 17 Reflexionsschlüsselwörtern initialisiert
Unterdrücke: wait, hmm, aber, however, alternativ, prüfe, verifiziere...
Falsch-Positive ausgeschlossen: ohio, button, checkout, checksum...
Token-Set erstellt: ca. N Token für Unterdrückung identifiziert
Bereit für logits_processor-Integration mit erwarteter Token-Reduktion von 27-51%

"nowait-reasoning-optimizer" 사용 중입니다. Wende NOWAIT auf Kimi-VL-A3B für visuelle QA-Aufgabe an

예상 결과:

NOWAIT für multimodales Modell konfiguriert
Erwartete Token-Reduktion: 40-60% bei visuellen QA-Aufgaben
Alle Standardreflexionsschlüsselwörter angewendet
Modell überspringt unnötige Selbstreflexion und erhält visuelle Reasoning-Fähigkeiten

"nowait-reasoning-optimizer" 사용 중입니다. Benchmark Qwen3-32B mit und ohne NOWAIT

예상 결과:

Baseline: 15000 Token bei AIME-Matheproblem
NOWAIT: 10500 Token mit 30% Reduktion
Genauigkeit bei ca. 66-68% gehalten
Erhebliche Kosteneinsparungen für großangelegte Auswertung

보안 감사

안전

v5 • 1/17/2026

Legitimate ML optimization utility implementing a published research paper technique. Pure Python inference-time token manipulation with no network access, no file I/O beyond tokenizer loading, and no external command execution. All static findings are false positives from markdown code examples and benign ML patterns.

스캔된 파일

785

분석된 줄 수

발견 사항

총 감사 수

위험 요인

⚙️ 외부 명령어 (37)

refrences/keywords.md:7 refrences/keywords.md:11-31 refrences/keywords.md:31-37 refrences/keywords.md:37-47 refrences/keywords.md:47-83 refrences/keywords.md:83 refrences/keywords.md:83 refrences/keywords.md:83 refrences/keywords.md:83-87 refrences/keywords.md:87 refrences/keywords.md:87 refrences/keywords.md:87-91 refrences/keywords.md:91 refrences/keywords.md:91 refrences/keywords.md:91 refrences/keywords.md:91-95 refrences/keywords.md:95 refrences/keywords.md:95 refrences/keywords.md:95-99 refrences/keywords.md:99 refrences/keywords.md:99 refrences/keywords.md:99-114 refrences/keywords.md:114-115 refrences/keywords.md:115-118 refrences/keywords.md:118-130 SKILL.md:37-49 SKILL.md:49-53 SKILL.md:53-55 SKILL.md:55-58 SKILL.md:58-66 SKILL.md:66-72 SKILL.md:72-95 SKILL.md:95-111 SKILL.md:111-115 SKILL.md:115-126 SKILL.md:126-145 SKILL.md:145-146

🌐 네트워크 접근 (1)

skill-report.json:6

감사자: claude 감사 이력 보기 →

품질 점수

아키텍처

100

유지보수성

콘텐츠

커뮤니티

100

보안

사양 준수

만들 수 있는 것

Produktionsinferenz optimieren

Effiziente Reasoning-Modelle mit reduzierten Computekosten und Latenz für Produktionssysteme bereitstellen

Benchmarking-Kosten senken

Großangelegte Reasoning-Benchmarks mit 30-50% weniger Token durchführen und dabei die Genauigkeit erhalten

Token-Nutzungsgebühren reduzieren

API-Kosten bei der Verwendung von Reasoning-Modellen senken, indem ausführliche Reflexionsmuster unterdrückt werden

이 프롬프트를 사용해 보세요

Grundlegendes NOWAIT-Setup

Use the NOWAIT Reasoning Optimizer to suppress self-reflection tokens during generation. Initialize NOWAITLogitProcessor with the model's tokenizer and apply it during model.generate() with max_new_tokens=32768.

vLLM-Integration

Configure vLLM to use NOWAIT by calling get_nowait_bad_words_ids() with the tokenizer and pass the result to SamplingParams for efficient batch inference.

Benutzerdefinierte Schlüsselwörter

Create a custom NOWAITConfig with domain-specific keywords to suppress, excluding false positives like butterfly or checkout that should not be filtered.

Hybrid-Ansatz

Use NOWAITStoppingCriteria instead of full suppression to allow some reflection tokens but stop generation if reflection count exceeds a configurable threshold.

모범 사례

Token-Reduktion auf Ihrem spezifischen Modell vor Produktionseinsatz testen
Genauigkeit bei schwierigen Aufgaben überwachen, wenn NOWAIT auf distillierten Modellen verwendet wird
Ausschlussmuster verwenden, um falsch-positive Ergebnisse bei legitimen Wörtern zu verhindern

피하기

NOWAIT auf distillierte kleine Modelle ohne Genauigkeitsvalidierung anwenden
NOWAIT auf Non-Reasoning-Modellen verwenden, die keine Reflexions-Token generieren
Schlüsselwörter unterdrücken, ohne ausgeschlossene Muster zuerst zu überprüfen

자주 묻는 질문

Welche Modelle funktionieren am besten mit NOWAIT?

RL-basierte Modelle wie QwQ-32B, Phi4-Reasoning-Plus und Qwen3-32B zeigen 27-51% Token-Reduktion. Distillierte Modelle können bei schwierigen Aufgaben an Genauigkeit verlieren.

Welche Token-Reduktion kann ich erwarten?

Mathe-Aufgaben sehen 30% Reduktion, visuelle QA bis zu 50% und Video-QA etwa 27%. Ergebnisse variieren je nach Modell und Aufgabenkomplexität.

Beeinflusst NOWAIT die Antwortgenauigkeit?

RL-basierte Modelle behalten stabile Genauigkeit bei. Distillierte Modelle können bei herausfordernden Aufgaben Verluste zeigen. Validieren Sie immer für Ihren Anwendungsfall.

Kann ich anpassen, welche Token unterdrückt werden?

Ja, benutzerdefinierte Schlüsselwörter und ausgeschlossene Muster über NOWAITConfig für domänenspezifische Abstimmung bereitstellen.

Sind meine Daten bei der Verwendung dieser Skill sicher?

Ja, NOWAIT läuft lokal während der Inferenz und überträgt keine Daten extern. Es manipuliert nur Modell-Logits.

Wie vergleicht sich NOWAIT mit anderen Optimierungstechniken?

NOWAIT ist trainingsfrei und funktioniert zur Inferenzzeit. Es ergänzt andere Techniken wie Quantisierung und KV-Cache-Optimierung.