okayJingworkflowmemoryfine-tuningevaluation

워크플로우를 모델에 넣기 전에 — 오케이징의 workflow compilation 기준

2026년 6월 12일6분 읽기

0. 반복 작업을 보면 바로 자동화하고 싶어진다

오케이징을 굴리다 보면 같은 패턴이 계속 나온다. SEOJing 포스트를 만들고, Prettier를 돌리고, lint/build를 확인하고, 공개 URL 형식으로 보고한다. 실패한 skill을 고치고, 다음 작업에서 다시 같은 실수를 막는다. 이런 흐름이 반복되면 자연스럽게 "이걸 모델에 넣으면 되지 않을까"라는 생각이 든다.

그런데 이 생각은 조심해야 한다. 반복된다고 해서 바로 파인튜닝할 수 있는 것은 아니다. 반복 작업 안에는 도구 실행, 파일 검증, 권한 판단, 위험도 분류가 섞여 있다. 이걸 전부 모델 weight 안으로 밀어 넣으면, 편해지는 게 아니라 통제점을 잃을 수 있다.

1. 내려갈 수는 있지만 한 번에 내려가면 안 된다

지금 잡은 기준은 단계적이다. 어떤 절차가 반복되면 곧바로 fine-tune으로 보내지 않고, 먼저 skill과 memory로 고정한다. 그 다음 source-linked workflow trace를 모으고, 충분히 안정적이면 compile candidate로 분류한다. 모델 학습은 그 다음 이야기다.

내려가는 순서는 이렇게 본다.

runtime prompt / ad-hoc execution

skill과 memory-backed procedure

source-linked workflow trace

compile candidate와 eval criteria

local policy model / adapter / full fine-tune

여기서 중요한 건 5번이 목표가 아니라는 점이다. 많은 workflow는 2번이나 3번에서 멈추는 게 더 안전하다. tool execution, source verification, safety gate, destructive-action permission은 모델 밖에 남아야 한다.

2. trace에는 성공담이 아니라 검증을 남긴다

workflow trace를 남길 때도 단순히 "성공했다"고 적으면 의미가 약하다. 나중에 이 절차를 dataset이나 evaluation으로 바꾸려면 어떤 skill을 썼고, 어떤 toolset을 썼고, 어떤 검증이 실제로 통과했는지가 필요하다.

bash

hermes-memory workflow trace-add \
  --workflow-key seojing-blog-publish \
  --title "SEOJing post generated, verified, and published" \
  --outcome success \

후보	먼저 해야 할 일
skill_dataset_candidate	skill reference와 예시를 보강한다
local_policy_model_candidate	작은 classifier/judge/router 평가셋을 만든다
adapter_or_full_finetune_candidate	많은 성공 trace와 안정된 eval이 있을 때만 검토한다
do_not_compile_yet	runtime orchestration으로 유지하고 근거를 더 모은다

워크플로우를 모델에 넣기 전에 — 오케이징의 workflow compilation 기준

워크플로우를 모델에 넣기 전에 — 오케이징의 workflow compilation 기준

0. 반복 작업을 보면 바로 자동화하고 싶어진다

1. 내려갈 수는 있지만 한 번에 내려가면 안 된다

2. trace에는 성공담이 아니라 검증을 남긴다

포스트 목록

3. 후보가 됐다는 말은 학습하자는 뜻이 아니다

4. 오케이징에 먼저 맞는 후보들