Qwen3-VL-4B-Instruct LoRA - FBKINGDOM Text Recognition
본 모델은 Qwen/Qwen3-VL-4B-Instruct를 기반으로 FBKINGDOM 텍스트(이미지)를 히라가나로 변환하는 태스크에 특화되도록 LoRA 미세 조정(Fine-tuning)을 거친 모델입니다.
Colab으로 사용해볼 수 있습니다. 바로가기
📌 주요 특징 및 한계점 (Key Characteristics & Limitations)
- 자체 생성 데이터셋 활용: Font를 이용한 자체 생성 이미지 데이터 세트를 기반으로 학습되었습니다.
- 문장 길이에 따른 성능 편차: 짧은 문장에서는 100%에 달하는 최고 성능을 보이나, 긴 문장(20자 이상)에서는 문맥 파악의 복잡도로 인해 정확도가 하락할 수 있습니다.
- 문맥 기반 기호 인식: 모양이 동일한 기호(예:
は가ha,pa,wa로 읽히는 경우)를 문맥에 따라 구분하도록 학습되었으나, 모호성이 높은 문장에서는 간혹 변환 오류가 발생할 수 있습니다.
📊 모델 성능 평가 (Evaluation Results)
총 391개의 검증 데이터셋(Validation Set)을 대상으로 모델의 성능을 평가한 결과입니다.
1. 전반적 성능 (Overall Metrics)
전체 데이터에 대한 Exact Match(정확히 일치한 비율)는 59.8%, Character Accuracy(글자 단위 정확도)는 **82.1%**를 기록했습니다.
- Total Samples: 391
- Exact Match (정답과 100% 일치): 234개 (59.85%)
- Char Accuracy (문자 단위 정확도): 82.10%
- Ambiguous Exact (모호한 문자 포함 시 정확도): 196/345 (56.8%)
2. 문장 길이에 따른 성능 (Performance by Sequence Length)
문장의 길이에 따라 모델의 예측 정확도(Exact Match)가 크게 달라지는 경향을 보입니다. 짧은 문장에서는 오답이 전혀 발생하지 않았으나, 문장이 길어질수록 정확도가 점차 감소합니다.
| 문장 길이 (Length) | 데이터 개수 (Total) | 정답 개수 (Exact) | 정확도 (Accuracy) |
|---|---|---|---|
| Short | 50 | 50 | 100.0% |
| Medium | 81 | 72 | 88.9% |
| Long (20자+) | 260 | 112 | 43.1% |
⚙️ 학습 환경 (Training Configuration)
- Base Model:
Qwen/Qwen3-VL-4B-Instruct - Method: LoRA (Rank=64, Alpha=128, Dropout=0.05)
- Max Sequence Length: 512
- Epochs: 7
- Learning Rate: 3e-5 (Cosine Scheduler with 10% Warmup)
- Attention Implementation: Flash Attention 2
- Downloads last month
- 5
Safetensors
Model size
4B params
Tensor type
F16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support
