VOOZH about

URL: https://huggingface.co/Genticca/FBK_Qwen3-VL-4B

⇱ Genticca/FBK_Qwen3-VL-4B · Hugging Face


Qwen3-VL-4B-Instruct LoRA - FBKINGDOM Text Recognition

본 모델은 Qwen/Qwen3-VL-4B-Instruct를 기반으로 FBKINGDOM 텍스트(이미지)를 히라가나로 변환하는 태스크에 특화되도록 LoRA 미세 조정(Fine-tuning)을 거친 모델입니다.

Colab으로 사용해볼 수 있습니다. 바로가기

📌 주요 특징 및 한계점 (Key Characteristics & Limitations)

  • 자체 생성 데이터셋 활용: Font를 이용한 자체 생성 이미지 데이터 세트를 기반으로 학습되었습니다.
  • 문장 길이에 따른 성능 편차: 짧은 문장에서는 100%에 달하는 최고 성능을 보이나, 긴 문장(20자 이상)에서는 문맥 파악의 복잡도로 인해 정확도가 하락할 수 있습니다.
  • 문맥 기반 기호 인식: 모양이 동일한 기호(예: ha, pa, wa로 읽히는 경우)를 문맥에 따라 구분하도록 학습되었으나, 모호성이 높은 문장에서는 간혹 변환 오류가 발생할 수 있습니다.

📊 모델 성능 평가 (Evaluation Results)

총 391개의 검증 데이터셋(Validation Set)을 대상으로 모델의 성능을 평가한 결과입니다.

1. 전반적 성능 (Overall Metrics)

전체 데이터에 대한 Exact Match(정확히 일치한 비율)는 59.8%, Character Accuracy(글자 단위 정확도)는 **82.1%**를 기록했습니다.

  • Total Samples: 391
  • Exact Match (정답과 100% 일치): 234개 (59.85%)
  • Char Accuracy (문자 단위 정확도): 82.10%
  • Ambiguous Exact (모호한 문자 포함 시 정확도): 196/345 (56.8%)
👁 Overall Metrics

2. 문장 길이에 따른 성능 (Performance by Sequence Length)

문장의 길이에 따라 모델의 예측 정확도(Exact Match)가 크게 달라지는 경향을 보입니다. 짧은 문장에서는 오답이 전혀 발생하지 않았으나, 문장이 길어질수록 정확도가 점차 감소합니다.

문장 길이 (Length) 데이터 개수 (Total) 정답 개수 (Exact) 정확도 (Accuracy)
Short 50 50 100.0%
Medium 81 72 88.9%
Long (20자+) 260 112 43.1%
👁 Performance by Length

⚙️ 학습 환경 (Training Configuration)

  • Base Model: Qwen/Qwen3-VL-4B-Instruct
  • Method: LoRA (Rank=64, Alpha=128, Dropout=0.05)
  • Max Sequence Length: 512
  • Epochs: 7
  • Learning Rate: 3e-5 (Cosine Scheduler with 10% Warmup)
  • Attention Implementation: Flash Attention 2
Downloads last month
5
Safetensors
Model size
4B params
Tensor type
F16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Genticca/FBK_Qwen3-VL-4B

Finetuned
(307)
this model
Quantizations
1 model

Datasets used to train Genticca/FBK_Qwen3-VL-4B