KoBART Summarization - Fine-tuned on XL-Sum (Korean)
이 모델은 gogamza/kobart-summarization을 기반으로 XL-Sum 한국어 데이터셋을 활용해 LoRA(Low-Rank Adaptation) 기법으로 파인튜닝한 모델입니다. 뉴스 기사와 같은 긴 텍스트를 핵심 문장으로 압축하는 데 특화되어 있습니다.
How to Use
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("rudalson/kobart-summarization-ko")
model = AutoModelForSeq2SeqLM.from_pretrained("rudalson/kobart-summarization-ko")
text = """5월 1일 노동절부터 5일 어린이날까지 이어지는 최대 5일간의 황금연휴를 앞두고 국내 주요 관광지의 숙박 요금이 천정부지로 치솟고 있습니다.
중동전쟁 여파로 항공 유류비가 오르자 해외 대신 국내 여행으로 수요가 몰린 데다, 일본과 중국의 연휴까지 겹치며 숙소 구하기가 그야말로 '하늘의 별따기'가 된 상황입니다."""
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=1024)
summary_ids = model.generate(
inputs["input_ids"],
num_beams=4,
max_length=128,
min_length=10,
no_repeat_ngram_size=3,
repetition_penalty=1.2,
early_stopping=True
)
print(tokenizer.decode(summary_ids[0], skip_special_tokens=True))
Training Detail
- Training Data: XL-Sum (Korean)
- Technique: LoRA (r=8, lora=alpha=32)
- Epochs: 5
- Learning Rate: 2e-5
Evaluation
👁 Evaluation
평가 시 형태소 분석기 Kiwi를 사용하여 토큰화 후 측정되었습니다.
| Metric | Score |
|---|---|
| ROUGE-1 | 11.63% |
| ROUGE-L | 11.57% |
Support
- SSAFY Tesla V100-PCIE-32GB
- Downloads last month
- 146
Safetensors
Model size
0.1B params
Tensor type
F16
·
Model tree for rudalson/kobart-summarization-xlsum
Base model
gogamza/kobart-summarization