Korean Pre-Trained Models & Datasets
1. Bert
Model | Tokenizer | Vocab | Layers | NSMC ACC | Naver-NER F1 | Corpus |
---|---|---|---|---|---|---|
KoBERT | Sentencepiece | 8002 | 12 layers | 89.63 | 86.11 | Wiki \n - 5M sentences \n - 54 words |
KoELECTRA | Wordpiece | 32200 | 12 layers | 90.63 | 88.11 | 뉴스, 나무위키, 모두의 말뭉치 |
KoSentenceBert - ETRI | ||||||
LMKor | 42000 | 6, 12 layers | 90.87 | 87.27 | - 국내 주요 커머스 리뷰 1억개 + 블로그 형 웹사이트 2000만개 (75GB) \n - 모두의 말뭉치 (18GB) \n - - 위키피디아와 나무위키 (6GB) |
2. Datasets
Name | Type | Description |
---|---|---|
SNLI Dataset Corpus | Sentence Similarity | 2개의 영어 문장이 있고, contradiction, neutral, entailment 로 나눔 |
The Multi-Genre NLI Corpus | Sentence Similarity | 2개의 영어 문장이 있고, contradiction, neutral, entailment 로 나눔 |