VOOZH about

URL: https://huggingface.co/datasets/cis-lmu/Glot500

⇱ cis-lmu/Glot500 · Datasets at Hugging Face


Dataset Viewer (First 5GB)
Auto-converted to Parquet Duplicate
Search is not available for this dataset
text
stringlengths
23
4.28k
dataset
stringclasses
5 values
script
stringclasses
1 value
lang_script
stringclasses
1 value
Инапқәа игәыҵаԥса, ажәҩан даҵаԥшуа, дхаҳәыршәыраха абарҵаҿ дгылан.
Huggingface
Cyrl
Cyrl
Убри азын аӡәгьы иҟнытә исмаҳацызт агәырҩа имаз.
Huggingface
Cyrl
Cyrl
Ауаатәыҩса рҭоурых азы ари икьаҿу аамҭа ҟәҵәоуп.
Huggingface
Cyrl
Cyrl
Ажәҩан еилгоуп саркьа ҵәцаран, анаҟә хымлац уажә ааигәа, зегь зырҽеиуа бзиабароуп иахьа абраҟа са саазга.
Huggingface
Cyrl
Cyrl
Аамҭа цәгьоуп, сара иабасҭаху сиубилеи азгәаҭо?!
Huggingface
Cyrl
Cyrl
Хәыҷы зга, ду зга зегь акакәмызшәа.
Huggingface
Cyrl
Cyrl
Абас еиԥш иҳәоу ажәа ҵаулақәа рышьҭахь, ҳаргьы иаразнак ашәҟәыҩҩы ҳнаишьҭагыланы, ҳҭоурых-мҩаду ҳанысырц ааҳҭаххоит, аха агәаӷьра ҳзымариамкәа, зназы акыр ҳаалакҩакуеит.
Huggingface
Cyrl
Cyrl
Леуарсан Радмири Назбеии ракәын аиҳараӡак ихшыҩ ззишьҭуаз, аԥсы даниарго, апавилион аҿы даақәыргыланы, митинг кьаҿк еиҿкаазар, имцхәхома?
Huggingface
Cyrl
Cyrl
Амала, рыцҳарас иҟалаз, егьырҭ ажәларқәа рҿы аасҭа, ҳара ҳҿы акырӡа ихьшәаноуп ашәҟәы анҵара, аӡыргара ишалагаз.
Huggingface
Cyrl
Cyrl
Инықәԥала-аақәԥало, иааҳәны ашьапқәа нықәкшо, иара усгьы згәы еибафо ала ахьырԥшны, иахьеицәаӡоу ҭыԥк ахь ихалоит.
Huggingface
Cyrl
Cyrl
Ибыхәаԥшуа игылашт ишҳазӡа, Иахьыбымбо бцаргьы бҭаххашт.
Huggingface
Cyrl
Cyrl
Сгә иснаҭоит, адунеи зегь, амца ацраланы, иаауеит ибылуа
Huggingface
Cyrl
Cyrl
Абарҭ апоетцәа шԥаҟоу, – иҳәеит аредактор, иааҟәымҵӡакәа зыӡбахә рымоу ажәҩани, аеҵәақәеи, аԥсҭҳәақәеи, ақәеи, аӡаӡеи, амзеи роуп.
Huggingface
Cyrl
Cyrl
Ее, гиди, сабиц, ахырзаман ҳақәшәаран ҳашԥаҟаз?!
Huggingface
Cyrl
Cyrl
Аха заа схахәы кыдҵуеит, ашәҟәы бӷьыцқәа ирыбжьаԥсоит, сара сышьхақәа кыр нырҵуеит, урҭ сышрацлабуа сааԥсоит
Huggingface
Cyrl
Cyrl
Бымбара сара даара саргәаҟит, убри хьаас исымоуп уажәы цәгьаӡа.
Huggingface
Cyrl
Cyrl
Сара убригьы сылымшеит исылшартәгьы ҭагылазаашьа ыҟамызт, дад, аусқәа убранӡа инеихьан.
Huggingface
Cyrl
Cyrl
Аибашьра еилашуан, аҭынч ԥсҭазаара аангыланы иҟан, сара ссааҭ шаангылаз еиԥш.
Huggingface
Cyrl
Cyrl
Ҿымҭӡакәа дныҩнакәырны, дымнаӡац иҳәоны, иҟәашшӡа илыманы даакылсит.
Huggingface
Cyrl
Cyrl
Аха бжьыӡа иҟаз атәыҩа змаз ацә ауиԥыхьашәауаз.
Huggingface
Cyrl
Cyrl
Аԥошьҭа сныҩнашылан, Аҟәа ҿасҵеит, аха сгәы аҭыԥ иҭагыломызт, исыршәар ҳәа сшәаны.
Huggingface
Cyrl
Cyrl
Ҳара ҳгазеҭ ажәлар рымаҵ ауеит, ажәлар ааӡоит, ажәлар амҩа иқәнаҵоит.
Huggingface
Cyrl
Cyrl
Аҳарданыжь уаҟа иҿалоз, Амахәқәа ирхьыхәхәо, Уатәи адгьыл ишԥанаалоз, Ажьымжәа уҿаԥхо!
Huggingface
Cyrl
Cyrl
Уажәраанӡа сгәазымҭоз зегьы сџьашьаны иаасыхәаԥшит, сара али-ԥси рыбжьара аимператор Алықьсандр дуӡӡа иахь сныҩнашылеит.
Huggingface
Cyrl
Cyrl
Иузыӡырҩуа урыԥшны уажәа ахы кы ҳәа ауп ишырҳәо.
Huggingface
Cyrl
Cyrl
Аԥсра ихықәгылоу ауаҩы еиҭах аԥсҭазаарахь, агәаҳәара ду инаҭоит ишәҭыз аҵла, уи иҿышәшәо ашәҭыцқәа ахәыҷы иахьиқәԥсо дахьихәаԥшуа.
Huggingface
Cyrl
Cyrl
Раԥхьа иԥышәқәа, нас иҿыҵа, иҟырҟы, игәы, ихьшәашәаӡа илеихысит, уигьы азмырхакәа, амса цырцырқәа еимадмыргылоз инапсыргәыҵа ианҭәалангьы акыраамҭа иҿеиҭәон
Huggingface
Cyrl
Cyrl
Уаҵәы ашьыжь ҳдәықәлаанӡа уи азхәыцха аамҭагьы умоуп.
Huggingface
Cyrl
Cyrl
Нина захьӡыз Ерих Шульц иҭырџьман лакәын.
Huggingface
Cyrl
Cyrl
Урҭ рыда ианықәха, иара абжьыҵәҟьа анырцәыӡ, итәымхеит, аҽаӡәы иажәақәазаргьы ауа иҟалеит.
Huggingface
Cyrl
Cyrl
Ақыҭа ахы ақыҭа аиҳабы ус ауп ишизырҳәаз Ниҳаҭ Пасаниа инапхгарала уаха-саха ҳәа аусура иаҿын.
Huggingface
Cyrl
Cyrl
Урҭқәа, инықәырԥшны акәзаргьы, реилкаара азыҳәан иаҭахын иҵегьы аамҭа.
Huggingface
Cyrl
Cyrl
Ԥсыс исхалеит абна иаҵәа аԥсы, ажәҩан иаҵәа сымахуп бласы.
Huggingface
Cyrl
Cyrl
Ҳара ҳашьҭахь Самсун акәшамыкәша агаҿа ианхалан иҟаз амҳаџьыр рыгәҭа, уаазлацәажәашаз даҽа хҭыск ҟалеит.
Huggingface
Cyrl
Cyrl
Еиҳарак сатирикк иаҳасабала аԥхьаҩцәа ирдырыз апоет, иҟазара иазҳацыԥхьаӡа ипоезиа аҳәаақәа рыҽдырҭбаауан, иҵаулахон, уи инапы иҵихит акымкәаиҩбамкәа ауаажәларратә ҵакы зныԥшыз апатриоттә, алирикатә, ауаҩытәыҩса ихәыцрақәа рдунеи ҭбааҭыцә шьахәла изныԥшыз ажәеинраалақәа.
Huggingface
Cyrl
Cyrl
Ҽык азыбжак ықәланы ицоит, азыбжак гылоуп.
Huggingface
Cyrl
Cyrl
Даахынҳәрашәа сгәы иснаҭоит, ссирми, зны Мысраҟа ирҭихьаз Есыф.
Huggingface
Cyrl
Cyrl
Уа ирылацәажәон, иаҳҳәап, Аԥсны алахьынҵа, ажәлар ԥхьаҟатәи рԥеиԥш, рабиԥара ҿарацәа рааӡара амҩаԥысшьа, рынхамҩа ԥхьаҟатәи аҿиашьа, ианаҭаху рыԥсадгьыл шырыхьчаша, рқьабз бзиақәа иреиҷаҳаны рыхьчара, рҳаблақәа ирыгу-ирыбзоу рыҟаҵара уҳәа аԥсҭазаараҿы хадара злоу азҵаарақәа зегьы.
Huggingface
Cyrl
Cyrl
Иара убри ашьха узаиааиргьы, еиҭа аҽак цәырҵхуеит.
Huggingface
Cyrl
Cyrl
Ажәакала, ус иҟамларцаз абри аус Котик Кәыҵниа инапы ианырҵеит.
Huggingface
Cyrl
Cyrl
Уи аамҭазы еибарбылгьо зҿаазхаз асыԥса-ӡхыҽҽа дуӡӡа нарыжәлахуеит
Huggingface
Cyrl
Cyrl
Ахшыҩрҵареи аетикеи синонимқәак раҳасаб ала лассы-лассы ахархәара рымоуп, аха ахшыҩрҵара еиҳарак адунеихәаԥшышьа ауп иаанаго, урҭ шьаҭас ирымоуп апрактика, мамзаргьы арҵара, ауаҩы еиуеиԥшым аҭагылазаашьақәа рҟны, ауаажәларра рҟны ихымҩаԥгашьа адырра, убри аан аетика апринципқәа рсистема иаҵанакуеит, афилософиеи уи атео...
Wikipedia
Cyrl
Cyrl
Абарҭқәа ирыхҟьаны ҳажәлари ҳинтеллигенциеи еиҟәыҭхоуп, аинтеллигенциа рхаҭа зеидымгыло, акы рҳәарц рҭахызаргьы ирзымҳәо иҟаҵаны ирымоуп.
Huggingface
Cyrl
Cyrl
Атәым бызшәақәа дрызҟазоуп, тәыми ҩнатәи еихҭниҵоит, иан дикәыхшоуп, Назҳара!
Huggingface
Cyrl
Cyrl
Алдыз ида егьырҭ лашьцәа аҵарақәа рахь иҟоуп, аха иара уаҳа уаҩ димам ҳәа зҳәада, сара сыҟами урҭ рцымхәрас, мамзаргьы егьырҭ Блабаа нҵәама?
Huggingface
Cyrl
Cyrl
Аа, абар, арахьгьы иааит ашьхақәа ирхыҵны
Huggingface
Cyrl
Cyrl
Џьара аҭшәараҿ ҵис ааԥшыхуеит, ҩаԥхьа бжьык анаҳа иԥшыхәуеит.
Huggingface
Cyrl
Cyrl
Аԥсыӡ еиԥш, дҩалԥарц даҿыхын уажәы-уажә агәра игомызт ихыҵәарц егьшагмыз.
Huggingface
Cyrl
Cyrl
Аӷьӷьа-гәгәа рыхга аихатә гәашәқәа раартра иаҿын
Huggingface
Cyrl
Cyrl
Византиа аимператор Леон Исаври ахан-иԥа Барџьиль Барџьигиусҭани хаҭала еибадыруамызт, аха ҵыхәаԥҵәарада ацҳаражәҳәаҩцәа аханатәгьы ирыбжьан.
Huggingface
Cyrl
Cyrl
Амш ахәлара иаҿуп, еилашәшәуа, сгәы снархьуеит асынтәи сахьыԥшуа!
Huggingface
Cyrl
Cyrl
Ашәҟәҩыра культура ду зырҿиахьаз, европаа ирываҟәалоз аинтеллигенциа змаз аурыс жәлар дуӡӡеи, ашәҟәҩыреи аҵарадырреи змамыз, аха ампыҵахалаҩцәа рҽыԥсахрақәеи реиҿыхарақәеи ирӡрыжәхьаз аԥсуа жәлари.
Huggingface
Cyrl
Cyrl
Абри шәара акы шәацәымшәо шәыҟоуп, адунеиаҿ ишәиааиуа мчыс иҟоузеи?
Huggingface
Cyrl
Cyrl
Аха сзымтәеит усгьы, сгәы ҭынчым, гәаҟра сыгым, аа, иахьеи уахеи.
Huggingface
Cyrl
Cyrl
Украина акаршәрақәа ирықәст еибашьрала, шьамхыла Карпат ашьхақәа ирхыст.
Huggingface
Cyrl
Cyrl
Аԥсны сыҟанаҵ, аԥсуа театр аҟны иаақәдыргылоз аспеқтальқәа рыпрограммақәа рызегьы еизызгеит.
Huggingface
Cyrl
Cyrl
Иумдыруеи, ҳаҩн ду ааргыланы, ихыбны, ашәқәа, аԥенџьырқәа ҿаҳҵахьан, ҳара ҳаҩналаанӡа иҳақәлеит ҳашьцәа.
Huggingface
Cyrl
Cyrl
Уаҳаид дназхәыцит уажәы абри рҳаблаҿы еицәыхара-еицәыхараны нырцә-аарцә игылоу аҩны кьоу-шәоуқәа, еиҳа-еиҳа изцыло ӡхыҵрак еиԥш, имҩасуа абри аҵх шьшьылаҳа дуӡӡа ишалагылоу
Huggingface
Cyrl
Cyrl
Ацәлаа ақәцәқәа еиннаҟьеит, абынҽа атәыҩақәа снарбеит.
Huggingface
Cyrl
Cyrl
Хәымзтәи сыԥсшьарамшқәа раан Ҟарачы-Черкесск имҩаԥысит аԥсуа литературеи аҟазареи рымшқәа.
Huggingface
Cyrl
Cyrl
Иҟоу збап ҳәа игәиҽанҵаны уахь дишьҭаланы дышнеиуаз, егьи дынкылатәан, иааиуаз диеихсит.
Huggingface
Cyrl
Cyrl
Ибла хәыҷқәа амаахыр, иҭархаха днауҿаԥшыр, урҭ иуарҳәоит игәы иҭоу, дшылахҿыху, дышразӡоу.
Huggingface
Cyrl
Cyrl
Изухьоу ҟәыншьа, џьоук сыхьӡ хҭаркит омашәа.
Huggingface
Cyrl
Cyrl
Абриаҟара згәалаҟара шьҭыҵхьаз, амра ҭашәо, иҭашәо, хәыҷы-хәыҷы ишаалашьцо еиԥш, сгәы хәыҷы-хәыҷла илеихәдхашәан, гәыԥшаара-гәхьаагара мшынк икәал-кәало инхылеит.
Huggingface
Cyrl
Cyrl
Анрас иҟоу ааӡароуп, сан ҳәа збасҳәогь убри азоуп.
Huggingface
Cyrl
Cyrl
Уаҟа сахьгылаз, сахьгәырӷьоз, сахьгәаҟуаз, уаҟа суаҩхеит сара нас, исызҳаит.
Huggingface
Cyrl
Cyrl
Шықәсык-ҩышықәса рышьҭахь урҭ зегьы еидкыланы џьарак еизызган, искьыԥхьит.
Huggingface
Cyrl
Cyrl
Ихы дазынхан, уи дгылан ихала, ихьааха акы игәаҵа иҭан иҭахәхәа.
Huggingface
Cyrl
Cyrl
Ажәҩанахь ихы ҩышьҭхны днаԥшызар, уажәраанӡа зҽыҳаракны иҟаз аԥсҭҳәақәа, аԥсы анышә данарҭо, акәыба ахҩа нахаҵаны, аҵәымӷ анаадырхо, аҩныҵҟа иҭыҩҩуа абжьы хәаҽ шго еиԥш, амацәыс еиҟәыжәжәо, адыд рыладыдуа, Жәҩани-дгьыли ҳара иаҳтәуп, уара уаҩ хәыҷы аамҭала адунеи иқәу, ҳашәшьыра уалаҳарӡып ҳәа рҳәозшәа, аԥҭа еиқәарақәа...
Huggingface
Cyrl
Cyrl
Ирымаз ахәыҷы рышәҵаны дырҩегьых рҽааибырҭан, абар, уажә рхәыҷқәеи дареи амҩа иахьықәу.
Huggingface
Cyrl
Cyrl
Ани аӡӷаб рыцҳа лаб ус иалҳәеит
Huggingface
Cyrl
Cyrl
Иҟоума алшара аԥсуа ԥхьаҩ зда дхәарҭам асахьаркыратә шәҟәы аԥыхьашәара далагәырӷьартә еиԥш аҟаҵара?
Huggingface
Cyrl
Cyrl
Аранӡа дааганы дҳауааит, нас иаҳҳәаша ҳара иаабап.
Huggingface
Cyrl
Cyrl
Абас дхәыцуан, дхәыцуан Асида уаха, дахьцалак.
Huggingface
Cyrl
Cyrl
Еилыргашьас, еивыгашьас, еилыԥшаашьас ирымоузеи сахьаркырала иӷәӷәои иԥсыҽуи ажеинраалақәа?
Huggingface
Cyrl
Cyrl
Ҳдоуҳатә культура аҿиараҿы длашарбаганы ахааназгьы дшаанхо, аамҭақәа реикәшарақәа иара ишиԥырхагамхо.
Huggingface
Cyrl
Cyrl
Иаархәарц ирҭаху адахҭаҿы ианырымбалак, издыруада, ашьҭаҵарҭаҿ имазар ҳәа ианиҳәалак, Самсон дааԥхьаны
Huggingface
Cyrl
Cyrl
Уара ԥсыс душьоит, аха уи дыԥсӡам Ҭарашь, ҳара дҳалаԥхьаӡоуп аӡәы ҳәа.
Huggingface
Cyrl
Cyrl
Сҩымҭақәа игәарымҭацт, ирхымцәажәацт ҳәа сызҳәом, уи аганахьала маҷк игәыгәҭаханы ишыҟоугьы.
Huggingface
Cyrl
Cyrl
Ааи, уи аибашьра сара сабгьы акырынтә иҳәоны исаҳахьан, – иҳәан Бабыз, иблақәа Џьармаҭ инаидырхаланы иажәа наимаидан, излацәажәоз днацхрааит.
Huggingface
Cyrl
Cyrl
Ус сшыҟазгьы, уажәы-уажәы алашьцара сахьаларшәыз сыблақәа нцәыҵырԥшынгьы аҭагылазаашьа гәасҭон.
Huggingface
Cyrl
Cyrl
Сара сцареи сымцареи шәара иабашәԥырхагоу, иагьабашәыхәо?!
Huggingface
Cyrl
Cyrl
Кобахьиа снаидтәалан, иасҳәеит амца сыцразҵаз аус.
Huggingface
Cyrl
Cyrl
Уиадагьы, адунеи зегьы аҟынгьы ақыҭақәа рҿоуп ахшара рааӡара тенденцианы иахьыҟоу.
Huggingface
Cyrl
Cyrl
Хәылбыҽханӡа узаагылозар, уаанӡа ачагьы шԥамӡри, акаҳуагьы ҳаршып, сгәыла Меҳмеҭ аҭаҳмадагьы сааиԥхьап.
Huggingface
Cyrl
Cyrl
Убри азы акәын уи абасҟак аҭынчра, аҿымҭра, иг-ибза, ииҭаху амырӡара ҟазшьас изимазгьы.
Huggingface
Cyrl
Cyrl
Аха гәалас оҩы иҟаиҵатәы иҟоу убри убырҭ ажурналқәа аҩбагьы макьа кьыԥхь раарханы иҟаӡам, напыла ҩыроуп
Huggingface
Cyrl
Cyrl
Ауаа акалақәашәа ишами, иухарам, узлаҟам уацыҵҟьо уалагар, уи удызкылаз рхы иануҟьарц уашьҭалар, абри абасҟак дыҵнарҟьазар, хымԥада, изырҳәаз акы далаҟамзар ауӡом ҳәа дара ргәы иааҭаркыз аҟны рҽааныркылоит, уара уцаны ухы арагәаԥшьгьы ианҟьала уҭахызар.
Huggingface
Cyrl
Cyrl
Иумҭар акәын ипрауақәа, – сҳәеит урҭ анаанаскьа.
Huggingface
Cyrl
Cyrl
Аԥсырҭ ихахәда икәаҽ, илахь еизыҵәан, узиҿамԥшуа деишәара-еиҵараха, избжак аамхны амшын инарҭазшәа акәын дышныҟәоз.
Huggingface
Cyrl
Cyrl
Сара зны-зынла абри ҳадгьыл сақәлоу џьысшьоит.
Huggingface
Cyrl
Cyrl
Иубац, узҿаԥшыц ашьхақәа ракәхоит есҽны узҿаԥшуа, иҟац шәакәхоит аҭыԥаҿ есуаха иааидтәалауа.
Huggingface
Cyrl
Cyrl
Аҩыза уирҟьало, агәыла урҩашьо, данаагыла аҭынха днаскьаны, уаҵә ианаашогь ҽеирак ҟалашам, аамҭа ҽеим, иҽеиҵәҟьам, ҵаны.
Huggingface
Cyrl
Cyrl
Зылахь аиқәаҵәа аныз сара сакәхеит, Адгәыр, уана!
Huggingface
Cyrl
Cyrl
Иаахтыҵәҟьаны иҳәамзаргьы, ажәеинраала иқәнаргылоит амилаҭтә ҳәаақәа ирхыҳәҳәо, ауаатәыҩса ирзеиԥшу ахшыҩҵак ду
Huggingface
Cyrl
Cyrl
Уажәшьҭа сара соуп аус злоу, уаҩы ишьапы ахьакуа дгьылк аҿы дыҟазар, сышԥазымнеири лара лҟынӡа?
Huggingface
Cyrl
Cyrl
Лаврент игәеиҭеит уи арахь инапгьы шиҟьоз.
Huggingface
Cyrl
Cyrl
Иҭҳажьып ҳәа сеиҳәан редақторк, иасҳәаз ажәак ауп
Huggingface
Cyrl
Cyrl
Аха ламысла ицқьамыз ачеиџьыка иҽа ирҟьышьуамызт.
Huggingface
Cyrl
Cyrl
Азал аҿгьы, апрезидиум аҿгьы абарҭ еиқәысԥхьаӡаз аԥсуаа ҳнаҩсан, егьырҭ зегьы гырцәан, қырҭцәан.
Huggingface
Cyrl
Cyrl
End of preview. Expand in Data Studio

Glot500 Corpus

A dataset of natural language data collected by putting together more than 150 existing mono-lingual and multilingual datasets together and crawling known multilingual websites. The focus of this dataset is on 500 extremely low-resource languages. (More Languages still to be uploaded here)

This dataset is used to train the Glot500 model.

This dataset has the identical data format as the Taxi1500 Raw Data dataset, so that both datasets can be used in parallel seamlessly.

Parts of the original Glot500 dataset cannot be published publicly. Please fill out [thi form]{https://docs.google.com/forms/d/1FHto_4wWYvEF3lz7DDo3P8wQqfS3WhpYfAu5vM95-qU/viewform?edit_requested=true} to get access to these parts.

Usage

Replace nbl_Latn with your specific language.

from datasets import load_dataset
dataset = load_dataset('cis-lmu/Glot500', 'nbl_Latn', split='train')
print(dataset['train'][0]) # First row of nbl_Latn

License

We don't own any part of the data. The original source of each sentence of the data is indicated in dataset field.

To see the copyright license of the original datasets visit here.

We license the actual packaging, the metadata and the annotations of these data under the cc0-1.0.

If you are a website/dataset owner and do not want your data to be included in this corpra, please send us an email at glot500@cis.lmu.de.

Ethical Considerations

1. Biases: The text corpus may reflect the perspectives, opinions, or demographics of its sources or creators. It is important for users to critically evaluate the text in context especially for news sources and social medias.

2. Representativeness: While we have aimed for diversity and inclusivity, the text corpus may not fully represent all native speakers. Users should be mindful of any potential underrepresentation.

3. Ethics: We acknowledge that the collection and use of text data can have ethical implications. We have strived to handle the data responsibly, but we encourage users to consider the broader ethical implications of their own research or applications.

Citation

If you use any part of this code and data in your research, please cite it using the following BibTeX entry.

@inproceedings{imanigooghari-etal-2023-glot500,
 title = "Glot500: Scaling Multilingual Corpora and Language Models to 500 Languages",
 author = {ImaniGooghari, Ayyoob and
 Lin, Peiqin and
 Kargaran, Amir Hossein and
 Severini, Silvia and
 Jalili Sabet, Masoud and
 Kassner, Nora and
 Ma, Chunlan and
 Schmid, Helmut and
 Martins, Andr{\'e} and
 Yvon, Fran{\c{c}}ois and
 Sch{\"u}tze, Hinrich},
 editor = "Rogers, Anna and
 Boyd-Graber, Jordan and
 Okazaki, Naoaki",
 booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
 month = jul,
 year = "2023",
 address = "Toronto, Canada",
 publisher = "Association for Computational Linguistics",
 url = "https://aclanthology.org/2023.acl-long.61",
 doi = "10.18653/v1/2023.acl-long.61",
 pages = "1082--1117",
 abstract = "The NLP community has mainly focused on scaling Large Language Models (LLMs) vertically, i.e., making them better for about 100 languages. We instead scale LLMs horizontally: we create, through continued pretraining, Glot500-m, an LLM that covers 511 predominantly low-resource languages. An important part of this effort is to collect and clean Glot500-c, a corpus that covers these 511 languages and allows us to train Glot500-m. We evaluate Glot500-m on five diverse tasks across these languages. We observe large improvements for both high-resource and low-resource languages compared to an XLM-R baseline. Our analysis shows that no single factor explains the quality of multilingual LLM representations. Rather, a combination of factors determines quality including corpus size, script, {``}help{''} from related languages and the total capacity of the model. Our work addresses an important goal of NLP research: we should notlimit NLP to a small fraction of the world{'}s languages and instead strive to support as many languages as possible to bring the benefits of NLP technology to all languages and cultures. Code, data and models are available at \url{https://github.com/cisnlp/Glot500}.",
}
Downloads last month
15,710

Models trained or fine-tuned on cis-lmu/Glot500

Spaces using cis-lmu/Glot500 2

Collection including cis-lmu/Glot500

Paper for cis-lmu/Glot500