text stringlengths 23 4.28k | dataset stringclasses 5
values | script stringclasses 1
value | lang_script stringclasses 1
value |
|---|---|---|---|
Инапқәа игәыҵаԥса, ажәҩан даҵаԥшуа, дхаҳәыршәыраха абарҵаҿ дгылан. | Huggingface | Cyrl | Cyrl |
Убри азын аӡәгьы иҟнытә исмаҳацызт агәырҩа имаз. | Huggingface | Cyrl | Cyrl |
Ауаатәыҩса рҭоурых азы ари икьаҿу аамҭа ҟәҵәоуп. | Huggingface | Cyrl | Cyrl |
Ажәҩан еилгоуп саркьа ҵәцаран, анаҟә хымлац уажә ааигәа, зегь зырҽеиуа бзиабароуп иахьа абраҟа са саазга. | Huggingface | Cyrl | Cyrl |
Аамҭа цәгьоуп, сара иабасҭаху сиубилеи азгәаҭо?! | Huggingface | Cyrl | Cyrl |
Хәыҷы зга, ду зга зегь акакәмызшәа. | Huggingface | Cyrl | Cyrl |
Абас еиԥш иҳәоу ажәа ҵаулақәа рышьҭахь, ҳаргьы иаразнак ашәҟәыҩҩы ҳнаишьҭагыланы, ҳҭоурых-мҩаду ҳанысырц ааҳҭаххоит, аха агәаӷьра ҳзымариамкәа, зназы акыр ҳаалакҩакуеит. | Huggingface | Cyrl | Cyrl |
Леуарсан Радмири Назбеии ракәын аиҳараӡак ихшыҩ ззишьҭуаз, аԥсы даниарго, апавилион аҿы даақәыргыланы, митинг кьаҿк еиҿкаазар, имцхәхома? | Huggingface | Cyrl | Cyrl |
Амала, рыцҳарас иҟалаз, егьырҭ ажәларқәа рҿы аасҭа, ҳара ҳҿы акырӡа ихьшәаноуп ашәҟәы анҵара, аӡыргара ишалагаз. | Huggingface | Cyrl | Cyrl |
Инықәԥала-аақәԥало, иааҳәны ашьапқәа нықәкшо, иара усгьы згәы еибафо ала ахьырԥшны, иахьеицәаӡоу ҭыԥк ахь ихалоит. | Huggingface | Cyrl | Cyrl |
Ибыхәаԥшуа игылашт ишҳазӡа, Иахьыбымбо бцаргьы бҭаххашт. | Huggingface | Cyrl | Cyrl |
Сгә иснаҭоит, адунеи зегь, амца ацраланы, иаауеит ибылуа | Huggingface | Cyrl | Cyrl |
Абарҭ апоетцәа шԥаҟоу, – иҳәеит аредактор, иааҟәымҵӡакәа зыӡбахә рымоу ажәҩани, аеҵәақәеи, аԥсҭҳәақәеи, ақәеи, аӡаӡеи, амзеи роуп. | Huggingface | Cyrl | Cyrl |
Ее, гиди, сабиц, ахырзаман ҳақәшәаран ҳашԥаҟаз?! | Huggingface | Cyrl | Cyrl |
Аха заа схахәы кыдҵуеит, ашәҟәы бӷьыцқәа ирыбжьаԥсоит, сара сышьхақәа кыр нырҵуеит, урҭ сышрацлабуа сааԥсоит | Huggingface | Cyrl | Cyrl |
Бымбара сара даара саргәаҟит, убри хьаас исымоуп уажәы цәгьаӡа. | Huggingface | Cyrl | Cyrl |
Сара убригьы сылымшеит исылшартәгьы ҭагылазаашьа ыҟамызт, дад, аусқәа убранӡа инеихьан. | Huggingface | Cyrl | Cyrl |
Аибашьра еилашуан, аҭынч ԥсҭазаара аангыланы иҟан, сара ссааҭ шаангылаз еиԥш. | Huggingface | Cyrl | Cyrl |
Ҿымҭӡакәа дныҩнакәырны, дымнаӡац иҳәоны, иҟәашшӡа илыманы даакылсит. | Huggingface | Cyrl | Cyrl |
Аха бжьыӡа иҟаз атәыҩа змаз ацә ауиԥыхьашәауаз. | Huggingface | Cyrl | Cyrl |
Аԥошьҭа сныҩнашылан, Аҟәа ҿасҵеит, аха сгәы аҭыԥ иҭагыломызт, исыршәар ҳәа сшәаны. | Huggingface | Cyrl | Cyrl |
Ҳара ҳгазеҭ ажәлар рымаҵ ауеит, ажәлар ааӡоит, ажәлар амҩа иқәнаҵоит. | Huggingface | Cyrl | Cyrl |
Аҳарданыжь уаҟа иҿалоз, Амахәқәа ирхьыхәхәо, Уатәи адгьыл ишԥанаалоз, Ажьымжәа уҿаԥхо! | Huggingface | Cyrl | Cyrl |
Уажәраанӡа сгәазымҭоз зегьы сџьашьаны иаасыхәаԥшит, сара али-ԥси рыбжьара аимператор Алықьсандр дуӡӡа иахь сныҩнашылеит. | Huggingface | Cyrl | Cyrl |
Иузыӡырҩуа урыԥшны уажәа ахы кы ҳәа ауп ишырҳәо. | Huggingface | Cyrl | Cyrl |
Аԥсра ихықәгылоу ауаҩы еиҭах аԥсҭазаарахь, агәаҳәара ду инаҭоит ишәҭыз аҵла, уи иҿышәшәо ашәҭыцқәа ахәыҷы иахьиқәԥсо дахьихәаԥшуа. | Huggingface | Cyrl | Cyrl |
Раԥхьа иԥышәқәа, нас иҿыҵа, иҟырҟы, игәы, ихьшәашәаӡа илеихысит, уигьы азмырхакәа, амса цырцырқәа еимадмыргылоз инапсыргәыҵа ианҭәалангьы акыраамҭа иҿеиҭәон | Huggingface | Cyrl | Cyrl |
Уаҵәы ашьыжь ҳдәықәлаанӡа уи азхәыцха аамҭагьы умоуп. | Huggingface | Cyrl | Cyrl |
Нина захьӡыз Ерих Шульц иҭырџьман лакәын. | Huggingface | Cyrl | Cyrl |
Урҭ рыда ианықәха, иара абжьыҵәҟьа анырцәыӡ, итәымхеит, аҽаӡәы иажәақәазаргьы ауа иҟалеит. | Huggingface | Cyrl | Cyrl |
Ақыҭа ахы ақыҭа аиҳабы ус ауп ишизырҳәаз Ниҳаҭ Пасаниа инапхгарала уаха-саха ҳәа аусура иаҿын. | Huggingface | Cyrl | Cyrl |
Урҭқәа, инықәырԥшны акәзаргьы, реилкаара азыҳәан иаҭахын иҵегьы аамҭа. | Huggingface | Cyrl | Cyrl |
Ԥсыс исхалеит абна иаҵәа аԥсы, ажәҩан иаҵәа сымахуп бласы. | Huggingface | Cyrl | Cyrl |
Ҳара ҳашьҭахь Самсун акәшамыкәша агаҿа ианхалан иҟаз амҳаџьыр рыгәҭа, уаазлацәажәашаз даҽа хҭыск ҟалеит. | Huggingface | Cyrl | Cyrl |
Еиҳарак сатирикк иаҳасабала аԥхьаҩцәа ирдырыз апоет, иҟазара иазҳацыԥхьаӡа ипоезиа аҳәаақәа рыҽдырҭбаауан, иҵаулахон, уи инапы иҵихит акымкәаиҩбамкәа ауаажәларратә ҵакы зныԥшыз апатриоттә, алирикатә, ауаҩытәыҩса ихәыцрақәа рдунеи ҭбааҭыцә шьахәла изныԥшыз ажәеинраалақәа. | Huggingface | Cyrl | Cyrl |
Ҽык азыбжак ықәланы ицоит, азыбжак гылоуп. | Huggingface | Cyrl | Cyrl |
Даахынҳәрашәа сгәы иснаҭоит, ссирми, зны Мысраҟа ирҭихьаз Есыф. | Huggingface | Cyrl | Cyrl |
Уа ирылацәажәон, иаҳҳәап, Аԥсны алахьынҵа, ажәлар ԥхьаҟатәи рԥеиԥш, рабиԥара ҿарацәа рааӡара амҩаԥысшьа, рынхамҩа ԥхьаҟатәи аҿиашьа, ианаҭаху рыԥсадгьыл шырыхьчаша, рқьабз бзиақәа иреиҷаҳаны рыхьчара, рҳаблақәа ирыгу-ирыбзоу рыҟаҵара уҳәа аԥсҭазаараҿы хадара злоу азҵаарақәа зегьы. | Huggingface | Cyrl | Cyrl |
Иара убри ашьха узаиааиргьы, еиҭа аҽак цәырҵхуеит. | Huggingface | Cyrl | Cyrl |
Ажәакала, ус иҟамларцаз абри аус Котик Кәыҵниа инапы ианырҵеит. | Huggingface | Cyrl | Cyrl |
Уи аамҭазы еибарбылгьо зҿаазхаз асыԥса-ӡхыҽҽа дуӡӡа нарыжәлахуеит | Huggingface | Cyrl | Cyrl |
Ахшыҩрҵареи аетикеи синонимқәак раҳасаб ала лассы-лассы ахархәара рымоуп, аха ахшыҩрҵара еиҳарак адунеихәаԥшышьа ауп иаанаго, урҭ шьаҭас ирымоуп апрактика, мамзаргьы арҵара, ауаҩы еиуеиԥшым аҭагылазаашьақәа рҟны, ауаажәларра рҟны ихымҩаԥгашьа адырра, убри аан аетика апринципқәа рсистема иаҵанакуеит, афилософиеи уи атео... | Wikipedia | Cyrl | Cyrl |
Абарҭқәа ирыхҟьаны ҳажәлари ҳинтеллигенциеи еиҟәыҭхоуп, аинтеллигенциа рхаҭа зеидымгыло, акы рҳәарц рҭахызаргьы ирзымҳәо иҟаҵаны ирымоуп. | Huggingface | Cyrl | Cyrl |
Атәым бызшәақәа дрызҟазоуп, тәыми ҩнатәи еихҭниҵоит, иан дикәыхшоуп, Назҳара! | Huggingface | Cyrl | Cyrl |
Алдыз ида егьырҭ лашьцәа аҵарақәа рахь иҟоуп, аха иара уаҳа уаҩ димам ҳәа зҳәада, сара сыҟами урҭ рцымхәрас, мамзаргьы егьырҭ Блабаа нҵәама? | Huggingface | Cyrl | Cyrl |
Аа, абар, арахьгьы иааит ашьхақәа ирхыҵны | Huggingface | Cyrl | Cyrl |
Џьара аҭшәараҿ ҵис ааԥшыхуеит, ҩаԥхьа бжьык анаҳа иԥшыхәуеит. | Huggingface | Cyrl | Cyrl |
Аԥсыӡ еиԥш, дҩалԥарц даҿыхын уажәы-уажә агәра игомызт ихыҵәарц егьшагмыз. | Huggingface | Cyrl | Cyrl |
Аӷьӷьа-гәгәа рыхга аихатә гәашәқәа раартра иаҿын | Huggingface | Cyrl | Cyrl |
Византиа аимператор Леон Исаври ахан-иԥа Барџьиль Барџьигиусҭани хаҭала еибадыруамызт, аха ҵыхәаԥҵәарада ацҳаражәҳәаҩцәа аханатәгьы ирыбжьан. | Huggingface | Cyrl | Cyrl |
Амш ахәлара иаҿуп, еилашәшәуа, сгәы снархьуеит асынтәи сахьыԥшуа! | Huggingface | Cyrl | Cyrl |
Ашәҟәҩыра культура ду зырҿиахьаз, европаа ирываҟәалоз аинтеллигенциа змаз аурыс жәлар дуӡӡеи, ашәҟәҩыреи аҵарадырреи змамыз, аха ампыҵахалаҩцәа рҽыԥсахрақәеи реиҿыхарақәеи ирӡрыжәхьаз аԥсуа жәлари. | Huggingface | Cyrl | Cyrl |
Абри шәара акы шәацәымшәо шәыҟоуп, адунеиаҿ ишәиааиуа мчыс иҟоузеи? | Huggingface | Cyrl | Cyrl |
Аха сзымтәеит усгьы, сгәы ҭынчым, гәаҟра сыгым, аа, иахьеи уахеи. | Huggingface | Cyrl | Cyrl |
Украина акаршәрақәа ирықәст еибашьрала, шьамхыла Карпат ашьхақәа ирхыст. | Huggingface | Cyrl | Cyrl |
Аԥсны сыҟанаҵ, аԥсуа театр аҟны иаақәдыргылоз аспеқтальқәа рыпрограммақәа рызегьы еизызгеит. | Huggingface | Cyrl | Cyrl |
Иумдыруеи, ҳаҩн ду ааргыланы, ихыбны, ашәқәа, аԥенџьырқәа ҿаҳҵахьан, ҳара ҳаҩналаанӡа иҳақәлеит ҳашьцәа. | Huggingface | Cyrl | Cyrl |
Уаҳаид дназхәыцит уажәы абри рҳаблаҿы еицәыхара-еицәыхараны нырцә-аарцә игылоу аҩны кьоу-шәоуқәа, еиҳа-еиҳа изцыло ӡхыҵрак еиԥш, имҩасуа абри аҵх шьшьылаҳа дуӡӡа ишалагылоу | Huggingface | Cyrl | Cyrl |
Ацәлаа ақәцәқәа еиннаҟьеит, абынҽа атәыҩақәа снарбеит. | Huggingface | Cyrl | Cyrl |
Хәымзтәи сыԥсшьарамшқәа раан Ҟарачы-Черкесск имҩаԥысит аԥсуа литературеи аҟазареи рымшқәа. | Huggingface | Cyrl | Cyrl |
Иҟоу збап ҳәа игәиҽанҵаны уахь дишьҭаланы дышнеиуаз, егьи дынкылатәан, иааиуаз диеихсит. | Huggingface | Cyrl | Cyrl |
Ибла хәыҷқәа амаахыр, иҭархаха днауҿаԥшыр, урҭ иуарҳәоит игәы иҭоу, дшылахҿыху, дышразӡоу. | Huggingface | Cyrl | Cyrl |
Изухьоу ҟәыншьа, џьоук сыхьӡ хҭаркит омашәа. | Huggingface | Cyrl | Cyrl |
Абриаҟара згәалаҟара шьҭыҵхьаз, амра ҭашәо, иҭашәо, хәыҷы-хәыҷы ишаалашьцо еиԥш, сгәы хәыҷы-хәыҷла илеихәдхашәан, гәыԥшаара-гәхьаагара мшынк икәал-кәало инхылеит. | Huggingface | Cyrl | Cyrl |
Анрас иҟоу ааӡароуп, сан ҳәа збасҳәогь убри азоуп. | Huggingface | Cyrl | Cyrl |
Уаҟа сахьгылаз, сахьгәырӷьоз, сахьгәаҟуаз, уаҟа суаҩхеит сара нас, исызҳаит. | Huggingface | Cyrl | Cyrl |
Шықәсык-ҩышықәса рышьҭахь урҭ зегьы еидкыланы џьарак еизызган, искьыԥхьит. | Huggingface | Cyrl | Cyrl |
Ихы дазынхан, уи дгылан ихала, ихьааха акы игәаҵа иҭан иҭахәхәа. | Huggingface | Cyrl | Cyrl |
Ажәҩанахь ихы ҩышьҭхны днаԥшызар, уажәраанӡа зҽыҳаракны иҟаз аԥсҭҳәақәа, аԥсы анышә данарҭо, акәыба ахҩа нахаҵаны, аҵәымӷ анаадырхо, аҩныҵҟа иҭыҩҩуа абжьы хәаҽ шго еиԥш, амацәыс еиҟәыжәжәо, адыд рыладыдуа, Жәҩани-дгьыли ҳара иаҳтәуп, уара уаҩ хәыҷы аамҭала адунеи иқәу, ҳашәшьыра уалаҳарӡып ҳәа рҳәозшәа, аԥҭа еиқәарақәа... | Huggingface | Cyrl | Cyrl |
Ирымаз ахәыҷы рышәҵаны дырҩегьых рҽааибырҭан, абар, уажә рхәыҷқәеи дареи амҩа иахьықәу. | Huggingface | Cyrl | Cyrl |
Ани аӡӷаб рыцҳа лаб ус иалҳәеит | Huggingface | Cyrl | Cyrl |
Иҟоума алшара аԥсуа ԥхьаҩ зда дхәарҭам асахьаркыратә шәҟәы аԥыхьашәара далагәырӷьартә еиԥш аҟаҵара? | Huggingface | Cyrl | Cyrl |
Аранӡа дааганы дҳауааит, нас иаҳҳәаша ҳара иаабап. | Huggingface | Cyrl | Cyrl |
Абас дхәыцуан, дхәыцуан Асида уаха, дахьцалак. | Huggingface | Cyrl | Cyrl |
Еилыргашьас, еивыгашьас, еилыԥшаашьас ирымоузеи сахьаркырала иӷәӷәои иԥсыҽуи ажеинраалақәа? | Huggingface | Cyrl | Cyrl |
Ҳдоуҳатә культура аҿиараҿы длашарбаганы ахааназгьы дшаанхо, аамҭақәа реикәшарақәа иара ишиԥырхагамхо. | Huggingface | Cyrl | Cyrl |
Иаархәарц ирҭаху адахҭаҿы ианырымбалак, издыруада, ашьҭаҵарҭаҿ имазар ҳәа ианиҳәалак, Самсон дааԥхьаны | Huggingface | Cyrl | Cyrl |
Уара ԥсыс душьоит, аха уи дыԥсӡам Ҭарашь, ҳара дҳалаԥхьаӡоуп аӡәы ҳәа. | Huggingface | Cyrl | Cyrl |
Сҩымҭақәа игәарымҭацт, ирхымцәажәацт ҳәа сызҳәом, уи аганахьала маҷк игәыгәҭаханы ишыҟоугьы. | Huggingface | Cyrl | Cyrl |
Ааи, уи аибашьра сара сабгьы акырынтә иҳәоны исаҳахьан, – иҳәан Бабыз, иблақәа Џьармаҭ инаидырхаланы иажәа наимаидан, излацәажәоз днацхрааит. | Huggingface | Cyrl | Cyrl |
Ус сшыҟазгьы, уажәы-уажәы алашьцара сахьаларшәыз сыблақәа нцәыҵырԥшынгьы аҭагылазаашьа гәасҭон. | Huggingface | Cyrl | Cyrl |
Сара сцареи сымцареи шәара иабашәԥырхагоу, иагьабашәыхәо?! | Huggingface | Cyrl | Cyrl |
Кобахьиа снаидтәалан, иасҳәеит амца сыцразҵаз аус. | Huggingface | Cyrl | Cyrl |
Уиадагьы, адунеи зегьы аҟынгьы ақыҭақәа рҿоуп ахшара рааӡара тенденцианы иахьыҟоу. | Huggingface | Cyrl | Cyrl |
Хәылбыҽханӡа узаагылозар, уаанӡа ачагьы шԥамӡри, акаҳуагьы ҳаршып, сгәыла Меҳмеҭ аҭаҳмадагьы сааиԥхьап. | Huggingface | Cyrl | Cyrl |
Убри азы акәын уи абасҟак аҭынчра, аҿымҭра, иг-ибза, ииҭаху амырӡара ҟазшьас изимазгьы. | Huggingface | Cyrl | Cyrl |
Аха гәалас оҩы иҟаиҵатәы иҟоу убри убырҭ ажурналқәа аҩбагьы макьа кьыԥхь раарханы иҟаӡам, напыла ҩыроуп | Huggingface | Cyrl | Cyrl |
Ауаа акалақәашәа ишами, иухарам, узлаҟам уацыҵҟьо уалагар, уи удызкылаз рхы иануҟьарц уашьҭалар, абри абасҟак дыҵнарҟьазар, хымԥада, изырҳәаз акы далаҟамзар ауӡом ҳәа дара ргәы иааҭаркыз аҟны рҽааныркылоит, уара уцаны ухы арагәаԥшьгьы ианҟьала уҭахызар. | Huggingface | Cyrl | Cyrl |
Иумҭар акәын ипрауақәа, – сҳәеит урҭ анаанаскьа. | Huggingface | Cyrl | Cyrl |
Аԥсырҭ ихахәда икәаҽ, илахь еизыҵәан, узиҿамԥшуа деишәара-еиҵараха, избжак аамхны амшын инарҭазшәа акәын дышныҟәоз. | Huggingface | Cyrl | Cyrl |
Сара зны-зынла абри ҳадгьыл сақәлоу џьысшьоит. | Huggingface | Cyrl | Cyrl |
Иубац, узҿаԥшыц ашьхақәа ракәхоит есҽны узҿаԥшуа, иҟац шәакәхоит аҭыԥаҿ есуаха иааидтәалауа. | Huggingface | Cyrl | Cyrl |
Аҩыза уирҟьало, агәыла урҩашьо, данаагыла аҭынха днаскьаны, уаҵә ианаашогь ҽеирак ҟалашам, аамҭа ҽеим, иҽеиҵәҟьам, ҵаны. | Huggingface | Cyrl | Cyrl |
Зылахь аиқәаҵәа аныз сара сакәхеит, Адгәыр, уана! | Huggingface | Cyrl | Cyrl |
Иаахтыҵәҟьаны иҳәамзаргьы, ажәеинраала иқәнаргылоит амилаҭтә ҳәаақәа ирхыҳәҳәо, ауаатәыҩса ирзеиԥшу ахшыҩҵак ду | Huggingface | Cyrl | Cyrl |
Уажәшьҭа сара соуп аус злоу, уаҩы ишьапы ахьакуа дгьылк аҿы дыҟазар, сышԥазымнеири лара лҟынӡа? | Huggingface | Cyrl | Cyrl |
Лаврент игәеиҭеит уи арахь инапгьы шиҟьоз. | Huggingface | Cyrl | Cyrl |
Иҭҳажьып ҳәа сеиҳәан редақторк, иасҳәаз ажәак ауп | Huggingface | Cyrl | Cyrl |
Аха ламысла ицқьамыз ачеиџьыка иҽа ирҟьышьуамызт. | Huggingface | Cyrl | Cyrl |
Азал аҿгьы, апрезидиум аҿгьы абарҭ еиқәысԥхьаӡаз аԥсуаа ҳнаҩсан, егьырҭ зегьы гырцәан, қырҭцәан. | Huggingface | Cyrl | Cyrl |
Glot500 Corpus
A dataset of natural language data collected by putting together more than 150 existing mono-lingual and multilingual datasets together and crawling known multilingual websites. The focus of this dataset is on 500 extremely low-resource languages. (More Languages still to be uploaded here)
This dataset is used to train the Glot500 model.
This dataset has the identical data format as the Taxi1500 Raw Data dataset, so that both datasets can be used in parallel seamlessly.
Parts of the original Glot500 dataset cannot be published publicly. Please fill out [thi form]{https://docs.google.com/forms/d/1FHto_4wWYvEF3lz7DDo3P8wQqfS3WhpYfAu5vM95-qU/viewform?edit_requested=true} to get access to these parts.
Usage
Replace nbl_Latn with your specific language.
from datasets import load_dataset
dataset = load_dataset('cis-lmu/Glot500', 'nbl_Latn', split='train')
print(dataset['train'][0]) # First row of nbl_Latn
License
We don't own any part of the data. The original source of each sentence of the data is indicated in dataset field.
To see the copyright license of the original datasets visit here.
We license the actual packaging, the metadata and the annotations of these data under the cc0-1.0.
If you are a website/dataset owner and do not want your data to be included in this corpra, please send us an email at glot500@cis.lmu.de.
Ethical Considerations
1. Biases: The text corpus may reflect the perspectives, opinions, or demographics of its sources or creators. It is important for users to critically evaluate the text in context especially for news sources and social medias.
2. Representativeness: While we have aimed for diversity and inclusivity, the text corpus may not fully represent all native speakers. Users should be mindful of any potential underrepresentation.
3. Ethics: We acknowledge that the collection and use of text data can have ethical implications. We have strived to handle the data responsibly, but we encourage users to consider the broader ethical implications of their own research or applications.
Citation
If you use any part of this code and data in your research, please cite it using the following BibTeX entry.
@inproceedings{imanigooghari-etal-2023-glot500,
title = "Glot500: Scaling Multilingual Corpora and Language Models to 500 Languages",
author = {ImaniGooghari, Ayyoob and
Lin, Peiqin and
Kargaran, Amir Hossein and
Severini, Silvia and
Jalili Sabet, Masoud and
Kassner, Nora and
Ma, Chunlan and
Schmid, Helmut and
Martins, Andr{\'e} and
Yvon, Fran{\c{c}}ois and
Sch{\"u}tze, Hinrich},
editor = "Rogers, Anna and
Boyd-Graber, Jordan and
Okazaki, Naoaki",
booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
month = jul,
year = "2023",
address = "Toronto, Canada",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.acl-long.61",
doi = "10.18653/v1/2023.acl-long.61",
pages = "1082--1117",
abstract = "The NLP community has mainly focused on scaling Large Language Models (LLMs) vertically, i.e., making them better for about 100 languages. We instead scale LLMs horizontally: we create, through continued pretraining, Glot500-m, an LLM that covers 511 predominantly low-resource languages. An important part of this effort is to collect and clean Glot500-c, a corpus that covers these 511 languages and allows us to train Glot500-m. We evaluate Glot500-m on five diverse tasks across these languages. We observe large improvements for both high-resource and low-resource languages compared to an XLM-R baseline. Our analysis shows that no single factor explains the quality of multilingual LLM representations. Rather, a combination of factors determines quality including corpus size, script, {``}help{''} from related languages and the total capacity of the model. Our work addresses an important goal of NLP research: we should notlimit NLP to a small fraction of the world{'}s languages and instead strive to support as many languages as possible to bring the benefits of NLP technology to all languages and cultures. Code, data and models are available at \url{https://github.com/cisnlp/Glot500}.",
}
- Downloads last month
- 15,710
