HtmlToText
accueil accès au corpus guide d'utilisation documentation gloses pour affixes et mots auxiliaires marques des parties de discours notation tonale dans un texte normalisé noms des fichiers sous-corpus désambiguïsé sous-corpus non-désambiguisé sous-corpus annoté syntaxiquement corpus parallèle dictionnaires bamadaba jamuw togow yorow information projet et participants idéologie etiquetage outillage contact accueil -- le fait partie d'un macro-projet corpora mandeica qui regroupe des corpus de plusieurs langues mandé, c’est un corpus massif de textes annotés en langue bambara. cette langue du groupe mandingue, famille linguistique mandé, macro-famille niger-congo est parlée par 12 à 14 millions de locuteurs en république du mali. le corpus se compose des textes des genres différents, publiés (périodiques, belles lettres, littérature orale, manuels, guides pratiques, littérature de l’alphabétisation fonctionnelle, publications religieuses…) ou non-publiés (lettres des lecteurs des journaux; textes enregistrés et transcrits par les chercheurs…) dont les auteurs proviennent des zones dialectales différentes. cela permet de penser que le corpus, avec sa croissance, représentera toujours mieux le bambara standard dans sa diversité, tout en tenant compte des origines différentes de ses locuteurs. lors de l’ouverture au public en avril 2012, le corpus comportait des textes dont le volume avoisinait 1.100.000 mots , dont environ 28.000 dans le sous-corpus désambiguïsé. tout le corpus comporte l'annotation morphologique automatique (les marques des parties de discours, les gloses françaises et l'analyse des formes dérivées et composées), et dans le sous-corpus désambiguïsé, l'homonymie produite au cours de l'annotation morphologique automatique est éliminée manuellement. a partir du février 2018, le sous corpus non-désambiguïsé est traité par un logiciel de désambiguïsation partiel basé sur une base de données des expressions figées bambara créée par jean jacques méric, ce qui permet d'éliminer plus d'une moitié des analyses homonymiques. le volume du corpus progresse constamment et la qualité de l’étiquetage s’améliore au fur et à mesure. notre objectif est d’atteindre 7 à 10 millions de mots. en avril 2018, on a dépassé le seuil d'1 million de mots dans le sous-corpus désambiguisé qui avait été fixé au début du projet. en avril 2018, un sous-corpus annoté syntaxiquement a été publié (au moment de publication il comportait 11381 mots constituant 956 phrases) où, à part de l'analyse morphologique, la structure syntaxique des textes est présentée. l'annotation est effectuée dans le format d'universal dependencies. le sous-corpus syntaxiquement annoté est disponible pour la recherche sur la page de recherche (accès au corpus – corpus – corbama ud). au même moment, la publication d'un corpus parallèle bambara-français et français-bambara a eu lieu ; sa dimension initiale a été 99 163 mots dans la partie bambara et 116 177 mots dans la partie équivalent française. dans ce corpus sont inclus des textes existant dans les deux langues. il peut s'agit des textes originaux bambara traduits en français, ou des textes originaux français traduits en bambara ; il y a aussi des textes traduits d'une langue tierce indépendamment en bambara et en français, comme le coran. des segments (le plus souvent, des phrases) d'un texte bambara sont mis en correspondance (« synchronisés ») aux segments du texte français. le corpus parallèle est disponible pour la recherche sur la page de recherche (accès au corpus – corpus – corbamafara, pour la recherche par une forme bambara, ou accès au corpus – corpus – corfarabama, pour la recherche par une forme française). mise à jour, 13 avril 2018 le volume total du corpus a atteint : 5 220 107 mots. le sous-corpus desambiguïsé comporte : 1 075 790 mots. le corpus parallèle bambara-français comporte : 99 163 mots dans la partie bambara, ce qui correspond à 116 177 mots dans la partie française. le sous-corpus bambara annoté syntaxiquement comporte : 956 phrases et 11381 mots. le sous-corpus non-desambiguïsé comporte: 4 144 317 mots. des innovations ont été apportées au : 1) le site du corpus bambara de réréfence (avec tous ses sous-corpus) a été incorporé dans un site corpora mandeica qui chapeaute plusieurs corpus des langues mandé différentes : bambara, maninka, dan oriental (et l'incorporation des corpus des autres langues mandé est prévue). 2) un corpus parallèle bambara-français a été publié. la recherche est possible par la partie bambara et par la partie française. 3) un sous-corpus bambara annoté syntaxiquement est publié. l'annotation est faite en format de "universal dependencies". les deux nouveaux corpus sont accessibles depuis la page de recherche du moteur nosketchengine (le bouton "accès au corpus" sur la page d'accueil du cbr). pour une recherche dans le sous-corpus annoté syntaxiquement, il faut choisir l'option "corpus – corbama ud". pour une recherche dans le corpus bambara-français, il faut choisir "corpus – corbamafra" (si on veut chercher par une forme bambara) ou "corpus – corfarabama" (si on veut chercher par une forme française). des nouveaux textes ont été ajoutés au sous-corpus désambiguïsé : dumestre, gérard & touré, seydou. chroniques amoureuses. 92780 mots. périodiques : kibaru 111, mai 1981, 3785 mots kibaru 545, juin 2017, 11780 mots kibaru 546, juillet 2017, 12234 mots kibaru 547, août 2017, 11397 mots kibaru 548, sept. 2017, 11402 mots kibaru 549, oct. 2017, 11077 mots kibaru 552, janv. 2018, 11034 mots kibaru 553, fevr. 2018, 11391 mots le sous-corpus annoté syntaxiquement comporte le document suivant : görög-karady, veronika; meyer, gérard. contes bambara. mali et sénégal oriental. paris, fleuve et flamme, 1985, 174 p., 11733 mots. le corpus parallèle bambara-français comporte les documents suivant (le nombre de mots en bambara est à gauche de la barre oblique « / » et le nombre de mots en français est à droite de la barre) : bailleul ch. sagesse bambara : proverbes et sentences. bamako : editions donniya, 2005, 463 p. chapitres 1 (4780/6484 mots), 2a (4906/6816 mots), 2b (6510/9311 mots), 2c (11641/16728 mots), 2d (4974/6905 mots), 2e (14883/20634 mots), 2f (2600/3753 mots). oumar n. diarra, nsiiirinw, 2012: dununba kumata, 1491/1643 mots; juguya sara, 664/752 mots. (kouyaté, seydou badian.) sous l’orage. (une adaptation du livre). pièce de théâtre jouée en bambara par des élèves du lycée askia mohamed, 6611/6201 mots kuranɛ kɔrɔ, bayɛlɛmanen bamanankan na alihaji modibo jara bolo. (bamakɔ.) vol. 1, 2011. suran 1 (108/73 mots), 2 (16078/12114 mots). - annik thoyer (éd.). le riche et le pauvre et autres contes bamanan du mali. paris : l’harmattan, 1997. faamanjè ni faantannjè, par taïrou bambéra, pp. 11-89, 13178/10766 mots; cikèla ni bara, par baba fane, pp. 123-132, 9044/8683 mots; suruku ni kònyòmusow, par cèman sangare, pp. 92-121, 4388/4089 mots. des nouveaux textes ont été ajoutés au sous-corpus non-désambiguïsé : jarasuba, caka. koorokaara y'a ta juru sara cogo min suruku la. bamako: fayida, 1991, 16 p., 824 motsа. périodiques : kibaru 299, dec. 1996, 11432 mots kibaru 300, janv. 1997, 11044 mots kibaru 301, fevr. 1997, 11203 mots kibaru 302, mars 1997, 11109 mots kibaru 303, avril 1997, 9075 mots kibaru 305, juin 1997, 12916 mots kibaru 306, juillet 1997, 11380 mots kibaru 307, août 1997, 11097 mots kibaru 308, sept. 1997, 10158 mots kibaru 310, nov. 1997, 10143 mots kibaru 311, dec. 1997, 9658 mots kibaru 312, janv. 1998, 10165 mots kibaru 336, janv. 2000, 11148 mots kibaru 337, fevr. 2000, 7948 mots kibaru 338, mars 2000, 12658 mots kibaru 340, mai 2000, 10564 mots kibaru 341, juin 2000, 11577 mots kibaru 342, juillet 2000, 11663 mots kibaru 343, août 2000, 11088 mots kibaru 346, nov. 2000, 11452 mots kibaru 347, dec. 2000, 11737 mots kibaru 348, janv. 2001, 12580 mots kibaru 349, fevr. 2001, 11713 mots kibaru 350, mars 2001, 10608 mots kibaru 351, avr. 2001, 10830 mots kibaru 352, mai 2001, 111