MeCab

O MeCab é uma biblioteca de segmentação de texto de código aberto para uso com texto escrito no idioma japonês originalmente desenvolvido pelo Instituto Nara de Ciência e Tecnologia e atualmente mantido por Taku Kudou (工藤拓) como parte de seu trabalho no projeto Google Japanese Input^[1].^[2] O nome deriva da comida favorita do desenvolvedor, mekabu (和布蕪), um prato japonês feito de folhas de wakame.^[3]

O software foi originalmente baseado no ChaSen e foi desenvolvido com o nome ChaSenTNG, mas depois foi desenvolvido independentemente do ChaSen e reescrito do zero. A precisão da análise do MeCab é comparável ao ChaSen e sua velocidade de análise é de 3 a 4 vezes mais rápida, em média. Em 2007, o Google usou o MeCab para gerar dados em n-gram para um grande corpus de texto em japonês^[4], publicado em seu blog do Google Japan.^[5] O MeCab também é usado para entrada em japonês no MacOS X 10.5 e 10.6 e no iOS desde a versão 2.1.^[6]^[7]

Exemplo

Entrada:

ウィキペディア（Ｗｉｋｉｐｅｄｉａ）は誰でも編集できるフリー百科事典です

Resulta em:

ウィキペディア	名詞,一般,*,*,*,*,*
（	記号,括弧開,*,*,*,*,（,（,（
Ｗｉｋｉｐｅｄｉａ	名詞,固有名詞,組織,*,*,*,*
）	記号,括弧閉,*,*,*,*,）,）,）
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
誰	名詞,代名詞,一般,*,*,*,誰,ダレ,ダレ
でも	助詞,副助詞,*,*,*,*,でも,デモ,デモ
編集	名詞,サ変接続,*,*,*,*,編集,ヘンシュウ,ヘンシュー
できる	動詞,自立,*,*,一段,基本形,できる,デキル,デキル
フリー	名詞,一般,*,*,*,*,フリー,フリー,フリー
百科	名詞,一般,*,*,*,*,百科,ヒャッカ,ヒャッカ
事典	名詞,一般,*,*,*,*,事典,ジテン,ジテン
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS

Além de segmentar o texto, o MeCab também lista a parte do discurso da palavra e, se aplicável e no dicionário, a sua pronúncia. No exemplo acima, o verbo できる (dekiru, "ser capaz de") é classificado como ichidan (一段) verb (動詞) no tempo infinitivo (基本形). A palavra でも (demo) é identificada como um partícula adverbial (副助詞).Como nem todas as colunas se aplicam a todas as palavras, quando uma coluna não se aplica a uma palavra, um asterisco é usado; isso possibilita formatar as informações após a palavra e a tecla tabuladora como a comma-separated values.

O MeCab também suporta vários formatos de saída; um dos quais, chasen, produz tab-separated values em um formato que os programas escritos para o ChaSen possam usar. Outro formato, yomi (do 読む yomu, ler), produz a pronúncia do texto de entrada como katakana,^[8] como mostrado abaixo.

ウィキペディア（Ｗｉｋｉｐｅｄｉａ）ハダレデモヘンシュウデキルフリーヒャッカジテンデス

Ver também

DyNet
ChaSen

Referências

↑ «Google 日本語入力の開発版をアップデートしました。（1.13.1650.10x）». Google Developers Japan (em japonês). Consultado em 16 de janeiro de 2020
↑ «「ググる」の精度を高めるために必要なもの－＠IT自分戦略研究所». jibun.atmarkit.co.jp. Consultado em 16 de janeiro de 2020
↑ «思いどおりの日本語入力 - Google 日本語入力». Google Japan Blog (em japonês). Consultado em 16 de janeiro de 2020
↑ Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). «Syntactic clustering of the web». Computer Networks and ISDN Systems. 29 (8): 1157–1166. doi:10.1016/s0169-7552(97)00031-7
↑ «大規模日本語 n-gram データの公開». Google Japan Blog (em japonês). Consultado em 16 de janeiro de 2020
↑ kazama. «大規模テキスト処理を支える形態素解析技術（工藤拓氏・Google）». Cafe Babe (em japonês). Consultado em 16 de janeiro de 2020
↑ Zubora (15 de setembro de 2008). «iPhoneの仮名漢字変換はMeCabを利用». yebo blog. Consultado em 16 de janeiro de 2020
↑ Kudou, Taku. «MeCab: Yet Another Part-of-Speech and Morphological Analyzer». taku910.github.io (em japonês). Consultado em 23 de janeiro de 2018

Ligações externas

Página inicial do MeCab

Este artigo sobre linguística ou um linguista é um esboço. Você pode ajudar a Wikipédia expandindo-o.

[1] «Google 日本語入力の開発版をアップデートしました。（1.13.1650.10x）». Google Developers Japan (em japonês). Consultado em 16 de janeiro de 2020

[2] «「ググる」の精度を高めるために必要なもの－＠IT自分戦略研究所». jibun.atmarkit.co.jp. Consultado em 16 de janeiro de 2020

[3] «思いどおりの日本語入力 - Google 日本語入力». Google Japan Blog (em japonês). Consultado em 16 de janeiro de 2020

[4] Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). «Syntactic clustering of the web». Computer Networks and ISDN Systems. 29 (8): 1157–1166. doi:10.1016/s0169-7552(97)00031-7

[5] «大規模日本語 n-gram データの公開». Google Japan Blog (em japonês). Consultado em 16 de janeiro de 2020

[6] zama. «大規模テキスト処理を支える形態素解析技術（工藤拓氏・Google）». Cafe Babe (em japonês). Consultado em 16 de janeiro de 2020

[7] Zubora (15 de setembro de 2008). «iPhoneの仮名漢字変換はMeCabを利用». yebo blog. Consultado em 16 de janeiro de 2020

[8] Kudou, Taku. «MeCab: Yet Another Part-of-Speech and Morphological Analyzer». taku910.github.io (em japonês). Consultado em 23 de janeiro de 2018

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]