MeCab
O MeCab é uma biblioteca de segmentação de texto de código aberto para uso com texto escrito no idioma japonês originalmente desenvolvido pelo Instituto Nara de Ciência e Tecnologia e atualmente mantido por Taku Kudou (工藤拓) como parte de seu trabalho no projeto Google Japanese Input[1].[2] O nome deriva da comida favorita do desenvolvedor, mekabu (和布蕪), um prato japonês feito de folhas de wakame.[3]
O software foi originalmente baseado no ChaSen e foi desenvolvido com o nome ChaSenTNG, mas depois foi desenvolvido independentemente do ChaSen e reescrito do zero. A precisão da análise do MeCab é comparável ao ChaSen e sua velocidade de análise é de 3 a 4 vezes mais rápida, em média. Em 2007, o Google usou o MeCab para gerar dados em n-gram para um grande corpus de texto em japonês[4], publicado em seu blog do Google Japan.[5] O MeCab também é usado para entrada em japonês no MacOS X 10.5 e 10.6 e no iOS desde a versão 2.1.[6][7]
Exemplo
editarEntrada:
ウィキペディア(Wikipedia)は誰でも編集できるフリー百科事典です
Resulta em:
ウィキペディア 名詞,一般,*,*,*,*,* ( 記号,括弧開,*,*,*,*,(,(,( Wikipedia 名詞,固有名詞,組織,*,*,*,* ) 記号,括弧閉,*,*,*,*,),),) は 助詞,係助詞,*,*,*,*,は,ハ,ワ 誰 名詞,代名詞,一般,*,*,*,誰,ダレ,ダレ でも 助詞,副助詞,*,*,*,*,でも,デモ,デモ 編集 名詞,サ変接続,*,*,*,*,編集,ヘンシュウ,ヘンシュー できる 動詞,自立,*,*,一段,基本形,できる,デキル,デキル フリー 名詞,一般,*,*,*,*,フリー,フリー,フリー 百科 名詞,一般,*,*,*,*,百科,ヒャッカ,ヒャッカ 事典 名詞,一般,*,*,*,*,事典,ジテン,ジテン です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス EOS
Além de segmentar o texto, o MeCab também lista a parte do discurso da palavra e, se aplicável e no dicionário, a sua pronúncia. No exemplo acima, o verbo できる (dekiru, "ser capaz de") é classificado como ichidan (一段) verb (動詞) no tempo infinitivo (基本形). A palavra でも (demo) é identificada como um partícula adverbial (副助詞).Como nem todas as colunas se aplicam a todas as palavras, quando uma coluna não se aplica a uma palavra, um asterisco é usado; isso possibilita formatar as informações após a palavra e a tecla tabuladora como a comma-separated values.
O MeCab também suporta vários formatos de saída; um dos quais, chasen, produz tab-separated values em um formato que os programas escritos para o ChaSen possam usar. Outro formato, yomi (do 読む yomu, ler), produz a pronúncia do texto de entrada como katakana,[8] como mostrado abaixo.
ウィキペディア(Wikipedia)ハダレデモヘンシュウデキルフリーヒャッカジテンデス
Ver também
editarReferências
- ↑ «Google 日本語入力の開発版をアップデートしました。(1.13.1650.10x)». Google Developers Japan (em japonês). Consultado em 16 de janeiro de 2020
- ↑ «「ググる」の精度を高めるために必要なもの - @IT自分戦略研究所». jibun.atmarkit.co.jp. Consultado em 16 de janeiro de 2020
- ↑ «思いどおりの日本語入力 - Google 日本語入力». Google Japan Blog (em japonês). Consultado em 16 de janeiro de 2020
- ↑ Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). «Syntactic clustering of the web». Computer Networks and ISDN Systems. 29 (8): 1157–1166. doi:10.1016/s0169-7552(97)00031-7
- ↑ «大規模日本語 n-gram データの公開». Google Japan Blog (em japonês). Consultado em 16 de janeiro de 2020
- ↑ kazama. «大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google)». Cafe Babe (em japonês). Consultado em 16 de janeiro de 2020
- ↑ Zubora (15 de setembro de 2008). «iPhoneの仮名漢字変換はMeCabを利用». yebo blog. Consultado em 16 de janeiro de 2020
- ↑ Kudou, Taku. «MeCab: Yet Another Part-of-Speech and Morphological Analyzer». taku910.github.io (em japonês). Consultado em 23 de janeiro de 2018