5 件中 1 - 5 件を表示
Displaying posts with tag: mecab (reset)
Mecabで2020年7月以降の高速バス解析

MySQLのMecabで2020年7月以降の高速バス関連でつぶやかれているワードをピックアップしてみた

含まれている単語からノイズを除外して10000回以上つぶやかれている単語をピックアップして、その中から、再開という単語を選択して確認してみた。

NO.1ツイート


*************************** 1. row ***************************
    text: RT @kamoseaOfficial: 〈高速バスセットプラン販売再開のお知らせ〉本日より東京・千葉・君津から発着の3路線の便利な高速バスセットプランを販売再開しました。お近くのターミナルから、新幹線や飛行機からもぐっと身近に!https://t.co/0GltjR…
count(*): 71

確認方法

1) 単語を抽出
2) 選択した単語からTweetを抽出


[ec2-user@ ~]$ mysql -u root -p -e …
[さらに読む]
MySQLのMecabプラグインによる単語の解析(INNODB_FT_INDEX_TABLE)

MySQLのMECABによる最近つぶやかれている単語の解析

MySQLのMecabプラグインを利用して集計したデータを解析する過程で、INNODB_FT_INDEX_TABLEにて含まれている単語を確認し集計しようとしたが、
サーバーのスペックが低く集計中にハングしてしまったので、メモリーのINNODB_FT_INDEX_TABLEの内容をInnoDBテーブルに落として集計してみた。
もし、同様に形態素解析で解析されたワードを集計したいけれども、メモリー量が不足していて単語を集計出来ない場合の回避策として。参考までに。


root@localhost [(none)]> desc INFORMATION_SCHEMA.INNODB_FT_INDEX_TABLE;
+--------------+---------------------+------+-----+---------+-------+
| Field        | Type                | Null | Key | Default | Extra |
+--------------+---------------------+------+-----+---------+-------+
| WORD …
[さらに読む]
MySQL5.7_MeCab用辞書のカスタマイズ

最近、MySQL5.7の形態素解析エンジンのmecabに関して辞書をカスタマイズ出来るかどうか
聞かれる事が増えた為、mecabの辞書をカスタマイズしてきちんと動作確認してみました。
結論としては、問題無くカスタマイズした辞書も利用出来るようです。
但し、MySQLのマニュアルページを見る限り、MySQL Binaryから提供されているmecab辞書の利用を推奨しているようです。

【以下、抜粋】
Installing MeCab From Source (Optional)
https://dev.mysql.com/doc/refman/5.7/en/fulltext-search-mecab.html
The mecab and mecab-ipadic packages distributed with the MySQL binary are recommended but
if you want to build mecab and mecab-ipadic from source, basic installation steps are …

[さらに読む]
Creating Index with utf8mb4 on Mecab with 5.7.7RC

5.7.6 DMRではutf8mb4でのFTインデックスの作成が出来ませんでしたが、
5.7.7 RCで以下のバグ修正が行われたので、基本的なmecab設定をMySQL5.7.7RCにて確認。
今回のリリースで、5.7はRC(リリースキャンディデート)になったので、次のバージョンでGAになり色々な用途で使えるようになりそうです。

Changes in MySQL 5.7.7 (2015-04-08, Release Candidate)
InnoDB: The InnoDB MeCab full-text parser plugin now supports the eucjpms,
cp932, and utf8mb4 character sets. (Bug #20534096)

直接関係ないですが、5.7.7からはInnoDBのDefaultファイルフォーマットがBarracudaに変更されています。
Tableデータの圧縮を使う方には、手間が省けて良い変更かと思います。

[さらに読む]
MySQL5.7 with FTS Mecab

mecabプラグイン
MySQL5.7からmecabプラグインが利用出来るようになるので、基本的な動作確認をしました。
現状では、eucjpms (ujis), cp932 (sjis), and utf8 (utf8mb4)のみ対応している状態です。

Mecabについて
http://ja.wikipedia.org/wiki/MeCab

参考: 
InnoDB Full-Text: MeCab Parser
http://planet.mysql.com/entry/?id=5989321

初期設定
Plugin Directoryにモジュールや設定ファイルがあります。

[root@misc01 mecab]# ls -l …
[さらに読む]
5 件中 1 - 5 件を表示