当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話

http://blog.howtelevision.co.jp/entry/2015/02/06/154048
http://www.nysol.jp/

大規模な表構造データ(CSVデータ)を効率よく処理する目的で開発されたオープンソースのコマンド群である。一般のPCでも数千万件〜数億件のCSVデータを処理できる。

NYSOL(「にそる」と読む*)とは
大規模データの解析に関する様々な大学やプロジェクトでの研究成果を広く産業界に還元する目的で構築されたソフトウェアツールの総称およびそのプロジェクト活動である。UNIX環境(Linux, Macなど)で動作する。

Miningが面白そう。

データマイニング機械学習の手法を提供するパッケージで、大学の研究室で開発されたツールや統計パッケージRと連動したコマンドなどを提供する。

あ、ドキュメント読んだけど、意味わからん…