Fri, Mar 19

  • 09:48  ひろお
  • 08:30  朝なのだが、検索と圧縮の事だけ考えて、それ以外のことを棚に上げていた反動がきている。
  • 08:15  全体的に「差分とって圧縮」してないからかな。この程度の語彙とエントリ数なのに。あなどれないな。
  • 08:12  ぐっは。自分のMacBook上のVMに与えていたメモリではメモリが足りなかったというオチか。(500M+2G)
  • 02:44  素朴過ぎてindexに4時間くらいかかるっぽい。終わってる。終わってるが、最初だからな。今後これより遅い事はない。
  • 02:43  bigramとtrigramのindexを作ってみながら、寝る。
  • 02:37  お、検索できとるな、大丈夫だ。今は大丈夫だという事にしておこう。。
  • 02:32  おわわ、これは、もとのデータの10倍以上のデータ量になっている。うけるwwww
  • 01:46  文書番号がランダムだといつ終わるのか分かんないww
  • 01:32  終わらない。風呂入ってくるか。
  • 01:30  文書番号をランダムにして突っ込んで、まともに動くか見てみよう。
  • 01:29  10とか、ほとんど重複しないかと思ったら、意外と重複するな。。
  • 01:28  検索結果の枝刈りを工夫してないから10gram indexを作って、どんなことになるか、みてみようかな。。。
  • 01:17  元のファイルより大分小さいな。14%くらいか。重複しまくってるってこと?
  • 01:14  お、indexしきれた。
  • 01:13  今日のところはnの値を大きくしてクエリを投げてお茶を濁すか。。
  • 01:12  あー、そうか、思い出した。このまま検索したら、文書量大杉で死ぬな。。ngram のヒット数を数えて上位だけ持ってこないといけないのか。
  • 01:10  あー、住所とか、文書番号の差分圧縮がかなり効くよな。ひどいことになる予感。
  • 01:08  122883 エントリか。お試しに丁度よさげ。
  • 01:07  678だった。
  • 01:03  即utf8にした。
  • 01:03  く、sjisか。
  • 01:00  2,7,8,9番目だけとって、789\t2とかにすれば良さげ。
  • 00:57  あ、意外と小さいな。
  • 00:56  郵便番号とかでやってみるか。
  • 00:56  hashが初期状態のときにこけそうだったので対応した。
  • 00:44  なんか、手頃なデータを突っ込んでみるか。。。
  • 00:43  速度の差を知りたいから、綺麗にまとめたらブランチ切ろう。
  • 00:43  ここまでで、大体、素朴な実装の速度は測れる気がするな。
  • 00:41  ngramがちょっとでも一致した文書は持ってこられるようになったな。
  • 00:20  @uchumik 早く健康になってください。ピザとか焼き肉とかラーメンとか行きたいです。  [in reply to uchumik]
  • 00:20  @uchumik ライトノベル読む暇はあるのかwww  [in reply to uchumik]
  • 00:15  重複の削除できた。な。
  • 00:14  @uchumik 2つめの病院行けばいいのにwwwww  [in reply to uchumik]
  • 00:09  おーけー。次は、検索して得た文書番号の重複を無くす。本当は、頻度を数えたいが頻度は一旦横においておく。
  • 00:04  次は検索用クエリをngram分割。

Powered by twtr2src