challenges — コーディングチャレンジとデータ圧縮実験

Tool

概要

このリポジトリは、計算リソースやアルゴリズムの限界に挑戦する目的で作られた「challenges」プロジェクトです。主なコンテンツは「Custom Data Compressor」というデータ圧縮実験で、大きなJSONデータセット(元サイズ約2.87GB)に対してデータ特性を利用した前処理(冗長性除去、トークン化、差分化、辞書化など)を施し、結果的に約42MBまで圧縮しました。さらにその出力を7zで再圧縮すると最終的に8.9MBという非常に高い圧縮率を実現しています。実装はPythonを用いた小さなコードベースで、実験的な最適化手法と汎用ツール併用の有効性が示されています。

GitHub

リポジトリの統計情報

  • スター数: 36
  • フォーク数: 3
  • ウォッチャー数: 36
  • コミット数: 3
  • ファイル数: 3
  • メインの言語: Python

主な特徴

  • 大規模JSONデータに対するカスタム前処理と圧縮アルゴリズムの実験。
  • Python実装で再現性が高く、汎用の7zと組み合わせることでさらなる圧縮率向上を確認。
  • 小規模なコードベースで試験的アプローチをまとめているため、改良や再利用が容易。
  • 実データでのビフォー/アフター(サイズ比較)を明示し、手法の効果を定量的に示している。

技術的なポイント

このプロジェクトの技術的核は「データのエントロピーを前処理で下げる」アプローチです。生のJSON(おそらく行ベースの大規模データ)には繰り返し出現するキー名、冗長な値パターン、時間やIDのような差分化可能な系列が含まれます。カスタム圧縮器はまずトークン化や辞書置換で冗長トークンを短縮し、列志向的に同種フィールドを分離して同一性を高めることでパターンを濃くします。さらに時間や数値系列はデルタ符号化して変動を小さくし、頻出語やシンボルはインデックス化して長い文字列を短い参照に置換します。これにより内部データのエントロピーが劇的に下がり、汎用的なブロック圧縮(例えば7zのLZMA)で非常に高い圧縮効率を発揮します。

実装はPythonで行われているため可読性と改修性に優れますが、メモリ使用や処理速度の観点では改善余地があります(ストリーミング処理、チャンク化、マルチスレッド化、外部インデックスの利用など)。また、カスタム前処理の設計はデータ特性に依存するため汎用性の調整が必要です。最終的な結果(Customのみで約42MB、7zと合わせて8.9MB)は前処理と汎用圧縮の組合せの有効性を示す良い実例で、特に大量の構造化テキスト/JSONデータの保存・転送に有益です。将来的にはメタデータの管理、圧縮・復元の高速化、テストとベンチマークの追加が実用化に向けた重要なステップとなります。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • README.md: file
  • compressor: dir

まとめ

実験的だが効果的な前処理で非常に高い圧縮率を示した興味深いリポジトリです。

リポジトリ情報:

READMEの抜粋:

Challenges

Custom Data Compressor

Inspired by Reddit :: How I was able to fit 1.2GB of cricket data into 50MB

Original Folder Size: 2,872,200,021 bytes (~2.87 GB)
Custom: 42,462,177 bytes (~42.46 MB)

gzip: 52,980,912 bytes (~52.98 MB) (tar -cf - all_json | gzip -9)
7z: 45,026,348 bytes (~45.02 MB) (7z a -t7z -mx=9 -ms=on)

Custom + 7z: 8.9MB (!)

The entropy of …