Data

CNPJデータパイプライン:ブラジル法人番号データの効率的処理基盤
2025/6/15
cnpj-data-pipelineは、ブラジルの法人番号(CNPJ)に関する大規模データを効率的に収集、処理、管理するためのPythonベースのデータパイプラインプロジェクトです。法人情報の分析や活用を目的としたデータエンジニアリング基盤として設計されており、データ整形や更新処理を自動化することで、信頼性の高い最新情報の維持を実現します。

GM-CDRP:腸内細菌群と慢性疾患研究プログラム
2025/6/17
GM-CDRP(Gut Microbiota Chronic Disease Research Program)は、2010年以降に蓄積された腸内細菌群と関連する慢性疾患のコホートデータを収集・解析する研究プロジェクトです。糖尿病、非アルコール性脂肪肝炎、慢性炎症性腸疾患、関節リウマチ、冠動脈疾患、高血圧、心房細動、脳卒中など多岐にわたる疾患と腸内微生物の関連性を明らかにすることを目的としています。データベースの構築を通じて、疾患の予防や治療に資する知見の創出を目指しています。

hentaivid:文化的コンプライアンスを重視した映像ストレージシステム
2025/6/8
hentaividは、文化的規制に準拠したビデオストレージシステムであり、映像データにテキストチャンクを埋め込むことで高速な意味検索を実現します。データベースを用いずに、メディアファイル自体に情報を内包させることで、プライバシー保護とコンプライアンスを最大化した設計が特徴です。Pythonで実装され、軽量かつ効率的な検索基盤を提供します。

multigres - Postgres向けのVitess実装
2025/6/10
multigresは、Googleが開発した大規模MySQLクラスタ管理システムであるVitessのPostgreSQL対応版を目指すオープンソースプロジェクトです。Postgresのスケーラビリティや高可用性を実現しつつ、Vitessの優れた分散データベース管理機能を活用できることを目的としています。現状はまだ発展途上ながら、Postgresの水平分割やクラスタリング構成に関心のある開発者に注目されています。

Queryflare:安全でスケーラブルな従量課金型データベース
2025/6/12
Queryflareは、TypeScriptで実装された安全かつスケーラブルな従量課金型データベースシステムです。ユーザーはクエリごとに課金される仕組みで、効率的なリソース管理とコスト最適化を実現。セキュリティと拡張性を重視し、クラウド環境に適した設計となっています。開発者が柔軟に利用できるよう設計されており、特に大規模データ処理やAPI経由のデータアクセスで威力を発揮します。

Telegram-Scraper:Telegramチャンネルからのメッセージ&メディア収集ツール
2025/6/17
Telegram-Scraperは、Python製の強力なスクリプトで、Telethonライブラリを利用してTelegramチャンネルからメッセージやメディアをスクレイピングできます。リアルタイムでの連続収集、メディアの自動ダウンロード、そして収集データの多様な形式でのエクスポートを特徴とし、効率的かつ柔軟なデータ取得を実現します。

交通事故档案管理システム
2025/6/15
「TrafficAccidentFileManagementSystem」は、交通事故に関する档案(ファイル)を効率的に管理するためのシステムであり、卒業設計のソースコードとして公開されています。事故データの整理、検索、編集などの基本機能を備え、交通事故関連の情報管理を簡便に行うことが可能です。管理業務の効率化とデータの一元管理を目指した設計となっています。

Airflowとdbtを活用したデータパイプライン構築ワークショップ
2025/5/31
本リポジトリは、PythonベースのAirflowとdbt(data build tool)を組み合わせてデータパイプラインを構築するためのワークショップ用教材です。Airflowによるワークフロー管理とdbtによるデータ変換を連携させる実践的なサンプルが含まれており、モダンなデータエンジニアリングの基礎を学べます。小規模ながらも実用的な構成で、データ処理の自動化や品質管理に興味がある開発者に最適です。

geometry - 幾何学的関係データベース
2025/6/25
「geometry」はPythonで開発された幾何学的関係データベースで、幾何学的オブジェクト間の関係性を体系的に管理・利用できるツールです。研究や教育、応用数学の分野での利用を想定しており、幾何学的概念をコードベースで扱う際の利便性を高めることを目的としています。リポジトリはシンプルながらも拡張性を持ち、幾何学に関するデータ処理や分析をサポートします。

Practice-Pandas:Pandas練習コード集
2025/6/25
「Practice-Pandas」は、Pythonのデータ分析ライブラリであるPandasの練習用コードを網羅的にまとめたリポジトリです。初心者から中級者まで、Pandasの基本操作から応用的なデータ処理まで幅広く学べるように設計されており、実践的なサンプルコードで理解を深められます。データ分析のスキルアップを目指す方に最適なリソースです。

buou_grid:高周波ASグリッド生成ツール
2025/6/27
buou_gridは、高周波帯域に対応したAS(自律システム)グリッドを生成するPythonベースのツールです。ネットワーク解析や通信研究に特化し、高頻度データ処理に適したグリッド構造を効率的に構築できます。シンプルながら柔軟な設計で、ASネットワークの解析やシミュレーションに役立つ機能を備えています。

致理_postgres_星期日のデータ管理リポジトリ
2025/6/29
本リポジトリ「__2025_06_29_chihlee_postgres__」は、PostgreSQLに関連するデータ管理や操作を目的としたツール群やスクリプトをまとめています。中国語名「致理_postgres_星期日」からもわかるように、週末に集中したデータ処理やメンテナンス作業の効率化を狙った設計が特徴です。シンプルながら実用的な構成で、PostgreSQLを利用する開発者やDB管理者に有益なリソースを提供しています。

IRMV-Medical-Dataset:内視鏡手術向け三次元視覚データセット
2025/7/3
IRMV-Medical-Datasetは、内視鏡手術シーンに特化した高品質な三次元視覚データセットです。点群、深度画像、カメラ姿勢、キャリブレーションパラメータなどの幾何情報を豊富に含み、視覚SLAM、構造光3D再構築、カメラキャリブレーション検証、幾何学学習、手術ナビゲーションアルゴリズムの評価など、多様な医療ロボット分野の研究開発を支援します。これにより、複雑な手術環境下でのロボットの自主感知・定位能力向上に貢献することを目的としています。

CDCデータ処理自動化ツール(cdc-kaggle)
2025/7/3
cdc-kaggleは、Kaggleからのデータセットを自動で取得し、異なるバージョン間の差分を抽出するChange Data Capture(CDC)ファイルを生成するPythonベースのツールです。最新の2つのデータセットを比較して変更点を検出し、CSV形式で保存します。データのバージョン管理や差分分析を手軽に実現でき、データサイエンスやETL処理の効率化に役立ちます。

TradeLens:グローバル貿易パターンと経済開発の可視化ダッシュボード
2025/7/4
TradeLensは、200以上の国における国別の経済発展と購買行動の相関を分析・可視化するインタラクティブなダッシュボードです。DataCo GlobalのサプライチェーンデータセットやWorld GeoData 2023などの複数データを用い、コロプレスマップやパラレル座標プロットなど多彩なビジュアライゼーションでグローバルな貿易動向を直感的に把握できます。TypeScriptで開発され、拡張性とメンテナンス性に優れた設計が特徴です。

VictoriaTraces:高性能な分散トレース収集・分析システム
2025/7/7
VictoriaTracesは、高速かつスケーラブルな分散トレースの収集と分析を目的としたオープンソースのソフトウェアです。Go言語で実装されており、軽量で効率的なトレースデータの処理を実現。マイクロサービス環境におけるパフォーマンス監視や障害解析を支援するため、柔軟なデータ取り込みと高度なクエリ機能を備えています。VictoriaMetricsファミリーの一員として、他の監視ツールとの連携も強力です。

Solana開発者データ収集ツールの紹介
2025/7/10
本リポジトリは、Solanaエコシステムにおける開発者数を把握するためのGitHubクローラーのサンプル実装です。Solana関連のリポジトリや活動をGitHub上から収集し、PostgreSQLデータベースに保存。Solana開発者コミュニティの規模や動向を分析する基盤を提供します。JavaScriptで記述されており、実践的なデータ収集の例として活用可能です。

SSIS・Power BI・Microsoft BIを活用したデータパイプラインデモ
2025/7/12
本リポジトリは、Microsoft BIスタックを活用したリテール向けBIソリューションのデモを提供します。Power BIのデータモデリング、SSIS・SSRSによるETL・レポーティング、T-SQLの最適化、CI/CDパイプラインの実装、データ品質チェックのフレームワークなど、エンドツーエンドのデータパイプライン構築に必要な技術要素を体系的に学べる内容となっています。Azure DevOpsを用いた自動デプロイ環境も含まれており、実践的なMicrosoft BIの活用例として有用です。

SAR-SoMoist:SARと受動マイクロ波を用いた高解像度土壌水分推定ソフトウェア
2025/7/13
SAR-SoMoistは、合成開口レーダー(SAR)と受動マイクロ波リモートセンシングデータを活用した高解像度の土壌水分推定およびマッピングを目的とした統合ソフトウェアです。ユーザーフレンドリーなGUIを備え、データのインポート、疑似カラー表示、土壌水分の反演、時間変化解析などを簡便に実行可能。農業や水資源管理、環境モニタリングに貢献する先進的なツールとして注目されています。

ウェブ上の表データ読み取りチャレンジ
2025/7/15
本リポジトリは、ウェブページ上に存在する表形式のデータをPythonのJupyter Notebook環境で効率的に取得・解析する手法に挑戦したものです。主にPandasライブラリを活用し、HTMLテーブルの読み込みからデータの整形までを実演。データサイエンスやスクレイピング入門者に向け、実践的なコード例を通じてウェブデータの活用方法を分かりやすく示しています。

TheLab-workspace:汎用アイデア創出とプロジェクト初期化のランチパッド
2025/7/16
「TheLab-workspace」は、PowerShellをベースにした汎用的なアイデア発想およびプロジェクトの初期化支援ツール群を提供するリポジトリです。Azure Cosmos DBを利用したTypeScriptサンプルの統合や、開発環境のコンテナ化設定を含み、効率的な開発開始をサポートします。多彩な設定ファイルやスクリプトで構成されており、開発者のワークスペース構築を加速させることが可能です。

部門別給与分析ダッシュボード
2025/7/17
本リポジトリは、Celebal TechnologiesのSQLインターンシップ最終課題として作成された、StreamlitとPower BIを用いた部門別給与分析のダッシュボードです。従業員と部門の給与データを可視化し、平均給与が全体平均を上回る部門を強調表示することで、給与分布の傾向や課題を簡単に把握できます。Pythonベースで開発されており、データの生表示からグラフ化まで幅広く対応しています。

txwd_record:Tencent Docsオンライン表格解析ツール
2025/7/17
txwd_recordは、APIを必要とせずにTencent Docs(腾讯文档)のオンライン表格をPythonで解析するツールです。前端のレンダリングデータを解析し、表格の内容をpandasのDataFrame形式に変換することで、データの取得・分析・加工を容易にします。複雑なAPI認証やスクレイピングの煩雑さを排除し、シンプルかつ高精度なデータ抽出を実現しています。

コンクリート強度・橋梁状態評価・構造安定性モデリング
2025/7/18
本リポジトリは、土木工学の教育課題として作成されたデータサイエンスと構造工学の統合的な解析プロジェクトです。Pythonを用いてコンクリートの強度評価、橋梁の状態評価、構造の安定性モデリングを実施し、現実世界の土木問題に対する理解と技術習得を目的としています。データ処理から可視化、オブジェクト指向プログラミングまで幅広くカバーし、実践的なエンジニアリング情報処理のスキルを養成します。

SolanaのTPS計測ツール
2025/7/18
本リポジトリはSolanaブロックチェーン上のトランザクション処理速度(TPS: Transactions Per Second)を計測するRust製のツールです。指定した過去の時間範囲内におけるブロックを取得し、平均TPSを算出します。Voteトランザクションは除外されるため、実際の取引処理能力を正確に把握できます。Solanaのパフォーマンス解析やブロックチェーン研究に有用なリソースです。

seq-db:高性能ログ管理データベース
2025/7/18
seq-dbは、ログの保存と高速クエリに特化したスケーラブルで高性能なデータベースです。単一インスタンスからクラスタ構成まで柔軟に対応し、大量のログデータを効率的に扱えます。Go言語で実装されており、拡張性と可用性を重視した設計が特徴です。開発者向けにシンプルなクイックスタートガイドや詳細なアーキテクチャドキュメントも提供されています。

Power BI プロジェクト集(DATA 320)
2025/7/19
本リポジトリは、Power BIを用いて作成されたデータ分析プロジェクトのコレクションです。主にデータの品質レポート作成に焦点を当てており、学術的な課題や実務的な分析に役立つ資料が含まれています。初心者から中級者までPower BIの活用方法を学べる構成となっており、データ可視化やレポート作成の実践例が豊富です。

スマートマーケットインサイト(Smart Market Insights)
2025/7/24
Smart Market Insights(SMI)は、モバイルデバイスを活用して地元のトレーダーが在庫管理や価格設定を賢く行えるよう支援するデータプロジェクトです。基本的なデータ分析やAIツールを用いて、販売動向の把握や効率的な意思決定を実現。Google SheetsやDatawrapper、ChatGPTなどのツールを組み合わせ、実用的かつアクセスしやすい形で市場インサイトを提供します。