Pythonによるデータ準備とデータ統合

データ統合とデータ準備のためのオープンソースコンポーネントを提供します。
様々なタスクや利用シーンに組み込んだり、再利用することができます。
チュートリアル、データセット、そして使用例を紹介しています。

Data Acquisition, Extraction, and Cleaning

このコンポーネントは他のテキストリソースから体系化されたデータを得る場合に使用してください。このツールはデータの矛盾を検知し修正が行えます。

Entity Matching

このコンポーネントは２つの元データが重複するか関係性があるかを検知します。

Schema Matching and Mapping

このコンポーネントは２つのデータのスキーマ特性をマッチさせるか、またはスクリプト（スキーマ・マッチング）を使用して１つのデータフォーマットをもう１つのデータに適用する事ができます。

Additional Data Prepation Tools

このコンポーネントは追加要素としてワークフロー関連タスクの自動化や１つのデータフォーマットを異なるデータに適用するツールを含みます。