コードとデータ

Code and Data

このチュートリアルは主に、BigGorillaの概要とデータ統合とデータ準備に関する基本的なコンセプトをいくつか示しています。

データを取得し、関連情報を抽出し、データセットのプロファイリング、クリーニング、マッチングおよびマージの一般的な方法を示す、映画に関するコードおよびデータを含む詳細なチュートリアルです。

WikipediaのダンプファイルをテキストからJSON 形式に変換する方法を示す、コードとデータ付きの簡単な例です。

Wikipediaページからの情報抽出の例

選択されたWikipedia記事のタイトルと最初のパラグラフをJSONファイルとして抽出し、格納する例です。

Flexmatcherでスキーママッチングをする例

BigGorillaのFlexMatcherパッケージを使用してさまざまなスキーマを中間スキーマにどのようにマッチングできるかを示すコード例です。

レストランのレビューをスクレイピングする例

Scrapyパッケージを使用してWebサイトの複数のページからレビューをスクレイピングするコード例です。

:)