現場データサイエンティスト奮闘記

とある企業で働くデータサイエンティストの日々のアウトプット

GCP

GKEでなるべく節約してcronjobを使う方法

概要 cronjob をGKEで使っているけど、常に n1-standard 系のインスタンスが立っていると結構お高い しかし処理によっては g1-small などの貧弱なインスタンスでは足りないケースがある したがって cronjob のときだけパワーのあるマシンが使えるようにして…

Cloud Endpoints + GKEで構築したAPIをマネージド証明書を用いてhttps通信に対応させる

概要 APIを作成する際に、GCPのサービスであるCloud Endpointsを使うとAPIのドキュメント管理や認証機能を簡単に実装できるなどいろいろと便利です。アプリケーションの部分はGKEで作ってそれらを連携させていたりします。 それらの詳しい方法は以下のリンク…

gcloudコマンドで操作するGKEのクラスタを切り替える方法

コマンド 出オチですが、これでできます。 gcloud container clusters get-credentials [CLUSTER_NAME] 状況 コマンドラインで複数のクラスタを切り替えながら操作したいときに上記コマンドでいけます。 kubectl で config いじるより簡単そうなのでこっちの…

GKEのオートスケールの設定手順をまとめた

概要 GKEにはアクセス負荷に応じて適宜サーバを増やしたり減らしたりしてくれるオートスケール機能が備わっています。 クラスタ作成時のその設定方法をまとめました。 オートスケール設定方法 GKEのオートスケールの種類について GKEにはオートスケールの種…

肥大化したBigQueryの管理にデータレイク・データマートの考え方が使えるのではないか

はじめに 前提として、筆者は事業会社でいくつかのwebサービスを運営している会社にいます。 アクセスログなど日々山のようなデータが蓄積され、しかも複数のプロダクトを管理しているので、なかなかにデータの管理が煩雑になりがちという状況です。 この改…

GCPのCloud Functions + Cloud Scheduler + Cloud Source Repositoriesで任意のPythonを定期実行させる仕組みをつくる

データ分析でPythonを使っているのですが、データを加工して〜みたいな処理を毎日やるタスクが地味にあったりするので自動化したいです。 最近はGCPも触っているので、GCPのサービスだけでそれを実現できないかなと考えました。いわゆるサーバレスな構成にな…