本記事はHow to Setup Python Code Reviews With CodeRabbitの意訳です。

本記事は、コードレビューをできるだけシンプル、かつ迅速に行う方法について紹介するシリーズの第2回目です。前回の記事では、CodeRabbitが大規模なTypeScriptプロジェクトにおける生産性の向上と、課題の発見に役立つことを説明しました。

今回はさらに一歩踏み込んで、一般的なLinterでは難しい、CodeRabbitによるPythonコードの品質向上について紹介します。この記事を読めば、Pythonのコードレビューがよりスムーズ、かつ効率的に行えるようになるでしょう。

コードレビューにおける課題

始める前に、コードレビューがレビュアーや開発者にとって 、 時間のかかる大変な作業 である理由を紹介します。

Code review:

Software engineer: "The variable name isn't descriptive; I'd make it more expressive."

Senior sw engineer: "Suggest to not couple this class tightly for no reason."

Staff sw engineer: "Why are we building from scratch over using {Service that does exactly this}?"

— Gergely Orosz (@GergelyOrosz) February 5, 2022

コードレビューは、時にストレスを伴う作業です。開発者にとっては単なるルーチンワークではなく、慎重な対応が求められます。しかし、レビュアーはしばしば本質的な問題ではなく、個人の好みに関する細かな指摘を繰り返しがちです。意見の食い違いも頭を悩ませる要因であり、特に複数のレビュアーが異なる意見を持っている場合は厄介です。加えて、開発者がレビューコメントを正しく受け取らなかったり、期待される品質基準を満たしていないと、何度も修正することになります。さらに、期待値が不明確なままだと、レビューのプロセス自体が終わりの見えないものになってしまいます。

こうした問題は、Pythonやその他のプログラミング言語に関連するものではなく、コードレビュープロセスでは一般的なものです。

Pythonのコードベースを扱う際に開発者が直面する、典型的なコードレビューの課題を解説します。

Pythonのコードレビューにおける課題

理論上、コードレビューは簡単だが、実際には難しい。特にPythonの場合は

前述したように、開発者によってコードレビューの目標は異なります。技術的な問題を発見することだと考える開発者もいれば、コードの機能要件を検証する場と考える開発者もいます。

Pythonのコードレビューで直面する具体的な課題を見てみましょう。

例:

# 演算子の不適切なスペース、カンマの後のスペースの欠落が、PEP 8違反を示しています
def calculateUserAge(user_birthdate, current_date):
    age = current_date.year - user_birthdate.year  # 演算子周辺のスペースが不統一
    return age

型安全性と動的型付け

Pythonの動的型付けにより、型関連のバグの追跡が困難
型アノテーションをいつ使用すべきかについて、迷う

例:

# 問題点: 'data' の型と期待されるメソッドが明確でない
# このコードでは 'data' に 'transform' メソッドがあることを前提としているが、'data' の型は指定されていない
def process_data(data):
    return data.transform()  # 'data' の型は？どのようなメソッドがあるべきか？

コードの複雑さ

ソフトウェアエンジニアリングにおける問題は、コードが最適化されていない点ではありません。問題のほとんどは、コードが複雑であることに起因しています。

Complexity is an often overlooked aspect of a system because usually someone else is paying the price for it, not the person creating it.

But don't be mistaken, someone is paying the price - whether money, time or mental capacity. They might not be willing/able to do forever.

— Péter Szilágyi (@peter_szilagyi) March 18, 2022

実装における不必要な複雑さ
複雑に絡み合ったロジックの流れ
過剰な条件分岐
Pythonの組み込み機能の使用漏れ

例

# 問題点：不必要な複雑性と深いネスト
# このコードでは複数のネストされたif文を使用しており、ロジックがわかりにくくなっています
def get_user_status(user):
    status = None
    if user.is_active:
        if user.last_login:
            if (datetime.now() - user.last_login).days < 30:
                status = "active"
            else:
                status = "inactive"
        else:
            status = "never_logged_in"
    else:
        status = "disabled"
    return status

依存関係とインポートの管理

循環的な インポート と不明瞭な依存関係の階層
絶対インポートと相対インポートの混在

例:

# 問題: file1.py と file2.py 間の循環インポート
# file1.py は file2.py から ClassB をインポートし、file2.py は file1.py から ClassA をインポートしています
# これにより循環依存関係が生じ、ImportError や予期せぬ動作につながる可能性があります

# file1.py
from file2 import ClassB  # 循環インポート
class ClassA:
    def method(self):
        return ClassB()

# file2.py
from file1 import ClassA  # 循環インポート
class ClassB:
    def method(self):
        return ClassA()

コードのモジュール化とアーキテクチャ

一貫性のないプロジェクト構造とビジネスロジックとインフラコードの混合
問題の分離ができていない

例:

# 問題点: モジュール化と責任分担の欠如
# create_user メソッドが複数のタスク（バリデーション、データベース接続、メール送信、ログ記録）を実行している
# これは Single Responsibility Principle (SRP) に違反しており、コードの保守や拡張が困難になる可能性がある
class UserService:
    def create_user(self, data):
        # データのバリデーション
        # データベースへの接続
        # 歓迎メールの送信
        # 監視システムへのログ記録
        pass

悪いテスト方法

テストカバレッジ — 状況によって異なり、議論の余地がありますが、100%のカバレッジを目標とするのは良い考えではありません。しかし、テスト実行中のカバレッジを測定し、レポーティングすべきです。

目標として扱うのではなく、警告として扱いましょう。カバレッジが突然低下した場合は、メインのコードベースまたはテストスイートのいずれかで問題が発生している可能性があります。テストを書かないよりも、テストを書いた方が低コストです。

テストカバレッジが不十分で、テストの意図が不明確
テストスイートが長くて悪い

例:

# 問題点: テストの悪い習慣 - 検証が不十分で、エッジケースのテストが欠如している
# このテストは、ユーザーが None でないかどうかだけをチェックしており、ユーザー作成プロセスの包括的な検証ではありません。
# このテストでは、ユーザーが正しい属性で作成されたかどうかを確認し、無効な入力やデータの欠落、作成中のエラーなどのエッジケースを処理する必要があります
# このテストにはデータの正確性を確認するアサーションが欠如しており、失敗ケースのテストも行われていません
def test_user_creation():
    user = create_user("john", "doe", 25)
    assert user is not None  # このアサーションはあまりにも基本的なものであり、正確性を検証するものではありません

パフォーマンスの問題

非効率的なデータ構造の利用とメモリリーク
不要な計算

例

# 問題点：O(n) の検索パフォーマンスの問題
# 現在の実装では、'users' リストに対して線形探索（O(n)）を行なっているため、データセットが大きくなると処理が遅くなります
# 'users' のサイズが大きくなると、検索時間が線形に増加し、パフォーマンスが低下します
def find_user(users: list, user_id: int) -> Optional[User]:
    for user in users:
        if user.id == user_id:
            return user
    return None

貧弱なエラー処理

一貫性のないエラー処理パターン
例外の捕捉が広すぎる
エラーログが欠落している

例:

# 問題点: 貧弱なエラー処理 - 例外をすべて捕捉し、コンテキストなしでログに記録
# このコードでは、汎用的な「Exception」クラスを使用してすべての例外を捕捉しているため、
# 特定のエラーが隠されてしまい、デバッグが困難になる可能性があります
# さらに、エラーが発生した場所やアプリケーションの状態に関する有益なコンテキストがなく、エラーメッセージのみをログに記録しています
try:
    do_something()
except Exception as e:
    log.error(e)  # 汎用性が高すぎてコンテキストが欠如し、デバッグが困難です

Ruff — 高速なLinterですが、コード品質については他にも考慮すべき点があります

Ruff が非常に高速なLinterであることは待ちがありません。

Ruff のようなLinterを使用することで、コードの品質は大幅に改善されます。しかし、特有の課題やノイズ、そしてすべてのPR/変更に対する手動で操作が必要です。

Ruffの限界の例：

Docstringの強制 - Ruffは、欠落または不整合なドキュメントについて指摘する場合があり、小規模なプロジェクトではわずらわしく感じられることがあります
コードの複雑性 - Ruffは、mccabe の複雑性チェックのようなルールを含んでおり、複雑な箇所を指摘することがありますが、まだ保守可能な場合もあります。指摘に基づくリファクタリングは、小規模な関数では不要なこともあります
Isort との統合 - Ruffは、インポート順のチェックも行いますが、インポートの変更が頻繁だったり、動的にロードされるモジュール構造だと、指摘がストレスになります
Ruffは、カスタムルールやプラグインをサポートしていません。これが現在の最大の制限事項です

では、ここからはCodeRabbitを人気のPythonリポジトリで実行して、自律型AIエージェントを開発してみましょう！

CrewAI PRでCodeRabbitを実行

CrewAIは、LLMエージェントフレームワークです。CrewAIのリポジトリで、CodeRabbitのライブテストを行ってみましょう！

CrewAIのフォーク

[CrewAI GitHub リポジトリ] (https://github.com/crewAIInc/crewAI) にアクセスします。
ページの右上にある「Fork」ボタンをクリックして、GitHub アカウントにリポジトリのコピーを作成します。

リポジトリをローカルにクローン：

ターミナルまたは Git Bash を開きます。
以下のコマンドを実行して、フォークをクローンします。

git clone https://github.com/<あなたのユーザー名>/crewAI.git

任意の既存のブランチを選択:

コードレビューのフィードバック - デモリポジトリ - crewai

プロジェクトフォルダに移動します。

cd crewAI

既存のブランチに切り替えます。

git checkout <branch-name>

変更を加えます。
お好みのコードエディタ（例：VSCode）でリポジトリを開きます。
任意のファイルに小さな変更を加えます。例えば、コメントを追加したり、既存のコメントを修正します。
変更をコミット:

git add .
git commit -m "テスト用に小さな変更を加えました。CodeRabbit"

ブランチをフォークしたリポジトリにプッシュ:

git push origin <branch-name>

プルリクエスト（PR）を送信:

GitHub のフォーク先に行き、 Compare & pull request ボタンをクリックします。
変更内容を確認し、 Create pull request をクリックします。

プルリクエストを作成し、CodeRabbit の動作を確認しましょう。

CodeRabbitによるプルリクエストの概要

💡

以上です。とてもシンプルで簡単に始められます！

重要 — あなたのフォークでCodeRabbitを有効化する

各リポジトリのCodeRabbit UIを使用して設定する

💡

PRでCodeRabbitが動作していないように見える 場合は、次のチェックリストを確認してください。

GitHubアカウントを使用してCodeRabbitにログインしていることを確認してください
フォークしたリポジトリをCodeRabbitダッシュボードに追加します。https://app.coderabbit.ai/settings/repositories

Tip: CodeRabbitでは、ダッシュボードに明示的に追加されているリポジトリのみ実行対象です。PRにAIレビューアーが表示されない場合は、実行対象外になります。

より詳細なセットアップ手順については、CodeRabbitのドキュメントをご覧ください。

CodeRabbitレビューにおける主な結果

CodeRabbit によるこのプルリクエストのコードレビュー結果を見てみましょう。

CodeRabbitのコードレビューによる、主なトピックは以下の通りです。

特別なメソッドの強化:

getitem メソッドのエラー処理を改善する必要がある
マージ前に TODO コメントを修正する必要がある
キーの型を検証し、KeyError 例外を処理することを提案する

CodeRabbitによるコードレビューの主なトピック

ファイル操作の問題：

メソッド間で、初期化ロジックが重複している
追加メソッドで、潜在的な競合状態が確認された
ファイル操作で、適切なエラー処理が必要
UTF-8 エンコードの指定が欠落している

File Operations Issues

テストカバレッジのギャップ:

TaskOutputJsonHandler のテストカバレッジが不足している
PickleHandler はテストされているが、JSONハンドラの実装にはカバレッジが必要

タスク作成の冗長性:

kickoff_for_each_async でタスクが重複して作成される可能性がある
タスクが、複数回スケジュールされるリスクがある

完全なレビューと議論については、PRをご覧ください。

一番良いところは、CodeRabbitがコードレビューのコメント内で、1クリックで修正できる方法を提案してくれることです。

！素早い修正のために、CodeRabbitはAIが推奨する変更をコミットするワンボタンソリューションを提供しています。

PRのコメントで、開発者とレビュアーの間を行ったり来たりする必要はもうありません。

今まで、さまざまなLinterや、その他のAIツールをコードレビューに使用したことがあるかもしれません。CodeRabbitは、GitHubのワークフローにシームレスに統合され、追加の手順は一切必要ないのがポイントです。プルリクエストを作成して約5分間待つだけで、手動のレビューが行われる前に、コードの問題に関して包括的な分析結果を受け取れます。

もしあなたが開発者や創業者であり、頻繁にコードレビューを行っているのであれば、フォーマットの調整や命名規則、ループの最適化といった些細な問題に費やしている時間を考えてみてください。CodeRabbitを使用すれば、コードがユーザーのニーズに効果的であるか、または本番環境への展開に耐えうる安定性を備えているかといった、より重要な側面にフォーカスできます。

Pythonコードレビューの苦痛を、生産性へと変える

PEP8の準拠から複雑なアーキテクチャの問題まで、Pythonコードレビューにおける一般的な課題について解説し、CodeRabbitが従来のLinterを超えてスマートにコンテキストを認識した解決策を提供する方法を紹介しました。コードレビューの面倒な側面を自動化し、CodeRabbitはチームが本当に重要なこと、つまり優れたソフトウェアの開発に集中できるようサポートします。

CodeRabbit にサインアップして無料トライアルを開始してください。自動レビュー機能により、アプリケーションの品質が向上し、チームの作業効率も向上します。また、Discord チャンネル に参加して、開発者コミュニティとつながり、意見交換や現在取り組んでいるプロジェクトについて話し合うこともできます。

追記：オープンソースプロジェクトは無料です。

CodeRabbit を使用した Python コードレビューの設定方法